
EP#46: Dados Sintéticos
カートのアイテムが多すぎます
カートに追加できませんでした。
ウィッシュリストに追加できませんでした。
ほしい物リストの削除に失敗しました。
ポッドキャストのフォローに失敗しました
ポッドキャストのフォロー解除に失敗しました
-
ナレーター:
-
著者:
このコンテンツについて
Vivemos uma era movida por dados. Das decisões empresariais às políticas públicas, da publicidade personalizada aos diagnósticos médicos, passando por mecanismos de reconhecimento facial, análise preditiva e sistemas de recomendação, os dados estão em tudo. Mas e quando esses dados não estão disponíveis? Quando são incompletos, enviesados ou simplesmente impossíveis de acessar por barreiras legais, éticas ou estruturais? Nesse cenário, os dados sintéticos ganham cada vez mais espaço como solução — ou, para alguns, como um novo problema. Mas afinal, o que são dados sintéticos?
Ao contrário do que o nome pode sugerir, dados sintéticos não são “dados falsos” no sentido vulgar da palavra. Eles são gerados artificialmente por meio de algoritmos que imitam as propriedades estatísticas dos dados reais. A ideia é que eles reproduzam padrões, correlações e comportamentos esperados, sem revelar ou expor informações verdadeiras de indivíduos ou organizações.
Na prática, os dados sintéticos são criados a partir de dois métodos principais: a perturbação de dados reais com ruído (técnica que protege a identidade e confunde tentativas de reidentificação) e a geração completamente autônoma de novos dados por meio de modelos generativos, como os GANs (Redes Generativas Adversariais) — a mesma tecnologia por trás de deepfakes e imagens hiper-realistas geradas por IA.
Esse avanço resolve um problema antigo: a escassez crônica de dados confiáveis. Como destacou o professor Marcelo Finger, da Universidade de São Paulo (USP), em entrevista recente, até mesmo grandes laboratórios como a OpenAI enfrentam limitações nesse aspecto. “Vivemos com a falta crônica de dados, mesmo com a OpenAI”, afirmou. Em muitos setores, como a saúde, finanças ou direito, o acesso a dados reais é cercado de sigilo, alto custo e complexidade regulatória. A alternativa? Criar dados que sejam fiéis à realidade, mas que não representem ninguém em específico.
A adoção dessa tecnologia vem crescendo. De acordo com relatório da Gartner, até 2030, 60% dos dados utilizados para treinar modelos de IA serão sintéticos. E isso não é ficção científica — já hoje, empresas como a Nvidia, Google, Meta e startups especializadas como Synthetaic e Mostly AI investem pesadamente nessa frente. Na indústria automotiva, por exemplo, dados sintéticos são usados para simular bilhões de quilômetros rodados por veículos autônomos sem precisar sair do laboratório. Na área da saúde, permitem criar bancos de dados de pacientes fictícios que ajudam a treinar algoritmos diagnósticos sem ferir o sigilo médico.
Há uma preocupação adicional quando esses dados alimentam sistemas com alta autonomia decisória, como sistemas judiciais automatizados, inteligência artificial em decisões administrativas ou análise de risco bancário. Nesses contextos, a ilusão de objetividade dos dados sintéticos pode ser ainda mais perigosa que o viés explícito de dados reais, justamente porque escapa à percepção crítica dos operadores.
Outro ponto sensível é o direito à transparência. Se a IA toma decisões com base em dados que não são auditáveis, porque são sintéticos, como será possível realizar controle social, revisões judiciais ou perícias técnicas? Isso toca diretamente o coração do direito digital: o equilíbrio entre inovação e responsabilidade, entre o possível e o aceitável
Nas universidades, o uso de dados sintéticos também se expande. Na PUC-Rio, por exemplo, pesquisadores têm estudado formas de aplicar essa tecnologia em estudos de políticas públicas, enquanto na UFRJ e na FGV surgem debates sobre os limites jurídicos e éticos da manipulação de dados no contexto da inteligência artificial.
Neste episódio vamos aprofundar esses debates. Vamos entender como os dados sintéticos estão sendo utilizados, quais as promessas e os perigos que trazem, e de que forma o Direito pode — e deve — responder a essa nova fronteira da realidade artificial. Vem com a gente!