Tem gente usando suas fotos sem o seu consentimento para treinar IA – 20/07/2023

Nos últimos anos, o consentimento de dados se tornou um assunto cada vez mais importante e controverso. Com o avanço da tecnologia e a coleta massiva de informações, surge a necessidade de discutir como esses dados são utilizados e quem tem controle sobre eles.

O consentimento de dados é o ato de obter a permissão explícita dos usuários para coletar, armazenar e utilizar suas informações pessoais. No entanto, quando se trata do treinamento de dados (essencial para o desenvolvimento de tecnologias como a inteligência artificial e o aprendizado de máquina), essa questão se torna ainda mais complexa. Mas como garantir que esses dados sejam obtidos de maneira ética e transparente?

Essa é uma das controvérsias que envolve o consentimento de dados para treinamento, e explorar seu histórico e contexto é fundamental para entender as ramificações dessa questão em nossa sociedade moderna.

Uma das principais controvérsias gira em torno da obtenção do consentimento de dados em treinamentos de dados. A coleta de dados para esses fins ocorre sem o conhecimento ou consentimento direto das pessoas. Isso levanta questões éticas sobre a transparência e o direito das pessoas de decidir como suas informações pessoais são usadas.

Os desafios práticos da obtenção de consentimento de dados em treinamentos de dados são numerosos. Diferentemente de outros contextos em que o consentimento é solicitado, como em pesquisas ou serviços online, identificar e obter o consentimento individualizado para usar dados em treinamentos pode ser extremamente complexo. Além disso, garantir que o consentimento seja informado e voluntário é um desafio adicional.

Para continuarmos a construção ética sobre esse tema precisamos rememorar alguns casos famosos que até hoje não tiveram direcionamentos em relação à privacidade.

O ImageNet é um dos conjuntos de dados de imagens mais conhecidos e amplamente utilizados na área de visão computacional e aprendizado de máquina. Ele foi criado por pesquisadores da Universidade de Princeton e lançado em 2009. O objetivo principal do ImageNet é fornecer um conjunto de dados abrangente e diversificado para treinar algoritmos de reconhecimento visual.

O projeto coletou fotos da Internet sem obter autorização explícita dos indivíduos retratados. Essa prática é comum em muitos conjuntos de dados para treinar algoritmos de visão computacional. A coleta automatizada em larga escala de imagens da Internet levanta questões éticas relacionadas à privacidade e ao consentimento dos indivíduos.

Muitas vezes, as imagens são obtidas de fontes consideradas “públicas” como as redes sociais e disponíveis livremente, mas o uso delas pode violar a expectativa de privacidade das pessoas. Ao coletar e utilizar imagens sem autorização explícita, ferramentas como o ImageNet podem inadvertidamente expor as pessoas a riscos de violação de privacidade, uso indevido de suas informações pessoais ou mesmo discriminação algorítmica.

Os pesquisadores Abeba Birhane e Vinay Prahbu resgatam em seu artigo “Large image datasets: A pyrrhic win for computer vision” como esta prática foi uma das primeiras que normalizou esta prática, anos depois, a Clearview uma empresa especializada em reconhecimento facial que atraiu atenção significativa devido às suas práticas controversas.


A empresa coleta uma grande quantidade de imagens de pessoas em diferentes plataformas de mídia social e outros sites, sem o consentimento direto dos indivíduos. Esses dados são usados para treinar algoritmos de reconhecimento facial, fornecendo uma capacidade de identificação em massa.

A principal preocupação com a Clearview AI é o uso não autorizado de dados pessoais e a violação da privacidade dos indivíduos.

A principal preocupação em ambos os casos é como a falta de ênfase no consentimento individualizado e a coleta massiva de dados pessoais sem autorização tem gerado controvérsias em relação à privacidade de dados. Isso levou a um maior escrutínio das práticas de coleta, uso e armazenamento de dados em treinamentos de algoritmos e tecnologias de reconhecimento facial.

O impacto direto em nossas vidas tem sido um dos fatores mais estudados nos últimos anos. No Livro “The Black Box Society: The Secret Algorithms That Control Money and Information”, Frank Pasquale examina como algoritmos opacos e sistemas automatizados afetam nossa vida diária, destacando questões de transparência, responsabilidade e privacidade.

Já no livro “Privacy in the Age of Big Data: Recognizing Threats, Defending Your Rights, and Protecting Your Family”, Theresa Payton e Theodore Claypoole oferecem insights sobre como proteger a privacidade pessoal em um mundo de dados em constante expansão.

As perspectivas futuras em relação ao consentimento de dados em treinamentos de dados envolvem uma maior conscientização sobre a importância do consentimento informado e um maior escrutínio sobre as práticas de coleta e uso de dados em algoritmos de IA, algumas já estão em desenvolvimento como o marco regulatório de inteligência artificial no Brasil e em debate no resto do mundo.

É esperado a partir disso uma transparência maior em relação ao que é feito com os dados. Maior controle do usuário e avanços tecnológicos – da computação federada à aprendizagem por transferência – podem permitir que os usuários tenham maior controle sobre seus dados.

Essas abordagens descentralizadas de treinamento de IA permitem que os dados permaneçam em posse dos usuários e sejam utilizados localmente, reduzindo a necessidade de transferência em grande escala e fornecendo maior autonomia sobre o consentimento de dados.

*Cientista da computação, pesquisadora do Centro de Tecnologia e Sociedade (CTS-FGV), integrante do Conselho de Segurança do TikTok e o Conselho de Desenvolvimento Econômico Social Sustentável. Fundadora do Instituto da Hora

Deixe um comentário