A OpenAI, empresa de inteligência artificial responsável pelo famoso ChatGPT, está sendo processada em uma ação coletiva liderada pelo escritório de advocacia Clarkson, com sede na Califórnia (EUA). A firma alega que a OpenAI violou os direitos autorais e a privacidade de inúmeras pessoas ao usar dados extraídos da Internet para treinar sua tecnologia. A informação foi divulgada hoje (28) pelo jornal The Washington Post.
O processo tem como objetivo explorar uma nova teoria legal – que a OpenAI infringiu os direitos de milhões de usuários da internet ao usar seus comentários em redes sociais, postagens em blogs, artigos da Wikipédia, e até receitas de família. A Clarkson, que já liderou ações coletivas em larga escala em casos de violações de dados a propaganda enganosa, quer representar “pessoas reais cujas informações foram roubadas e desviadas comercialmente para criar essa tecnologia muito poderosa”, segundo o sócio-gerente da empresa, Ryan Clarkson.
A ação foi aberta em um tribunal federal no distrito norte da Califórnia na manhã desta quarta-feira. Até o momento, um porta-voz da OpenAI não respondeu a um pedido de comentário.
O processo aborda uma questão fundamental ainda não resolvida sobre o aumento de ferramentas de IA “generativas”, como chatbots e geradores de imagens. A tecnologia funciona ingerindo bilhões de palavras da internet aberta e aprendendo a construir inferências entre elas. Após o consumo de dados suficientes, os “grandes modelos de linguagem” resultantes podem prever o que dizer em resposta a um prompt, dando-lhes a capacidade de escrever poesia, ter conversas complexas e passar em exames profissionais. No entanto, os humanos que escreveram esses bilhões de palavras nunca concordaram que uma empresa como a OpenAI os utilizasse para seu próprio lucro.
A legalidade do uso de dados extraídos da Internet pública para treinar ferramentas que podem ser altamente lucrativas para seus desenvolvedores ainda é obscura. Alguns desenvolvedores de IA argumentaram que o uso de dados da Internet deve ser considerado “uso justo”, um conceito na lei de direitos autorais que cria uma exceção se o material for alterado de maneira “transformadora”.
“Quando você coloca conteúdo em um site de mídia social ou em qualquer site, geralmente concede uma licença muito ampla ao site para poder usar seu conteúdo de qualquer maneira”, observou Katherine Gardner, advogada de propriedade intelectual da Gunderson Dettmer. “Vai ser muito difícil para o usuário final comum alegar que tem direito a qualquer tipo de pagamento ou compensação pelo uso de seus dados como parte do treinamento.”
O caso também faz parte de uma lista crescente de desafios legais para empresas que constroem e buscam lucrar com a tecnologia de IA. Nos últimos tempos, ações semelhantes foram movidas contra a OpenAI e a Microsoft em relação à forma como usaram o código de computador na plataforma de codificação online GitHub, de propriedade da Microsoft, para treinar ferramentas de IA.
Google, Facebook, Microsoft e um número crescente de outras empresas também usam dados extraídos da Internet aberta para treinar seus modelos de IA. No entanto, Clarkson decidiu ir atrás da OpenAI por causa do papel da empresa em estimular seus maiores rivais a lançar suas próprias IAs, quando capturou a imaginação do público com o ChatGPT no ano passado.
Os reguladores estão discutindo a promulgação de novas leis que exigem mais transparência das empresas sobre quais dados foram inseridos em sua IA. Também é possível que um processo judicial leve um juiz a forçar uma empresa como a OpenAI a fornecer informações sobre quais dados ela usou, mencionou Gardner.
A nova ação coletiva contra a OpenAI é mais abrangente em suas alegações, argumentando que a empresa não é transparente o suficiente com as pessoas que se inscrevem para usar suas ferramentas, de modo que os dados que eles colocam no modelo podem ser usados para treinar novos produtos dos quais a empresa irá lucrar, como sua ferramenta “plugins” que permite que outras empresas usem a OpenAI. A empresa também é acusada de não fazer o suficiente para garantir que crianças menores de 13 anos não usem suas ferramentas, algo que outras empresas de tecnologia, incluindo Facebook e YouTube, também foram acusadas ao longo dos anos.
Este caso marca mais um marco na controvérsia em torno do uso de dados pessoais para fins comerciais, e pode definir precedentes para o futuro da indústria de IA. Com o crescente uso de ferramentas generativas, como o chatbot da OpenAI, uma pergunta urgente se mantém: até onde vão os limites entre uso de dados públicos e os direitos individuais?