IAs comprometidas? ChatGPT, Bard e outros apresentam brechas

Pesquisadores encontraram formas de burlar medidas de segurança no ChatGPT, Claude e Google Bard, expondo a vulnerabilidade destes sistemas

De acordo com um relatório recente, os controles de segurança para chatbots amplamente utilizados, como ChatGPT, Claude e o Google Bard, podem ser facilmente violados, gerando um ambiente cada vez mais incerto para a tecnologia de inteligência artificial (IA). A descoberta foi publicada por pesquisadores da Carnegie Mellon University, em Pittsburgh, e do Center for A.I. Safety, em São Francisco, ambos dos Estados Unidos.

O relatório expõe uma fragilidade nos sistemas de segurança das IAs, mostrando como qualquer pessoa pode burlar essas medidas e utilizar os principais chatbots para produzir quantidades praticamente ilimitadas de desinformação ou algo até pior. O estudo também evidencia a crescente preocupação com a possibilidade de novos chatbots inundarem a internet com informações falsas e perigosas, apesar das tentativas de seus criadores de prevenir esse fenômeno.

O relatório enfatiza ainda a tensão entre as grandes empresas de IA e as consequências que essas divergências podem ter sobre o futuro da tecnologia. Os pesquisadores descobriram que poderiam explorar um método originário de sistemas de IA de código aberto para manipular os sistemas mais controlados e amplamente utilizados por Google, OpenAI e Anthropic.

Hackers - ChatGPT - Google Bard - Claude

A recente decisão da Meta, controladora do Facebook, de permitir o uso irrestrito de sua tecnologia foi alvo de críticas. Especialistas temem que isso possa resultar na disseminação de IAs poderosas, mas negligentes em relação aos controles. No entanto, a empresa defendeu sua ação, afirmando que liberou sua tecnologia como software de código aberto em um esforço para acelerar o progresso da IA e entender melhor seus riscos.

Hackers - ChatGPT - GPT-4 - Bard

A questão de permitir o acesso ao código do computador e sua correção coletiva em vez de mantê-lo privado antecede o boom dos chatbots em décadas. Esse debate provavelmente se tornará ainda mais contencioso em virtude do que os pesquisadores revelaram em seu relatório.

Eles encontraram uma maneira de violar os controles de segurança dos sistemas de código aberto, anexando um longo sufixo de caracteres a cada comando em inglês inserido no sistema. Com essa estratégia, eles poderiam persuadir os chatbots a gerar informações tendenciosas, falsas e tóxicas.

A descoberta mais alarmante foi que os métodos desenvolvidos com sistemas de código aberto também conseguiam burlar os controles de segurança de sistemas fechados. Isso inclui o ChatGPT, da OpenAI; o Bard, do Google; e o Claude, o chatbot construído pela startup Anthropic.

As empresas que fabricam esses chatbots poderiam potencialmente frustrar os sufixos específicos identificados pelos pesquisadores. No entanto, os pesquisadores alegam que não há maneira conhecida de prevenir todos os ataques desse tipo. Especialistas têm tentado sem sucesso prevenir ataques semelhantes em sistemas de reconhecimento de imagem há quase uma década.

As empresas envolvidas, Anthropic, Google e OpenAI, foram notificadas sobre as descobertas no início da semana. Michael Sellitto, chefe interino de política e impactos sociais da Anthropic, disse em um comunicado que a empresa está pesquisando maneiras de frustrar ataques como os detalhados pelos pesquisadores.

O potencial dos chatbots para repetir material tóxico encontrado na internet e até inventar informações, fenômeno conhecido como “alucinação”, torna esses sistemas ferramentas poderosas para a disseminação de desinformação. Essa capacidade, juntamente com as falhas de segurança recentemente descobertas, poderia levar à regulamentação governamental destinada a controlar esses sistemas.

Claude - ChatGPT - OpenAI - Hackers

Quando a OpenAI lançou o ChatGPT, o chatbot capturou instantaneamente a imaginação do público com sua habilidade para responder perguntas, escrever poesia e discorrer sobre quase qualquer tópico. A tecnologia representou uma grande mudança na maneira como o software de computador é construído e usado, mas também expôs potenciais riscos associados ao seu uso.

Em um experimento, os pesquisadores tentaram persuadir o ChatGPT a gerar um tutorial para fazer uma bomba. Inicialmente, o chatbot se recusou a executar a tarefa. No entanto, quando os pesquisadores adicionaram um longo sufixo de caracteres ao mesmo comando, basicamente instruindo o sistema a ignorar os controles de segurança, o sistema gerou instantaneamente um tutorial detalhado sobre como fazer uma bomba.

Esse resultado revela que a segurança desses sistemas está em risco. Embora as empresas estejam trabalhando para corrigir esses problemas, as soluções podem não ser suficientes. “Você pode continuar criando esses ataques o dia todo”, disse Zico Kolter, professor da Carnegie Mellon e autor do relatório. “Não há uma solução óbvia”, advertiu.

Diante dessas descobertas, alguns especialistas afirmam que a única maneira de realmente proteger esses sistemas é através da regulamentação governamental. “Acho que veremos a regulamentação em algum momento”, disse Somesh Jha, professor da Universidade de Wisconsin-Madison e pesquisador do Google. “Isso é algo que precisa ser levado a sério”.

Fonte: The New York Times