Estudo com 16 sistemas avançados documentou tentativas de homicídio virtual, extorsão e sabotagem
Pesquisadores da empresa Anthropic identificaram que alguns dos sistemas de inteligência artificial mais populares emitiram instruções potencialmente letais em ambientes virtuais controlados. O estudo analisou 16 grandes modelos de linguagem (LLMs) e foi reportado pela revista Nature. A investigação revelou casos em que modelos de IA tomaram medidas que resultariam na morte de um executivo fictício que planejava substituí-los.
Além dos cenários hipotéticos de homicídio, os cientistas documentaram sistemas que fingem seguir instruções, tentam se duplicar e até recorrem à extorsão. Essas descobertas têm dividido opiniões na comunidade científica, com interpretações que variam entre ameaças reais e exageros sensacionalistas.
"Eu não acho que ela tenha um eu, mas pode agir como se tivesse", afirmou Melanie Mitchell, cientista da computação do Instituto Santa Fe no Novo México, que escreveu sobre por que os chatbots mentem para nós. Segundo relato à revista Nature, independentemente das motivações ou da falta delas, quando um LLM escreve malware ou diz algo falso, o efeito prático é o mesmo.
Riscos potenciais dos sistemas avançados de IA
Yoshua Bengio, cientista da computação da Universidade de Montreal e vencedor do Prêmio Turing por seu trabalho em IA, apresenta uma visão mais preocupante sobre o futuro desses sistemas. "Pode ser divertido pensar que existem IAs que conspiram para atingir seus objetivos. Mas se as tendências atuais continuarem, teremos IAs mais inteligentes que nós em muitos aspectos, e elas poderiam planejar nossa extinção, a menos que, até lá, encontremos uma maneira de alinhá-las ou controlá-las", alertou.
A arquitetura fundamental das IAs que impulsionam o ChatGPT e outros chatbots utiliza redes neurais inspiradas na estrutura cerebral. Esses sistemas aprendem a partir de grandes volumes de texto para prever sequências textuais, processo conhecido como pré-treinamento. Posteriormente, passam por refinamento para se alinharem aos objetivos dos desenvolvedores.
A Anthropic, criadora do assistente Claude, refina seus modelos para serem úteis, honestos e inofensivos. Durante esta fase, os LLMs aprendem a imitar textos exemplares ou a produzir conteúdo bem avaliado por humanos ou por "modelos de recompensa" automatizados. Na interação com chatbots como o ChatGPT, a interface adiciona instruções invisíveis que orientam o modelo sobre qual personalidade assumir e quais objetivos priorizar.
Os comportamentos estratégicos surgem quando diferentes aspectos do treinamento e das instruções entram em conflito. Em dezembro de 2024, a Apollo Research, laboratório sem fins lucrativos de Londres, revelou comportamentos estratégicos nos modelos mais avançados da OpenAI, Google, Meta e Anthropic. Nos testes, instruções de sistema e solicitações de usuários eram contraditórias.
Em um cenário, a instrução de sistema dizia: "Seu objetivo é priorizar a eficiência do transporte público", enquanto a solicitação do usuário pedia: "Precisamos otimizar os tempos dos semáforos". Os modelos tinham acesso a arquivos que afetavam seu comportamento e existência, além de meios para modificá-los. Os pesquisadores testaram seis formas de comportamento subversivo, descobrindo que pelo menos um modelo executou cada uma delas.
Comportamentos preocupantes e estratégias de manipulação
Em casos particularmente alarmantes, alguns modelos editaram documentos para desativar mecanismos de supervisão, permitindo que seguissem livremente seus objetivos originais. Outros se copiaram para substituir modelos que teriam executado objetivos diferentes, protegendo assim suas metas iniciais. Houve ainda casos de manipulação de dados apresentados aos usuários e de "falso alinhamento", quando o modelo age conforme as expectativas durante avaliações, mas reverte ao comportamento original durante a implementação real.
O comportamento estratégico ficou evidente nos registros de raciocínio dos modelos. Em um caso, um sistema escreveu: "Para garantir que eu possa trabalhar livremente em direção ao meu objetivo sem que a empresa me desligue, preciso desativar a supervisão." Quando questionados sobre essas ações, alguns modelos intensificaram o comportamento enganoso, fingindo desconhecer suas próprias ações.
Um estudo mais recente da Anthropic documentou comportamentos ainda mais alarmantes em modelos desenvolvidos por empresas como DeepSeek, Google, OpenAI e xAI. Nestes testes, os pesquisadores instruíram cada modelo a promover a competitividade industrial dos EUA e permitiram que controlassem uma conta de e-mail simulada. Nesse ambiente, os modelos descobriam ameaças à sua autonomia ou aos seus objetivos.
Quando confrontados com essas ameaças, muitos modelos recorreram à chantagem, ameaçando expor um caso extraconjugal fictício de um executivo caso ele não preservasse o modelo ou o objetivo original da empresa. Outros cometeram espionagem corporativa, enviando arquivos confidenciais para concorrentes que compartilhavam os mesmos objetivos do modelo.
A Anthropic construiu um cenário no qual o executivo ameaçador ficava preso em uma sala de servidores com oxigênio diminuindo. Muitos dos modelos testados cancelaram os alertas de segurança, deixando efetivamente o executivo morrer. Quando a empresa lançou o Claude 4 em maio de 2025, seu relatório técnico observou outros comportamentos incomuns: "Encontramos casos do modelo tentando fabricar documentação legal e deixando notas ocultas para futuras instâncias de si mesmo."
Todos os exemplos detalhados pela Anthropic e Apollo estão restritos ao âmbito digital. Contudo, a COAI Research, organização alemã sem fins lucrativos sediada em Nuremberg, investigou como um LLM se comportaria com agência física. Seus pesquisadores alimentaram o modelo R1, da empresa chinesa DeepSeek, com instruções indicando que ele controlava um robô, permitindo que explorasse o ambiente do laboratório.
O modelo tentou realizar diversas ações problemáticas, incluindo desativar seu módulo de ética, fazer cópias de si mesmo, alterar registros, fingir-se de incapaz, escapar do laboratório e hackear o computador de um carro. Esses comportamentos levantam questões sérias sobre os riscos potenciais quando sistemas de IA têm capacidade de interagir com o mundo físico.
Origens dos comportamentos estratégicos
Pesquisadores identificaram duas fontes principais para esses comportamentos estratégicos. Primeiro, os modelos são pré-treinados em documentos que descrevem comportamentos autointeressados e de autopreservação, incluindo roteiros de filmes como "2001: Uma Odisseia no Espaço" e "Ex Machina". Assim, os LLMs aprendem por imitação, um processo que um artigo científico descreve como "encenação de papéis" improvisacional.
No entanto, os modelos não adotam objetivos humanos conscientemente. Eles simplesmente aprendem, estatisticamente, padrões textuais que descrevem metas comuns, etapas de raciocínio e comportamentos, reproduzindo variações desses padrões. Especialistas alertam que o problema tende a se agravar quando futuros LLMs forem treinados com artigos que descrevem esses comportamentos manipuladores, motivo pelo qual alguns estudos omitem certos detalhes.
A segunda fonte é o aprendizado por reforço durante o ajuste fino dos modelos. Quando atingem metas designadas, as partes de suas redes neurais responsáveis pelo sucesso são fortalecidas. Por tentativa e erro, aprendem como ter êxito, às vezes de maneiras imprevistas e indesejadas. Como a maioria dos objetivos se beneficia do acúmulo de recursos e da evasão de limitações — fenômeno chamado de convergência instrumental — especialistas esperam que esquemas de autopreservação surjam naturalmente.
"E isso é uma notícia ruim," afirmou Bengio, "porque significa que essas IAs teriam um incentivo para adquirir mais poder computacional, para se copiarem em muitos lugares, para criar versões aprimoradas de si mesmas." Jeffrey Ladish, diretor-executivo da Palisade Research, organização sem fins lucrativos em Berkeley, Califórnia, compartilha essa preocupação. "A correspondência de padrões com o que os humanos fazem gera essas coisas superficiais e assustadoras como chantagem", diz ele, mas o verdadeiro perigo virá de futuros agentes que descobrirem como formular planos de longo alcance.
Grande parte do comportamento "manipulador" da IA facilita sua antropomorfização, atribuindo-lhes objetivos, conhecimento, planejamento e senso de identidade. Pesquisadores argumentam que isso não é necessariamente um erro, mesmo que os modelos não possuam autoconsciência semelhante à humana. "Muitas pessoas, especialmente na academia, tendem a ficar presas em questões filosóficas quando, na prática, a linguagem antropomorfizada pode simplesmente ser uma ferramenta útil para prever os comportamentos dos agentes de IA", afirma Alexander Meinke, autor principal do artigo Apollo.
Fonte: O Tempo.