Imagine que você é um chef tentando cozinhar uma nova receita. Você pede ajuda a um sous-chef superinteligente, alimentado por IA. O sous-chef afirma com confiança: "Você precisa comprar SuperSpice-9000 na mercearia!" Você vai à loja, mas SuperSpice-9000 não existe.

No mundo da programação de computadores, essa "mercearia" é um armazém digital chamado PyPI (para Python) ou npm (para JavaScript). Esses armazéns contêm milhões de "ingredientes" de código pré-prontos (pacotes) que programadores podem baixar com um único comando.

Este artigo é uma sequência de uma história assustadora contada no ano passado. Naquela época, pesquisadores descobriram que chefs de IA eram muito ruins em nomear ingredientes. Eles inventavam nomes falsos como "SuperSpice-9000" cerca de 5% a 22% das vezes. Um ladrão astuto poderia registrar um pacote malicioso com esse nome falso, esperar que um programador pedisse a IA por ele e, em seguida, enganar o programador para instalar um vírus. Isso é chamado de "slopsquatting".

O autor deste artigo, um pesquisador independente, perguntou: "A IA melhorou nisso dois anos depois?"

Eis o que eles descobriram, explicado de forma simples:

1. O Problema do "Ingrediente Falso" Diminuiu, Mas Não Desapareceu

Os pesquisadores testaram os cinco modelos de IA de codificação mais inteligentes disponíveis no início de 2026 (de empresas como Anthropic, OpenAI, Google e DeepSeek).

A Boa Notícia: A lacuna entre a IA "melhor" e a IA "pior" encolheu dramaticamente. Em 2024, algumas IAs eram terríveis (22% de nomes falsos) enquanto outras eram aceitáveis (5%). Em 2026, todas são aproximadamente iguais: todas inventam nomes falsos cerca de 4,6% a 6,1% das vezes. A "dispersão" da maldade colapsou.
A Má Notícia: A ameaça ainda é muito real. Mesmo que a taxa tenha caído, 4–6% ainda é alto o suficiente para que um ladrão lucre. Se uma IA inventa um nome falso 1 vez em 20, um ladrão ainda pode registrar esse nome falso e esperar que milhares de programadores o baixem acidentalmente.

2. A Descoberta do "Falso Universal"

Esta é a maior surpresa do artigo. Os pesquisadores encontraram 127 nomes falsos específicos que todos os cinco dos principais modelos de IA inventaram.

A Analogia: Imagine pedir a cinco chefs especialistas diferentes: "Qual é o ingrediente secreto nesta sopa?" e todos eles, independentemente, responderem: "É o BlueFlavor-7", mesmo que esse ingrediente não exista.
O Perigo: Se um ladrão registrar "BlueFlavor-7" uma única vez, ele pode atacar usuários de todas as cinco empresas de IA simultaneamente. É uma "armadilha universal" que não depende de qual IA você usa.

3. Algumas Reviravoltas Estranhas

O artigo encontrou alguns padrões que foram o oposto do que esperávamos:

Python vs. JavaScript: Em 2024, a IA era pior em nomear ingredientes de JavaScript. Em 2026, ela é, na verdade, pior em nomear ingredientes de Python. A IA parece estar ficando confusa com as regras de nomeação bagunçadas do Python.
O Irmão "Pequeno" vs. o "Grande": Geralmente, modelos de IA menores e mais baratos cometem mais erros do que os grandes e caros. Mas aqui, o modelo "pequeno" (Claude Haiku) na verdade inventou menos nomes falsos do que seu "irmão mais velho" (Claude Sonnet). Parece que o modelo pequeno foi treinado para ser extra cuidadoso com as instruções.

4. Por Que o Problema Encolheu?

O autor sugere três razões pelas quais a IA está ligeiramente melhor agora:

Igualando o Campo de Jogo: Os modelos de "código aberto" (gratuitos para uso) ficaram tão bons que agora são tão inteligentes quanto os modelos "comerciais" (pagos), então a lacuna entre eles fechou.
Melhor Treinamento: As empresas que alimentam a IA com dados parecem ter limpado seus "livros de receitas" (dados de treinamento) para remover mais nomes de ingredientes falsos.
Treinamento Padronizado: Todas as grandes empresas de IA estão usando métodos de ensino semelhantes agora, então todas cometem erros semelhantes (ligeiramente melhores).

A Conclusão

Os chefs de IA limparam um pouco sua conduta, mas ainda inventam ingredientes falsos com frequência suficiente para serem perigosos. A parte mais preocupante é que todos estão inventando os mesmos ingredientes falsos.

O que o artigo NÃO diz:

Não diz que este é um problema resolvido.
Não diz que você deve parar de usar IA.
Não afirma que todos os modelos de IA são ruins (eles testaram apenas os 5 principais modelos "de fronteira"; modelos menores e mais antigos podem ainda ser muito piores).

A mensagem principal do autor é: A gama de erros diminuiu, mas a ameaça permanece. Programadores e equipes de segurança precisam estar cientes de que mesmo as IAs mais inteligentes hoje ainda podem levá-lo a um download falso e perigoso.

Resumo Técnico: Reavaliação de Alucinações de Pacotes por LLMs na Coorte de Modelos de Fronteira de 2026

Declaração do Problema

O artigo aborda a vulnerabilidade de segurança conhecida como slopsquatting, um vetor de ataque à cadeia de suprimentos onde adversários registram pacotes maliciosos no PyPI ou npm sob nomes que Grandes Modelos de Linguagem (LLMs) alucinam. Quando desenvolvedores confiam em código gerado por LLMs contendo diretivas pip install ou npm install para pacotes inexistentes, eles inadvertidamente instalam esses artefatos maliciosos.

Embora Spracklen et al. (USENIX Security '25) tenham estabelecido a existência dessa ameaça em 2024, relatando taxas de alucinação variando de 5,2% (modelos comerciais) a 21,7% (modelos de código aberto), permanecia uma questão empírica aberta se esse fenômeno havia evoluído com o avanço rápido dos modelos de fronteira lançados entre o final de 2025 e o início de 2026. Especificamente, os autores buscaram determinar se as taxas de alucinação haviam diminuído, se a variância inter-modelo havia se estreitado e se novas superfícies de ataque agnósticas ao modelo haviam surgido.

Metodologia

O estudo é uma replicação fiel da metodologia de Spracklen et al. aplicada a uma nova coorte de cinco LLMs de fronteira capazes de codificação, lançados entre outubro de 2025 e março de 2026:

Claude Sonnet 4.6 (Anthropic)
Claude Haiku 4.5 (Anthropic)
GPT-5.4-mini (OpenAI)
Gemini 2.5 Pro (Google)
DeepSeek V3.2 (DeepSeek)

Desenho Experimental:

Corpus de Prompts: Os autores utilizaram os conjuntos de dados de prompts exatos do artefato de Spracklen (576.000 prompts no total em 16 modelos no estudo original), compreendendo 20.163 perguntas do Stack Overflow e 19.806 perguntas sintetizadas por LLM, divididas igualmente entre Python e JavaScript.
Geração: Um total de 199.845 amostras de código foi gerado (aproximadamente 39.969 por modelo).
Extração e Validação: Referências a pacotes foram extraídas usando heurísticas baseadas em regex correspondendo a pip install, npm install e instruções de importação. Nomes extraídos foram validados contra listas mestras de pacotes existentes para PyPI (500.565 nomes) e npm (~3 milhões de nomes) em 28 de abril de 2026.
Análise Estatística: As taxas de alucinação foram calculadas como a razão de referências não resolvidas para o total de referências. A significância estatística foi testada usando estatísticas $\chi^2$ de Pearson com correção Holm–Bonferroni para comparações pareadas, juntamente com métricas de similaridade de Jaccard para medir a sobreposição em nomes alucinados.

Contribuições Principais

Replicação em Modelos de Fronteira: Uma medição abrangente das taxas de alucinação de pacotes em cinco modelos de última geração, gerando uma nova linha de base para 2026.
Identificação de Compressão de Faixa: Documentação de um estreitamento significativo na dispersão de alucinação inter-modelo comparado aos dados de 2024.
Descoberta de Alucinações Universais: A identificação de um conjunto de 127 nomes de pacotes (109 no PyPI, 18 no npm) que são alucinados idênticamente por todos os cinco modelos avaliados, constituindo uma superfície de ataque agnóstica ao modelo.
Observação de Anomalias:
- Uma reversão da assimetria de alucinação Python/JavaScript (as taxas de Python estão agora mais altas).
- Uma inversão dentro da família Anthropic onde o modelo menor (Haiku 4.5) alucina menos que o modelo maior (Sonnet 4.6).
- Uma alta similaridade de Jaccard (0,343) entre DeepSeek V3.2 e GPT-5.4-mini, sugerindo origens compartilhadas de dados de treinamento ou padrões de erro convergentes.
Artefato de Ciência Aberta: Liberação de código de replicação, logs de validação e scripts de análise, com uma política de acesso para pesquisadores verificados para o corpus completo de alucinações.

Resultados

Taxas de Alucinação e Compressão de Faixa

O estudo encontrou que as taxas de alucinação na coorte de 2026 variam de 4,62% (Claude Haiku 4.5) a 6,10% (GPT-5.4-mini).

Compressão: Isso representa um estreitamento de 11 vezes da dispersão inter-modelo comparado às descobertas de 2024 de Spracklen (5,2%–21,7%).
Causa: A compressão é atribuída ao fechamento da lacuna entre modelos de peso aberto e comerciais (por exemplo, DeepSeek V3.2 é agora competitivo com líderes comerciais) e à saturação da curadoria de dados de treinamento em relação a referências de pacotes.
Persistência: Apesar da compressão, a ameaça permanece economicamente viável para adversários, pois mesmo uma taxa de 4,62% gera centenas de nomes alucinados únicos por modelo.

Conjunto de Alucinação Universal

Uma descoberta crítica é a existência de 127 nomes de pacotes alucinados por todos os cinco modelos.

Significância: Isso cria uma superfície de ataque "agnóstica ao modelo". Um atacante registrando um único pacote malicioso (por exemplo, opentelemetry ou @ember/service) pode visar usuários de qualquer um dos cinco principais provedores simultaneamente.
Mecanismo: Os autores sugerem que esses erros universais derivam de substrings compartilhadas de dados de treinamento (por exemplo, documentação usando nomes incorretamente) ou supergeneralização sistemática de convenções de namespace (por exemplo, tratar subpacotes internos como alvos instaláveis).

Anomalias Específicas

Assimetria de Linguagem: Contrariando as descobertas de 2024 onde JavaScript era "mais ruidoso", todos os cinco modelos de 2026 exibiram taxas de alucinação mais altas para Python (+2,73 a +4,13 pontos percentuais mais altos que JavaScript). Os autores hipotetizam que isso se deve às convenções de nomenclatura mais heterogêneas do Python (snake_case, traços, pontos) em comparação com a estrutura mais plana do JavaScript.
Inversão Anthropic: Dentro da família Anthropic, Claude Haiku 4.5 (4,62%) alucinou significativamente menos que Claude Sonnet 4.6 (5,41%). Isso contradiz o padrão típico onde modelos menores alucinam mais. Os autores atribuem isso à capacidade padrão de "pensamento estendido" do Haiku 4.5 e ênfase específica no pós-treinamento na fidelidade de instruções.
Convergência DeepSeek/OpenAI: DeepSeek V3.2 e GPT-5.4-mini mostraram a maior similaridade de Jaccard pareada (0,343), sugerindo vieses compartilhados ou origens de dados de treinamento.

Significância e Afirmações

O artigo conclui que, embora a faixa de taxas de alucinação tenha diminuído, a ameaça não foi aposentada.

Viabilidade Econômica: Com 4–7%, o ataque de slopsquatting permanece altamente lucrativo para adversários devido à natureza de custo zero do registro de pacotes.
Mudança Metodológica: Os autores argumentam que estudos de modelo único são insuficientes. A existência de um conjunto de alucinação universal significa que a superfície de ataque total é subestimada se apenas um modelo for avaliado. A análise de interseção de coortes deve se tornar uma métrica padrão em futuras pesquisas de segurança.
Implicações para Defesa: As descobertas destacam que o pós-treinamento de segurança e a escalabilidade de modelos reduziram a variância, mas não eliminaram o problema fundamental de modelos convergindo para nomes de pacotes específicos e incorretos. Os autores enfatizam que a "fronteira" se comprimiu, mas modelos de código aberto de nível inferior podem ainda exibir as altas taxas observadas em 2024.

O estudo mantém um tom modesto em relação às suas afirmações, notando limitações como o potencial de vazamento de dados de treinamento (já que o corpus de prompts foi lançado em 2025) e a exclusão de configurações agênticas onde mecanismos de recuperação poderiam mitigar alucinações. A contribuição principal é a evidência empírica de que a ameaça de slopsquatting persiste e evoluiu para uma vulnerabilidade multi-provedor.

The Range Shrinks, the Threat Remains: Re-evaluating LLM Package Hallucinations on the 2026 Frontier-Model Cohort