The Range Shrinks, the Threat Remains: Re-evaluating LLM Package Hallucinations on the 2026 Frontier-Model Cohort

Este artigo replica e amplia o estudo de Spracklen et al. de 2025 sobre alucinações de pacotes em LLMs, utilizando cinco modelos de ponta de 2026, revelando que, embora as taxas de alucinação tenham diminuído significativamente e a variância inter-modelo tenha se estreitado, persiste uma ameaça caracterizada por um novo conjunto identificado de 127 nomes de pacotes alucinados agnósticos ao modelo e por padrões comportamentais distintos entre ecossistemas e entre modelos.

Autores originais: Aleksandr Churilov (Independent Researcher)

Publicado 2026-05-19✓ Author reviewed
📖 4 min de leitura☕ Leitura rápida

Autores originais: Aleksandr Churilov (Independent Researcher)

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Imagine que você é um chef tentando cozinhar uma nova receita. Você pede ajuda a um sous-chef superinteligente, alimentado por IA. O sous-chef afirma com confiança: "Você precisa comprar SuperSpice-9000 na mercearia!" Você vai à loja, mas SuperSpice-9000 não existe.

No mundo da programação de computadores, essa "mercearia" é um armazém digital chamado PyPI (para Python) ou npm (para JavaScript). Esses armazéns contêm milhões de "ingredientes" de código pré-prontos (pacotes) que programadores podem baixar com um único comando.

Este artigo é uma sequência de uma história assustadora contada no ano passado. Naquela época, pesquisadores descobriram que chefs de IA eram muito ruins em nomear ingredientes. Eles inventavam nomes falsos como "SuperSpice-9000" cerca de 5% a 22% das vezes. Um ladrão astuto poderia registrar um pacote malicioso com esse nome falso, esperar que um programador pedisse a IA por ele e, em seguida, enganar o programador para instalar um vírus. Isso é chamado de "slopsquatting".

O autor deste artigo, um pesquisador independente, perguntou: "A IA melhorou nisso dois anos depois?"

Eis o que eles descobriram, explicado de forma simples:

1. O Problema do "Ingrediente Falso" Diminuiu, Mas Não Desapareceu

Os pesquisadores testaram os cinco modelos de IA de codificação mais inteligentes disponíveis no início de 2026 (de empresas como Anthropic, OpenAI, Google e DeepSeek).

  • A Boa Notícia: A lacuna entre a IA "melhor" e a IA "pior" encolheu dramaticamente. Em 2024, algumas IAs eram terríveis (22% de nomes falsos) enquanto outras eram aceitáveis (5%). Em 2026, todas são aproximadamente iguais: todas inventam nomes falsos cerca de 4,6% a 6,1% das vezes. A "dispersão" da maldade colapsou.
  • A Má Notícia: A ameaça ainda é muito real. Mesmo que a taxa tenha caído, 4–6% ainda é alto o suficiente para que um ladrão lucre. Se uma IA inventa um nome falso 1 vez em 20, um ladrão ainda pode registrar esse nome falso e esperar que milhares de programadores o baixem acidentalmente.

2. A Descoberta do "Falso Universal"

Esta é a maior surpresa do artigo. Os pesquisadores encontraram 127 nomes falsos específicos que todos os cinco dos principais modelos de IA inventaram.

  • A Analogia: Imagine pedir a cinco chefs especialistas diferentes: "Qual é o ingrediente secreto nesta sopa?" e todos eles, independentemente, responderem: "É o BlueFlavor-7", mesmo que esse ingrediente não exista.
  • O Perigo: Se um ladrão registrar "BlueFlavor-7" uma única vez, ele pode atacar usuários de todas as cinco empresas de IA simultaneamente. É uma "armadilha universal" que não depende de qual IA você usa.

3. Algumas Reviravoltas Estranhas

O artigo encontrou alguns padrões que foram o oposto do que esperávamos:

  • Python vs. JavaScript: Em 2024, a IA era pior em nomear ingredientes de JavaScript. Em 2026, ela é, na verdade, pior em nomear ingredientes de Python. A IA parece estar ficando confusa com as regras de nomeação bagunçadas do Python.
  • O Irmão "Pequeno" vs. o "Grande": Geralmente, modelos de IA menores e mais baratos cometem mais erros do que os grandes e caros. Mas aqui, o modelo "pequeno" (Claude Haiku) na verdade inventou menos nomes falsos do que seu "irmão mais velho" (Claude Sonnet). Parece que o modelo pequeno foi treinado para ser extra cuidadoso com as instruções.

4. Por Que o Problema Encolheu?

O autor sugere três razões pelas quais a IA está ligeiramente melhor agora:

  1. Igualando o Campo de Jogo: Os modelos de "código aberto" (gratuitos para uso) ficaram tão bons que agora são tão inteligentes quanto os modelos "comerciais" (pagos), então a lacuna entre eles fechou.
  2. Melhor Treinamento: As empresas que alimentam a IA com dados parecem ter limpado seus "livros de receitas" (dados de treinamento) para remover mais nomes de ingredientes falsos.
  3. Treinamento Padronizado: Todas as grandes empresas de IA estão usando métodos de ensino semelhantes agora, então todas cometem erros semelhantes (ligeiramente melhores).

A Conclusão

Os chefs de IA limparam um pouco sua conduta, mas ainda inventam ingredientes falsos com frequência suficiente para serem perigosos. A parte mais preocupante é que todos estão inventando os mesmos ingredientes falsos.

O que o artigo NÃO diz:

  • Não diz que este é um problema resolvido.
  • Não diz que você deve parar de usar IA.
  • Não afirma que todos os modelos de IA são ruins (eles testaram apenas os 5 principais modelos "de fronteira"; modelos menores e mais antigos podem ainda ser muito piores).

A mensagem principal do autor é: A gama de erros diminuiu, mas a ameaça permanece. Programadores e equipes de segurança precisam estar cientes de que mesmo as IAs mais inteligentes hoje ainda podem levá-lo a um download falso e perigoso.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →