The Range Shrinks, the Threat Remains: Re-evaluating LLM Package Hallucinations on the 2026 Frontier-Model Cohort

Este artículo replica y amplía el estudio de Spracklen et al. de 2025 sobre las alucinaciones de paquetes en LLM mediante cinco modelos de vanguardia de 2026, revelando que, si bien las tasas de alucinación han disminuido significativamente y la varianza intermodelo se ha estrechado, persiste una amenaza caracterizada por un nuevo conjunto identificado de 127 nombres de paquetes alucinados agnósticos al modelo y patrones de comportamiento distintivos a través de ecosistemas y modelos.

Autores originales: Aleksandr Churilov (Independent Researcher)

Publicado 2026-05-19✓ Author reviewed
📖 4 min de lectura☕ Lectura para el café

Autores originales: Aleksandr Churilov (Independent Researcher)

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Imagina que eres un chef intentando cocinar una nueva receta. Pides ayuda a un sous-chef superinteligente impulsado por IA. El sous-chef te dice con confianza: "¡Necesitas comprar SuperSpice-9000 en la tienda de comestibles!". Vas a la tienda, pero SuperSpice-9000 no existe.

En el mundo de la programación informática, esta "tienda de comestibles" es un almacén digital llamado PyPI (para Python) o npm (para JavaScript). Estos almacenes contienen millones de "ingredientes" de código preelaborados (paquetes) que los programadores pueden descargar con un solo comando.

Este artículo es una continuación de una historia aterradora contada el año pasado. En aquel entonces, los investigadores descubrieron que los chefs de IA eran muy malos nombrando ingredientes. Inventaban nombres falsos como "SuperSpice-9000" entre el 5% y el 22% de las veces. Un ladrón astuto podría registrar un paquete malicioso con ese nombre falso, esperar a que un programador lo solicitara a la IA y luego engañar al programador para que instalara un virus. Esto se llama "slopsquatting".

El autor de este artículo, un investigador independiente, se preguntó: "¿Ha mejorado la IA en esto dos años después?".

Esto es lo que encontraron, explicado de forma sencilla:

1. El problema del "ingrediente falso" se redujo, pero no desapareció

Los investigadores probaron los cinco modelos de IA de codificación más inteligentes disponibles a principios de 2026 (de empresas como Anthropic, OpenAI, Google y DeepSeek).

  • La buena noticia: La brecha entre la IA "mejor" y la IA "peor" se ha reducido drásticamente. En 2024, algunas IAs eran terribles (22% de nombres falsos) mientras que otras eran aceptables (5%). En 2026, todas son aproximadamente iguales: todas inventan nombres falsos entre un 4,6% y un 6,1% de las veces. La "dispersión" de la maldad se ha colapsado.
  • La mala noticia: La amenaza sigue siendo muy real. Aunque la tasa bajó, un 4-6% sigue siendo lo suficientemente alto para que un ladrón obtenga ganancias. Si una IA inventa un nombre falso 1 de cada 20 veces, un ladrón aún puede registrar ese nombre falso y esperar a que miles de programadores lo descarguen accidentalmente.

2. El descubrimiento del "falso universal"

Esta es la mayor sorpresa del artículo. Los investigadores encontraron 127 nombres falsos específicos que las cinco de las mejores IAs inventaron.

  • La analogía: Imagina preguntar a cinco chefs expertos diferentes: "¿Cuál es el ingrediente secreto de esta sopa?" y todos digan independientemente: "Es BlueFlavor-7", aunque ese ingrediente no exista.
  • El peligro: Si un ladrón registra "BlueFlavor-7" una sola vez, puede atacar a los usuarios de las cinco empresas de IA simultáneamente. Es una "trampa universal" que no depende de qué IA utilices.

3. Unos cuantos giros extraños

El artículo encontró algunos patrones que fueron lo contrario de lo que esperábamos:

  • Python vs. JavaScript: En 2024, la IA era peor nombrando ingredientes de JavaScript. En 2026, es en realidad peor nombrando ingredientes de Python. La IA parece confundirse con las reglas de nombrado desordenadas de Python.
  • El hermano "pequeño" vs. el "grande": Por lo general, los modelos de IA más pequeños y baratos cometen más errores que los grandes y costosos. Pero aquí, el modelo "pequeño" (Claude Haiku) en realidad inventó menos nombres falsos que su "hermano mayor" (Claude Sonnet). Parece que el modelo pequeño fue entrenado para ser extra cuidadoso con las instrucciones.

4. ¿Por qué se redujo el problema?

El autor sugiere tres razones por las que la IA es ligeramente mejor ahora:

  1. Igualando el terreno de juego: Los modelos de "código abierto" (gratuitos) han mejorado tanto que ahora son tan inteligentes como los modelos "comerciales" (de pago), por lo que la brecha entre ellos se cerró.
  2. Mejor entrenamiento: Las empresas que alimentan a la IA con datos parecen haber limpiado sus "libros de cocina" (datos de entrenamiento) para eliminar más nombres de ingredientes falsos.
  3. Entrenamiento estandarizado: Todas las grandes empresas de IA están utilizando métodos de enseñanza similares ahora, por lo que todas cometen errores similares (ligeramente mejores).

La conclusión

Los chefs de IA han limpiado un poco su actuación, pero siguen inventando ingredientes falsos con suficiente frecuencia como para ser peligrosos. La parte más preocupante es que todos están inventando los mismos ingredientes falsos.

Lo que el artículo NO dice:

  • No dice que este sea un problema resuelto.
  • No dice que debas dejar de usar la IA.
  • No afirma que todas las IAs sean malas (solo probaron las 5 mejores IAs de "vanguardia"; los modelos más pequeños y antiguos podrían seguir siendo mucho peores).

El mensaje principal del autor es: El rango de errores se ha reducido, pero la amenaza permanece. Los programadores y los equipos de seguridad deben ser conscientes de que incluso las IAs más inteligentes de hoy en día aún pueden llevarte a una descarga falsa y peligrosa.

¿Ahogado en artículos de tu campo?

Recibe resúmenes diarios de los artículos más novedosos que coincidan con tus palabras clave de investigación — con resúmenes técnicos, en tu idioma.

Probar Digest →