Autores originales: Aleksandr Churilov (Independent Researcher)

Publicado 2026-05-19✓ Author reviewed ⓘ

📖 4 min de lectura☕ Lectura para el café

Autores originales: Aleksandr Churilov (Independent Researcher)

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Imagina que eres un chef intentando cocinar una nueva receta. Pides ayuda a un sous-chef superinteligente impulsado por IA. El sous-chef te dice con confianza: "¡Necesitas comprar SuperSpice-9000 en la tienda de comestibles!". Vas a la tienda, pero SuperSpice-9000 no existe.

En el mundo de la programación informática, esta "tienda de comestibles" es un almacén digital llamado PyPI (para Python) o npm (para JavaScript). Estos almacenes contienen millones de "ingredientes" de código preelaborados (paquetes) que los programadores pueden descargar con un solo comando.

Este artículo es una continuación de una historia aterradora contada el año pasado. En aquel entonces, los investigadores descubrieron que los chefs de IA eran muy malos nombrando ingredientes. Inventaban nombres falsos como "SuperSpice-9000" entre el 5% y el 22% de las veces. Un ladrón astuto podría registrar un paquete malicioso con ese nombre falso, esperar a que un programador lo solicitara a la IA y luego engañar al programador para que instalara un virus. Esto se llama "slopsquatting".

El autor de este artículo, un investigador independiente, se preguntó: "¿Ha mejorado la IA en esto dos años después?".

Esto es lo que encontraron, explicado de forma sencilla:

1. El problema del "ingrediente falso" se redujo, pero no desapareció

Los investigadores probaron los cinco modelos de IA de codificación más inteligentes disponibles a principios de 2026 (de empresas como Anthropic, OpenAI, Google y DeepSeek).

La buena noticia: La brecha entre la IA "mejor" y la IA "peor" se ha reducido drásticamente. En 2024, algunas IAs eran terribles (22% de nombres falsos) mientras que otras eran aceptables (5%). En 2026, todas son aproximadamente iguales: todas inventan nombres falsos entre un 4,6% y un 6,1% de las veces. La "dispersión" de la maldad se ha colapsado.
La mala noticia: La amenaza sigue siendo muy real. Aunque la tasa bajó, un 4-6% sigue siendo lo suficientemente alto para que un ladrón obtenga ganancias. Si una IA inventa un nombre falso 1 de cada 20 veces, un ladrón aún puede registrar ese nombre falso y esperar a que miles de programadores lo descarguen accidentalmente.

2. El descubrimiento del "falso universal"

Esta es la mayor sorpresa del artículo. Los investigadores encontraron 127 nombres falsos específicos que las cinco de las mejores IAs inventaron.

La analogía: Imagina preguntar a cinco chefs expertos diferentes: "¿Cuál es el ingrediente secreto de esta sopa?" y todos digan independientemente: "Es BlueFlavor-7", aunque ese ingrediente no exista.
El peligro: Si un ladrón registra "BlueFlavor-7" una sola vez, puede atacar a los usuarios de las cinco empresas de IA simultáneamente. Es una "trampa universal" que no depende de qué IA utilices.

3. Unos cuantos giros extraños

El artículo encontró algunos patrones que fueron lo contrario de lo que esperábamos:

Python vs. JavaScript: En 2024, la IA era peor nombrando ingredientes de JavaScript. En 2026, es en realidad peor nombrando ingredientes de Python. La IA parece confundirse con las reglas de nombrado desordenadas de Python.
El hermano "pequeño" vs. el "grande": Por lo general, los modelos de IA más pequeños y baratos cometen más errores que los grandes y costosos. Pero aquí, el modelo "pequeño" (Claude Haiku) en realidad inventó menos nombres falsos que su "hermano mayor" (Claude Sonnet). Parece que el modelo pequeño fue entrenado para ser extra cuidadoso con las instrucciones.

4. ¿Por qué se redujo el problema?

El autor sugiere tres razones por las que la IA es ligeramente mejor ahora:

Igualando el terreno de juego: Los modelos de "código abierto" (gratuitos) han mejorado tanto que ahora son tan inteligentes como los modelos "comerciales" (de pago), por lo que la brecha entre ellos se cerró.
Mejor entrenamiento: Las empresas que alimentan a la IA con datos parecen haber limpiado sus "libros de cocina" (datos de entrenamiento) para eliminar más nombres de ingredientes falsos.
Entrenamiento estandarizado: Todas las grandes empresas de IA están utilizando métodos de enseñanza similares ahora, por lo que todas cometen errores similares (ligeramente mejores).

La conclusión

Los chefs de IA han limpiado un poco su actuación, pero siguen inventando ingredientes falsos con suficiente frecuencia como para ser peligrosos. La parte más preocupante es que todos están inventando los mismos ingredientes falsos.

Lo que el artículo NO dice:

No dice que este sea un problema resuelto.
No dice que debas dejar de usar la IA.
No afirma que todas las IAs sean malas (solo probaron las 5 mejores IAs de "vanguardia"; los modelos más pequeños y antiguos podrían seguir siendo mucho peores).

El mensaje principal del autor es: El rango de errores se ha reducido, pero la amenaza permanece. Los programadores y los equipos de seguridad deben ser conscientes de que incluso las IAs más inteligentes de hoy en día aún pueden llevarte a una descarga falsa y peligrosa.

Resumen Técnico: Reevaluación de las Alucinaciones de Paquetes en LLMs en la Cohorte de Modelos de Vanguardia de 2026

Enunciado del Problema

El artículo aborda la vulnerabilidad de seguridad conocida como slopsquatting, un vector de ataque a la cadena de suministro en el que adversarios registran paquetes maliciosos en PyPI o npm bajo nombres que los Modelos de Lenguaje Grandes (LLMs) alucinan. Cuando los desarrolladores confían en código generado por LLMs que contiene directivas pip install o npm install para paquetes inexistentes, instalan inadvertidamente estos artefactos maliciosos.

Aunque Spracklen et al. (USENIX Security '25) establecieron la existencia de esta amenaza en 2024, reportando tasas de alucinación que oscilaban entre el 5,2 % (modelos comerciales) y el 21,7 % (modelos de código abierto), permaneció como una pregunta empírica abierta si este fenómeno había evolucionado con el rápido avance de los modelos de vanguardia lanzados entre finales de 2025 y principios de 2026. Específicamente, los autores buscaron determinar si las tasas de alucinación habían disminuido, si la variabilidad inter-modelo se había estrechado y si habían surgido nuevas superficies de ataque agnósticas al modelo.

Metodología

El estudio es una réplica fiel de la metodología de Spracklen et al. aplicada a una nueva cohorte de cinco LLMs de vanguardia capaces de generar código, lanzados entre octubre de 2025 y marzo de 2026:

Claude Sonnet 4.6 (Anthropic)
Claude Haiku 4.5 (Anthropic)
GPT-5.4-mini (OpenAI)
Gemini 2.5 Pro (Google)
DeepSeek V3.2 (DeepSeek)

Diseño Experimental:

Corpus de Prompts: Los autores utilizaron los conjuntos de datos de prompts exactos del artefacto de Spracklen (576.000 prompts totales en 16 modelos en el estudio original), compuestos por 20.163 preguntas de Stack Overflow y 19.806 preguntas sintetizadas por LLM, divididas equitativamente entre Python y JavaScript.
Generación: Se generaron un total de 199.845 muestras de código (aproximadamente 39.969 por modelo).
Extracción y Validación: Las referencias a paquetes se extrajeron utilizando heurísticas basadas en expresiones regulares que coinciden con pip install, npm install y declaraciones de importación. Los nombres extraídos se validaron contra listas maestras de paquetes existentes para PyPI (500.565 nombres) y npm (~3 millones de nombres) a fecha del 28 de abril de 2026.
Análisis Estadístico: Las tasas de alucinación se calcularon como la relación entre referencias no resolubles y referencias totales. La significancia estadística se probó utilizando estadísticas $\chi^2$ de Pearson con corrección Holm–Bonferroni para comparaciones por pares, junto con métricas de similitud de Jaccard para medir la superposición en nombres alucinados.

Contribuciones Clave

Réplica en Modelos de Vanguardia: Una medición exhaustiva de las tasas de alucinación de paquetes en cinco modelos de última generación, generando una nueva línea base para 2026.
Identificación de Compresión de Rango: Documentación de un estrechamiento significativo en la dispersión de alucinaciones inter-modelo en comparación con los datos de 2024.
Descubrimiento de Alucinaciones Universales: La identificación de un conjunto de 127 nombres de paquetes (109 en PyPI, 18 en npm) que son alucinados idénticamente por los cinco modelos evaluados, constituyendo una superficie de ataque agnóstica al modelo.
Observación de Anomalías:
- Una inversión de la asimetría de alucinación Python/JavaScript (las tasas de Python son ahora más altas).
- Una inversión dentro de la familia Anthropic donde el modelo más pequeño (Haiku 4.5) alucina menos que el modelo más grande (Sonnet 4.6).
- Una alta similitud de Jaccard (0,343) entre DeepSeek V3.2 y GPT-5.4-mini, lo que sugiere orígenes compartidos de datos de entrenamiento o patrones de error convergentes.
Artefacto de Ciencia Abierta: Lanzamiento de código de réplica, registros de validación y scripts de análisis, con una política de acceso para investigadores verificados para el corpus completo de alucinaciones.

Resultados

Tasas de Alucinación y Compresión de Rango

El estudio encontró que las tasas de alucinación en la cohorte de 2026 oscilan entre el 4,62 % (Claude Haiku 4.5) y el 6,10 % (GPT-5.4-mini).

Compresión: Esto representa un estrechamiento de 11 veces de la dispersión inter-modelo en comparación con los hallazgos de 2024 de Spracklen (5,2 %–21,7 %).
Causa: La compresión se atribuye al cierre de la brecha entre modelos de peso abierto y comerciales (por ejemplo, DeepSeek V3.2 es ahora competitivo con los líderes comerciales) y a la saturación de la curación de datos de entrenamiento con respecto a las referencias de paquetes.
Persistencia: A pesar de la compresión, la amenaza sigue siendo económicamente viable para los adversarios, ya que incluso una tasa del 4,62 % produce cientos de nombres alucinados únicos por modelo.

Conjunto de Alucinaciones Universales

Un hallazgo crítico es la existencia de 127 nombres de paquetes alucinados por los cinco modelos.

Significado: Esto crea una superficie de ataque "agnóstica al modelo". Un atacante que registre un solo paquete malicioso (por ejemplo, opentelemetry o @ember/service) puede dirigirse a usuarios de cualquiera de los cinco proveedores principales simultáneamente.
Mecanismo: Los autores sugieren que estos errores universales provienen de subcadenas compartidas en los datos de entrenamiento (por ejemplo, documentación que usa mal nombres) o de una sobre-generalización sistemática de las convenciones de espacios de nombres (por ejemplo, tratar subpaquetes internos como objetivos instalables).

Anomalías Específicas

Asimetría de Lenguaje: Contrario a los hallazgos de 2024 donde JavaScript era "más ruidoso", los cinco modelos de 2026 exhibieron tasas de alucinación más altas para Python (+2,73 a +4,13 puntos porcentuales más altos que JavaScript). Los autores hipotetizan que esto se debe a las convenciones de nomenclatura más heterogéneas de Python (snake_case, guiones, puntos) en comparación con la estructura más plana de JavaScript.
Inversión en Anthropic: Dentro de la familia Anthropic, Claude Haiku 4.5 (4,62 %) alucinó significativamente menos que Claude Sonnet 4.6 (5,41 %). Esto contradice el patrón típico donde los modelos más pequeños alucinan más. Los autores atribuyen esto a la capacidad predeterminada de "pensamiento extendido" de Haiku 4.5 y al énfasis específico en la fidelidad de las instrucciones tras el entrenamiento.
Convergencia DeepSeek/OpenAI: DeepSeek V3.2 y GPT-5.4-mini mostraron la mayor similitud de Jaccard por pares (0,343), lo que sugiere sesgos compartidos u orígenes de datos de entrenamiento.

Significado y Afirmaciones

El artículo concluye que, aunque el rango de las tasas de alucinación se ha reducido, la amenaza no ha sido retirada.

Viabilidad Económica: Con un 4–7 %, el ataque de slopsquatting sigue siendo altamente rentable para los adversarios debido a la naturaleza de costo cero del registro de paquetes.
Cambio Metodológico: Los autores argumentan que los estudios de un solo modelo son insuficientes. La existencia de un conjunto de alucinaciones universal significa que la superficie de ataque total se subestima si solo se evalúa un modelo. El análisis de intersección entre cohortes debería convertirse en una métrica estándar en futuras investigaciones de seguridad.
Implicaciones para la Defensa: Los hallazgos destacan que el entrenamiento post-entrenamiento de seguridad y la escalabilidad de los modelos han reducido la varianza, pero no han eliminado el problema fundamental de que los modelos converjan en nombres de paquetes específicos e incorrectos. Los autores enfatizan que la "vanguardia" se ha comprimido, pero los modelos de código abierto de nivel inferior pueden seguir exhibiendo las altas tasas observadas en 2024.

El estudio mantiene un tono modesto respecto a sus afirmaciones, señalando limitaciones como la posible fuga de datos de entrenamiento (ya que el corpus de prompts se lanzó en 2025) y la exclusión de configuraciones agénticas donde los mecanismos de recuperación podrían mitigar las alucinaciones. La contribución principal es la evidencia empírica de que la amenaza de slopsquatting persiste y ha evolucionado hacia una vulnerabilidad multi-proveedor.

The Range Shrinks, the Threat Remains: Re-evaluating LLM Package Hallucinations on the 2026 Frontier-Model Cohort