The Range Shrinks, the Threat Remains: Re-evaluating LLM Package Hallucinations on the 2026 Frontier-Model Cohort

Ce papier reproduit et étend l'étude de Spracklen et al. de 2025 sur les hallucinations de paquets par les LLM en utilisant cinq modèles de pointe de 2026, révélant que, bien que les taux d'hallucination aient considérablement diminué et que la variance inter-modèle se soit rétrécie, une menace persistante subsiste, caractérisée par un nouvel ensemble de 127 noms de paquets hallucinés indépendants du modèle et par des schémas comportementaux distincts à travers les écosystèmes et les modèles.

Auteurs originaux : Aleksandr Churilov (Independent Researcher)

Publié 2026-05-19✓ Author reviewed
📖 5 min de lecture🧠 Analyse approfondie

Auteurs originaux : Aleksandr Churilov (Independent Researcher)

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Imaginez que vous êtes un chef essayant de cuisiner une nouvelle recette. Vous demandez de l'aide à un second chef ultra-intelligent, propulsé par l'IA. Le second chef vous affirme avec assurance : « Vous devez acheter SuperSpice-9000 à l'épicerie ! » Vous vous rendez au magasin, mais SuperSpice-9000 n'existe pas.

Dans le monde de la programmation informatique, cette « épicerie » est un entrepôt numérique appelé PyPI (pour Python) ou npm (pour JavaScript). Ces entrepôts contiennent des millions d'« ingrédients » de code préfabriqués (des packages) que les programmeurs peuvent télécharger en une seule commande.

Ce document fait suite à une histoire effrayante racontée l'année dernière. À l'époque, les chercheurs ont découvert que les chefs IA étaient très mauvais pour nommer les ingrédients. Ils inventaient de faux noms comme « SuperSpice-9000 » environ 5 % à 22 % du temps. Un voleur malveillant pouvait enregistrer un package malveillant sous ce faux nom, attendre qu'un programmeur le demande à l'IA, puis tromper le programmeur pour qu'il installe un virus. Cela s'appelle le « slopsquatting ».

L'auteur de ce document, un chercheur indépendant, s'est demandé : « L'IA s'est-elle améliorée là-dessus deux ans plus tard ? »

Voici ce qu'ils ont découvert, expliqué simplement :

1. Le problème des « faux ingrédients » a diminué, mais n'a pas disparu

Les chercheurs ont testé les cinq modèles d'IA de codage les plus intelligents disponibles au début de 2026 (provenant de sociétés comme Anthropic, OpenAI, Google et DeepSeek).

  • Les bonnes nouvelles : L'écart entre l'IA « la meilleure » et l'IA « la pire » s'est considérablement réduit. En 2024, certaines IA étaient terribles (22 % de faux noms) tandis que d'autres étaient correctes (5 %). En 2026, elles sont toutes à peu près égales : elles inventent toutes des faux noms environ 4,6 % à 6,1 % du temps. La « dispersion » de la mauvaise performance s'est effondrée.
  • Les mauvaises nouvelles : La menace est toujours très réelle. Même si le taux a baissé, 4 à 6 % reste suffisamment élevé pour qu'un voleur puisse en tirer profit. Si une IA invente un faux nom 1 fois sur 20, un voleur peut toujours enregistrer ce faux nom et attendre que des milliers de programmeurs le téléchargent par erreur.

2. La découverte du « faux universel »

C'est la plus grande surprise du document. Les chercheurs ont trouvé 127 faux noms spécifiques que tous les cinq des principaux modèles d'IA ont inventés.

  • L'analogie : Imaginez demander à cinq chefs experts différents : « Quel est l'ingrédient secret de cette soupe ? » et qu'ils répondent tous indépendamment : « C'est BlueFlavor-7 », même si cet ingrédient n'existe pas.
  • Le danger : Si un voleur enregistre « BlueFlavor-7 » une seule fois, il peut attaquer les utilisateurs de toutes les cinq sociétés d'IA simultanément. C'est un « piège universel » qui ne dépend pas de l'IA que vous utilisez.

3. Quelques bizarreries inattendues

Le document a révélé des modèles contraires à ce que nous attendions :

  • Python vs JavaScript : En 2024, l'IA était moins bonne pour nommer les ingrédients JavaScript. En 2026, elle est en fait moins bonne pour nommer les ingrédients Python. L'IA semble se perdre dans les règles de nommage désordonnées de Python.
  • Le « petit » frère vs le « grand » frère : Habituellement, les modèles d'IA plus petits et moins chers font plus d'erreurs que les grands modèles coûteux. Mais ici, le modèle « petit » (Claude Haiku) a en fait inventé moins de faux noms que son « grand frère » (Claude Sonnet). Il semble que le petit modèle ait été entraîné à être particulièrement prudent avec les instructions.

4. Pourquoi le problème a-t-il diminué ?

L'auteur suggère trois raisons pour lesquelles l'IA est légèrement meilleure maintenant :

  1. Égalisation des chances : Les modèles « open-source » (gratuits) sont devenus si bons qu'ils sont désormais aussi intelligents que les modèles « commerciaux » (payants), ce qui a comblé l'écart entre eux.
  2. Meilleur entraînement : Les sociétés qui alimentent l'IA en données semblent avoir nettoyé leurs « livres de recettes » (données d'entraînement) pour éliminer davantage de faux noms d'ingrédients.
  3. Entraînement standardisé : Toutes les grandes sociétés d'IA utilisent désormais des méthodes d'enseignement similaires, de sorte qu'elles commettent toutes des erreurs similaires (légèrement meilleures).

La conclusion

Les chefs IA ont un peu assaini leur comportement, mais ils continuent d'inventer des faux ingrédients assez souvent pour être dangereux. La partie la plus inquiétante est qu'ils inventent tous les mêmes faux ingrédients.

Ce que le document NE dit PAS :

  • Il ne dit pas que ce problème est résolu.
  • Il ne dit pas que vous devez arrêter d'utiliser l'IA.
  • Il ne prétend pas que tous les modèles d'IA sont mauvais (ils n'ont testé que les 5 principaux modèles « de pointe » ; les modèles plus petits et plus anciens pourraient encore être bien pires).

Le message principal de l'auteur est : La gamme des erreurs a rétréci, mais la menace persiste. Les programmeurs et les équipes de sécurité doivent être conscients que même les IA les plus intelligentes d'aujourd'hui peuvent encore vous mener vers un téléchargement faux et dangereux.

Noyé(e) sous les articles dans votre domaine ?

Recevez des digests quotidiens des articles les plus récents correspondant à vos mots-clés de recherche — avec des résumés techniques, dans votre langue.

Essayer Digest →