Auteurs originaux : Aleksandr Churilov (Independent Researcher)

Publié 2026-05-19✓ Author reviewed ⓘ

📖 5 min de lecture🧠 Analyse approfondie

Auteurs originaux : Aleksandr Churilov (Independent Researcher)

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Imaginez que vous êtes un chef essayant de cuisiner une nouvelle recette. Vous demandez de l'aide à un second chef ultra-intelligent, propulsé par l'IA. Le second chef vous affirme avec assurance : « Vous devez acheter SuperSpice-9000 à l'épicerie ! » Vous vous rendez au magasin, mais SuperSpice-9000 n'existe pas.

Dans le monde de la programmation informatique, cette « épicerie » est un entrepôt numérique appelé PyPI (pour Python) ou npm (pour JavaScript). Ces entrepôts contiennent des millions d'« ingrédients » de code préfabriqués (des packages) que les programmeurs peuvent télécharger en une seule commande.

Ce document fait suite à une histoire effrayante racontée l'année dernière. À l'époque, les chercheurs ont découvert que les chefs IA étaient très mauvais pour nommer les ingrédients. Ils inventaient de faux noms comme « SuperSpice-9000 » environ 5 % à 22 % du temps. Un voleur malveillant pouvait enregistrer un package malveillant sous ce faux nom, attendre qu'un programmeur le demande à l'IA, puis tromper le programmeur pour qu'il installe un virus. Cela s'appelle le « slopsquatting ».

L'auteur de ce document, un chercheur indépendant, s'est demandé : « L'IA s'est-elle améliorée là-dessus deux ans plus tard ? »

Voici ce qu'ils ont découvert, expliqué simplement :

1. Le problème des « faux ingrédients » a diminué, mais n'a pas disparu

Les chercheurs ont testé les cinq modèles d'IA de codage les plus intelligents disponibles au début de 2026 (provenant de sociétés comme Anthropic, OpenAI, Google et DeepSeek).

Les bonnes nouvelles : L'écart entre l'IA « la meilleure » et l'IA « la pire » s'est considérablement réduit. En 2024, certaines IA étaient terribles (22 % de faux noms) tandis que d'autres étaient correctes (5 %). En 2026, elles sont toutes à peu près égales : elles inventent toutes des faux noms environ 4,6 % à 6,1 % du temps. La « dispersion » de la mauvaise performance s'est effondrée.
Les mauvaises nouvelles : La menace est toujours très réelle. Même si le taux a baissé, 4 à 6 % reste suffisamment élevé pour qu'un voleur puisse en tirer profit. Si une IA invente un faux nom 1 fois sur 20, un voleur peut toujours enregistrer ce faux nom et attendre que des milliers de programmeurs le téléchargent par erreur.

2. La découverte du « faux universel »

C'est la plus grande surprise du document. Les chercheurs ont trouvé 127 faux noms spécifiques que tous les cinq des principaux modèles d'IA ont inventés.

L'analogie : Imaginez demander à cinq chefs experts différents : « Quel est l'ingrédient secret de cette soupe ? » et qu'ils répondent tous indépendamment : « C'est BlueFlavor-7 », même si cet ingrédient n'existe pas.
Le danger : Si un voleur enregistre « BlueFlavor-7 » une seule fois, il peut attaquer les utilisateurs de toutes les cinq sociétés d'IA simultanément. C'est un « piège universel » qui ne dépend pas de l'IA que vous utilisez.

3. Quelques bizarreries inattendues

Le document a révélé des modèles contraires à ce que nous attendions :

Python vs JavaScript : En 2024, l'IA était moins bonne pour nommer les ingrédients JavaScript. En 2026, elle est en fait moins bonne pour nommer les ingrédients Python. L'IA semble se perdre dans les règles de nommage désordonnées de Python.
Le « petit » frère vs le « grand » frère : Habituellement, les modèles d'IA plus petits et moins chers font plus d'erreurs que les grands modèles coûteux. Mais ici, le modèle « petit » (Claude Haiku) a en fait inventé moins de faux noms que son « grand frère » (Claude Sonnet). Il semble que le petit modèle ait été entraîné à être particulièrement prudent avec les instructions.

4. Pourquoi le problème a-t-il diminué ?

L'auteur suggère trois raisons pour lesquelles l'IA est légèrement meilleure maintenant :

Égalisation des chances : Les modèles « open-source » (gratuits) sont devenus si bons qu'ils sont désormais aussi intelligents que les modèles « commerciaux » (payants), ce qui a comblé l'écart entre eux.
Meilleur entraînement : Les sociétés qui alimentent l'IA en données semblent avoir nettoyé leurs « livres de recettes » (données d'entraînement) pour éliminer davantage de faux noms d'ingrédients.
Entraînement standardisé : Toutes les grandes sociétés d'IA utilisent désormais des méthodes d'enseignement similaires, de sorte qu'elles commettent toutes des erreurs similaires (légèrement meilleures).

La conclusion

Les chefs IA ont un peu assaini leur comportement, mais ils continuent d'inventer des faux ingrédients assez souvent pour être dangereux. La partie la plus inquiétante est qu'ils inventent tous les mêmes faux ingrédients.

Ce que le document NE dit PAS :

Il ne dit pas que ce problème est résolu.
Il ne dit pas que vous devez arrêter d'utiliser l'IA.
Il ne prétend pas que tous les modèles d'IA sont mauvais (ils n'ont testé que les 5 principaux modèles « de pointe » ; les modèles plus petits et plus anciens pourraient encore être bien pires).

Le message principal de l'auteur est : La gamme des erreurs a rétréci, mais la menace persiste. Les programmeurs et les équipes de sécurité doivent être conscients que même les IA les plus intelligentes d'aujourd'hui peuvent encore vous mener vers un téléchargement faux et dangereux.

Résumé technique : Réévaluation des hallucinations de paquets par les LLM sur la cohorte des modèles de pointe de 2026

Énoncé du problème

L'article traite de la vulnérabilité de sécurité connue sous le nom de slopsquatting, un vecteur d'attaque de la chaîne d'approvisionnement où des adversaires enregistrent des paquets malveillants sur PyPI ou npm sous des noms que les modèles de langage de grande taille (LLM) hallucinent. Lorsque les développeurs font confiance à du code généré par des LLM contenant des directives pip install ou npm install pour des paquets inexistants, ils installent involontairement ces artefacts malveillants.

Bien que Spracklen et al. (USENIX Security '25) aient établi l'existence de cette menace en 2024, rapportant des taux d'hallucination allant de 5,2 % (modèles commerciaux) à 21,7 % (modèles open-source), il restait une question empirique ouverte de savoir si ce phénomène avait évolué avec les progrès rapides des modèles de pointe publiés entre la fin 2025 et le début 2026. Plus précisément, les auteurs ont cherché à déterminer si les taux d'hallucination avaient diminué, si la variance inter-modèle s'était réduite, et si de nouvelles surfaces d'attaque agnostiques au modèle avaient émergé.

Méthodologie

L'étude est une réplication fidèle de la méthodologie de Spracklen et al. appliquée à une nouvelle cohorte de cinq LLM de pointe capables de coder, publiés entre octobre 2025 et mars 2026 :

Claude Sonnet 4.6 (Anthropic)
Claude Haiku 4.5 (Anthropic)
GPT-5.4-mini (OpenAI)
Gemini 2.5 Pro (Google)
DeepSeek V3.2 (DeepSeek)

Conception expérimentale :

Corpus de prompts : Les auteurs ont utilisé les ensembles de données de prompts exacts de l'artefact Spracklen (576 000 prompts au total répartis sur 16 modèles dans l'étude originale), comprenant 20 163 questions Stack Overflow et 19 806 questions synthétisées par LLM, répartis équitablement entre Python et JavaScript.
Génération : Un total de 199 845 échantillons de code a été généré (environ 39 969 par modèle).
Extraction et validation : Les références aux paquets ont été extraites à l'aide d'heuristiques basées sur des expressions régulières correspondant aux instructions pip install, npm install et aux déclarations d'importation. Les noms extraits ont été validés par rapport aux listes maîtresses des paquets existants pour PyPI (500 565 noms) et npm (~3 millions de noms) en date du 28 avril 2026.
Analyse statistique : Les taux d'hallucination ont été calculés comme le rapport des références non résolues sur le nombre total de références. La signification statistique a été testée à l'aide des statistiques du $\chi^2$ de Pearson avec correction de Holm–Bonferroni pour les comparaisons par paires, ainsi que des métriques de similarité de Jaccard pour mesurer le chevauchement des noms hallucinés.

Contributions clés

Réplication sur les modèles de pointe : Une mesure complète des taux d'hallucination de paquets sur cinq modèles de l'état de l'art, générant une nouvelle référence pour 2026.
Identification de la compression de la plage : Documentation d'un rétrécissement significatif de la dispersion inter-modèle des hallucinations par rapport aux données de 2024.
Découverte d'hallucinations universelles : L'identification d'un ensemble de 127 noms de paquets (109 sur PyPI, 18 sur npm) qui sont hallucinés de manière identique par les cinq modèles évalués, constituant une surface d'attaque agnostique au modèle.
Observation d'anomalies :
- Un renversement de l'asymétrie d'hallucination Python/JavaScript (les taux Python sont désormais plus élevés).
- Une inversion au sein de la famille Anthropic où le modèle plus petit (Haiku 4.5) hallucine moins que le modèle plus grand (Sonnet 4.6).
- Une forte similarité de Jaccard (0,343) entre DeepSeek V3.2 et GPT-5.4-mini, suggérant des origines de données d'entraînement partagées ou des schémas d'erreurs convergents.
Artéfact de science ouverte : Publication du code de réplication, des journaux de validation et des scripts d'analyse, avec une politique d'accès pour les chercheurs vérifiés pour le corpus complet d'hallucinations.

Résultats

Taux d'hallucination et compression de la plage

L'étude a révélé que les taux d'hallucination au sein de la cohorte 2026 varient de 4,62 % (Claude Haiku 4.5) à 6,10 % (GPT-5.4-mini).

Compression : Cela représente un rétrécissement 11 fois plus important de la dispersion inter-modèle par rapport aux résultats de Spracklen de 2024 (5,2 %–21,7 %).
Cause : La compression est attribuée à la réduction de l'écart entre les modèles à poids ouverts et les modèles commerciaux (par exemple, DeepSeek V3.2 est désormais compétitif avec les leaders commerciaux) et à la saturation de la curation des données d'entraînement concernant les références aux paquets.
Persistance : Malgré la compression, la menace reste économiquement viable pour les adversaires, car même un taux de 4,62 % produit des centaines de noms hallucinés uniques par modèle.

Ensemble d'hallucinations universelles

Une découverte cruciale est l'existence de 127 noms de paquets hallucinés par les cinq modèles.

Signification : Cela crée une surface d'attaque « agnostique au modèle ». Un attaquant enregistrant un seul paquet malveillant (par exemple, opentelemetry ou @ember/service) peut cibler simultanément les utilisateurs de n'importe lequel des cinq principaux fournisseurs.
Mécanisme : Les auteurs suggèrent que ces erreurs universelles proviennent de sous-chaînes de données d'entraînement partagées (par exemple, une documentation utilisant mal des noms) ou d'une généralisation systématique des conventions de namespace (par exemple, traiter des sous-paquets internes comme des cibles installables).

Anomalies spécifiques

Asymétrie linguistique : Contrairement aux résultats de 2024 où JavaScript était « plus bruyant », les cinq modèles de 2026 ont présenté des taux d'hallucination plus élevés pour Python (+2,73 à +4,13 points de pourcentage de plus que JavaScript). Les auteurs émettent l'hypothèse que cela est dû aux conventions de nommage plus hétérogènes de Python (snake_case, tirets, points) par rapport à la structure plus plate de JavaScript.
Inversion Anthropic : Au sein de la famille Anthropic, Claude Haiku 4.5 (4,62 %) a halluciné significativement moins que Claude Sonnet 4.6 (5,41 %). Cela contredit le schéma habituel où les modèles plus petits hallucinent davantage. Les auteurs attribuent cela à la capacité par défaut de « réflexion étendue » de Haiku 4.5 et à l'accent spécifique mis après l'entraînement sur la fidélité aux instructions.
Convergence DeepSeek/OpenAI : DeepSeek V3.2 et GPT-5.4-mini ont montré la plus forte similarité de Jaccard par paires (0,343), suggérant des biais partagés ou des origines de données d'entraînement.

Signification et affirmations

L'article conclut que, bien que la plage des taux d'hallucination ait rétréci, la menace n'a pas été écartée.

Viabilité économique : À 4–7 %, l'attaque de slopsquatting reste très rentable pour les adversaires en raison du caractère à coût nul de l'enregistrement de paquets.
Changement méthodologique : Les auteurs soutiennent que les études sur un seul modèle sont insuffisantes. L'existence d'un ensemble d'hallucinations universelles signifie que la surface d'attaque totale est sous-estimée si un seul modèle est évalué. L'analyse d'intersection inter-cohortes devrait devenir une métrique standard dans les futures recherches en sécurité.
Implications pour la défense : Les résultats soulignent que l'entraînement post-sécurité et la mise à l'échelle des modèles ont réduit la variance mais n'ont pas éliminé le problème fondamental de la convergence des modèles vers des noms de paquets spécifiques et incorrects. Les auteurs soulignent que la « frontière » s'est compressée, mais que les modèles open-source de niveau inférieur peuvent encore présenter les taux élevés observés en 2024.

L'étude maintient un ton modeste concernant ses affirmations, notant des limitations telles que le risque de fuite de données d'entraînement (puisque le corpus de prompts a été publié en 2025) et l'exclusion des configurations agentiques où des mécanismes de récupération pourraient atténuer les hallucinations. La contribution principale est la preuve empirique que la menace de slopsquatting persiste et a évolué en une vulnérabilité multi-fournisseurs.

The Range Shrinks, the Threat Remains: Re-evaluating LLM Package Hallucinations on the 2026 Frontier-Model Cohort