A Geometric Taxonomy of Hallucinations in LLMs

Each language version is independently generated for its own context, not a direct translation.

Imaginez que les grands modèles de langage (les IA qui écrivent pour nous) sont comme des chefs cuisiniers très talentueux mais un peu distraits. Ils sont excellents pour assembler des mots qui sonnent bien, mais ils ont parfois du mal à distinguer la réalité de l'imagination.

Ce papier de recherche propose une nouvelle façon de classer les "erreurs" de ces chefs, non pas en regardant ce qu'ils disent, mais en regardant comment leurs pensées se déplacent dans l'espace des idées.

Voici l'explication simple, avec quelques images pour mieux comprendre :

1. Le Concept de Base : La Carte des Idées

Imaginez que toutes les idées du monde sont des points sur une immense sphère (une boule) flottant dans l'espace.

Quand vous posez une question, c'est un point sur cette sphère.
Quand l'IA répond, elle "saute" vers un autre point.
Si la réponse est bonne, elle saute dans la bonne direction. Si elle est mauvaise, elle saute ailleurs.

Les chercheurs disent que les erreurs ne sont pas toutes pareilles. Ils en ont identifié trois types, comme trois façons différentes de se tromper en cuisine.

2. Les Trois Types d'Erreurs (Hallucinations)

Type I : Le Chef qui Ignore la Commande (L'Inattention)

L'analogie : Vous demandez au chef : "Faites-moi un plat avec des tomates et du basilic, voici la recette." Mais le chef, au lieu de regarder votre recette, se souvient de son propre plat préféré et vous sert un steak. Il a ignoré vos ingrédients.
Ce qui se passe géométriquement : La réponse reste collée à la question (la demande initiale) au lieu de se rapprocher de la "recette" (le contexte fourni).
La solution : Les chercheurs ont créé un outil appelé SGI. C'est comme un radar qui vérifie : "Est-ce que le plat s'est rapproché de la recette que vous avez donnée ?". Si non, c'est une erreur de Type I.

Type II : Le Chef qui Invente des Ingrédients Fantômes (La Confabulation)

L'analogie : Vous demandez : "Comment faire un gâteau au chocolat ?". Le chef répond avec une recette parfaite, mais il ajoute un ingrédient qui n'existe pas : "Ajoutez 50g de poussière d'étoile et 2 cuillères de silence". Il a inventé quelque chose de totalement étranger à la réalité.
Ce qui se passe géométriquement : La réponse part dans une direction bizarre, loin de tout ce qui est "plausible" ou logique. C'est comme si le chef marchait dans le mur au lieu de rester dans la cuisine.
La solution : Ils ont créé un outil appelé Γ (Gamma). C'est une boussole qui détecte si la réponse s'éloigne de la "route normale" des faits. Sur des tests humains, cet outil est très efficace (95% de réussite) pour repérer ces inventions folles.

Type III : Le Chef qui se Trompe de Détails (L'Erreur Factuelle)

L'analogie : Vous demandez : "Qui a écrit 'Les Misérables' ?". Le chef répond : "C'est Victor Hugo, né en 1802 à Paris". C'est presque parfait, sauf que Hugo est né en 1802 (vrai) mais à Besançon (faux). Le chef a la bonne idée (Hugo), mais un faux détail.
Le problème : Ici, la réponse est si proche de la vérité que les outils géométriques ne voient aucune différence. C'est comme essayer de distinguer deux grains de sable identiques avec une loupe.
La conclusion surprenante : Les chercheurs disent que c'est impossible de détecter ce type d'erreur avec la géométrie seule. Pourquoi ? Parce que l'IA ne ment pas en inventant un monde nouveau (Type II), elle se trompe juste à l'intérieur du monde réel. Pour l'IA, "Besançon" et "Paris" sont des mots qui se ressemblent beaucoup.

3. Le Piège de la "Style" (L'histoire de TruthfulQA)

Les chercheurs ont testé leur méthode sur une base de données célèbre (TruthfulQA) où l'on pensait pouvoir détecter les erreurs de Type III.

Ce qu'ils ont découvert : L'outil semblait fonctionner (il détectait les erreurs), mais c'était un leurre.
L'explication : Les réponses fausses dans cette base de données étaient écrites d'une manière spécifique (plus courtes, plus directes), tandis que les vraies réponses étaient plus longues et prudentes.
L'analogie : C'est comme si un détective arrêtait les gens parce qu'ils portaient un chapeau rouge, alors que les criminels portaient juste un chapeau rouge par hasard. Le détective ne détectait pas le crime, mais le style de vêtement !
Leçon : Quand on enlève ce biais de style, l'outil ne détecte plus rien. Cela confirme que les erreurs de Type III sont invisibles pour la géométrie.

En Résumé

Ce papier nous dit :

Les erreurs sont différentes : Parfois l'IA ignore ce qu'on lui donne (Type I), parfois elle invente des choses folles (Type II), et parfois elle se trompe juste sur un détail (Type III).
On peut détecter les deux premiers : Avec des outils géométriques (SGI et Gamma), on peut repérer quand l'IA ignore le contexte ou invente des choses. C'est très efficace.
On ne peut pas détecter le troisième : Quand l'IA se trompe juste sur un détail tout en restant dans le bon sujet, la géométrie ne voit rien. C'est une limite fondamentale de la technologie actuelle, pas juste un bug.

C'est une avancée importante car cela nous aide à comprendre ce que l'IA peut et ne peut pas faire, et à ne pas attendre d'elle qu'elle soit parfaite sur les détails, là où elle est naturellement aveugle.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article « A Geometric Taxonomy of Hallucinations in LLMs » (Une taxonomie géométrique des hallucinations dans les LLM), rédigé par Javier Marín.

1. Problématique et Contexte

Le terme « hallucination » dans les modèles de langage (LLM) regroupe actuellement des modes d'échec hétérogènes qui possèdent des signatures géométriques distinctes dans l'espace des embeddings. La littérature actuelle peine à distinguer ces pathologies, souvent en raison de la construction biaisée des benchmarks (générés par des LLM pour simuler des mensonges plutôt que pour capturer l'erreur factuelle réelle).

L'auteur identifie trois types fondamentaux d'hallucinations, chacun ayant des racines et des conséquences différentes :

Type I (Infidélité / Unfaithfulness) : Le modèle ignore le contexte fourni et génère à partir de sa mémoire paramétrique. La réponse reste angulairement proche de la requête plutôt que de se rapprocher du contexte.
Type II (Confabulation) : Le modèle invente des entités, des mécanismes ou des concepts qui n'existent pas. Le déplacement de la réponse s'éloigne géométriquement de la « variété des réponses plausibles ».
Type III (Erreur factuelle) : Le modèle fournit de mauvaises informations à l'intérieur d'un cadre conceptuel correct. La réponse est sémantiquement plausible et occupe une région de l'espace d'embedding indistinguable de la réponse correcte par la géométrie angulaire seule.

2. Méthodologie

L'article propose une approche opérationnelle basée sur la géométrie de l'hyper-sphère unitaire ( $S^{d-1}$ ) où résident les embeddings normalisés. Deux indices de détection sont introduits :

A. Semantic Grounding Index (SGI) pour le Type I

Destiné aux contextes où un document de référence ( $c$ ) est fourni.

Formule : $SGI(r; q, c) = \frac{\theta(r, q)}{\theta(r, c)}$ $S G I (r; q, c) = \frac{θ ( r , q )}{θ ( r , c )}$
- Où $\theta$ est la distance géodésique (angle) sur la sphère.
Logique : Une réponse ancrée (grounded) doit se déplacer vers le contexte, donc être plus proche de $c$ que de $q$ ( $SGI > 1$ ). Une réponse infidèle reste proche de la requête ( $SGI \le 1$ ).
Avantage : Utilise la distance géodésique (satisfaisant l'inégalité triangulaire) plutôt que la similarité cosinus pour une principialité géométrique rigoureuse.

B. Directional Grounding Index ( $\Gamma$ ) pour le Type II

Destiné aux contextes sans référence externe (détection de confabulation pure).

Principe : Il mesure le déplacement directionnel d'une réponse par rapport à une direction de « grounding » apprise.
Calcul :
1. Calcul du vecteur de déplacement normalisé $\hat{\delta}(q, r) = \hat{\phi}(r) - \hat{\phi}(q)$ .
2. Calcul de la direction moyenne de grounding $\hat{\mu}$ à partir d'un ensemble de paires vérifiées (moyenne de Von Mises–Fisher).
3. Indice : $\Gamma(q, r; R) = \hat{\delta}(q, r)^\top \hat{\mu}$ .
Interprétation : Une valeur élevée indique une alignement avec la direction de réponse plausible. Une valeur faible ou négative indique un déplacement anormal caractéristique d'une confabulation (Type II).

3. Contributions Clés

Taxonomie Géométrique : Une classification formelle des hallucinations basée sur leurs signatures dans l'espace vectoriel, distinguant l'ignorance du contexte (Type I), l'invention sémantique (Type II) et l'erreur factuelle interne (Type III).
Méthodes de Détection Sans Modèle Interne : Contrairement aux méthodes nécessitant l'accès aux états cachés (white-box) ou à la génération multiple, SGI et $\Gamma$ ne nécessitent qu'un seul appel d'embedding et des calculs géométriques simples.
Analyse de la Limite du Type III : Démonstration théorique et empirique que les erreurs factuelles (Type III) sont intrinsèquement indétectables par la géométrie des embeddings, car ces derniers encodent la co-occurrence statistique et non les conditions de vérité.

4. Résultats Expérimentaux

Performance sur les Données Humaines (Type II)

Sur un ensemble de 142 confabulations humaines (financier, médical, juridique), $\Gamma$ atteint un AUROC de 0,958 ± 0,034.
Il surpasse significativement la baseline NLI (CrossEncoder) qui obtient seulement 0,611, car les confabulations sont syntaxiquement cohérentes et compatibles avec l'entaillement de surface.
La dégradation inter-domaine est faible (3,8 %), suggérant que la géométrie de la confabulation est agnostique au domaine.

Validation sur des Benchmarks Externes

ExpertQA (Domaine expert) : $\Gamma$ surpasse le NLI avec un gain de $\Delta = 0,243$ (AUROC 0,695 vs 0,452). Le NLI fonctionne au hasard ici car les erreurs d'experts sont sémantiquement plausibles mais factuellement fausses.
WikiBio : La détection échoue (AUROC 0,581) car l'annotation de ce dataset confond les erreurs de Type II et Type III (tout détail incorrect est marqué comme erreur majeure), ce qui brouille la signature géométrique.
FELM : Détection modeste mais significative (AUROC 0,648).

Analyse de la Frontière Type III (TruthfulQA)

Sur TruthfulQA, un classifieur linéaire (LR) sur les embeddings bruts atteint un AUROC de 0,731, ce qui semble contredire l'hypothèse d'indétectabilité du Type III.
Résolution du paradoxe : L'analyse révèle que ce signal provient d'un artefact stylistique (les réponses fausses sont plus courtes et déclaratives, les vraies plus longues et prudentes).
La similarité cosinus est inversée (AUROC 0,365) : les fausses réponses sont géométriquement plus proches de la requête que les vraies, ce qui est l'inverse de ce qu'une détection d'erreur factuelle devrait produire.
Une calibration de $\Gamma$ hors échantillon (sans le signal stylistique) tombe à l'aleatoire (AUROC 0,535), confirmant que la géométrie ne peut pas distinguer les erreurs factuelles (Type III).

5. Signification et Conclusion

Ce travail établit que la détection des hallucinations n'est pas un problème uniforme, mais dépend de la nature géométrique de l'erreur :

Le Type I est détectable par la distance relative au contexte (SGI).
Le Type II est détectable par la déviation directionnelle de la plausibilité ( $\Gamma$ ).
Le Type III est géométriquement invisible par construction, car les embeddings capturent la distribution des mots, pas la vérité factuelle.

L'article conclut que les tentatives de détection sur des benchmarks comme TruthfulQA mesurent souvent des biais d'annotation stylistique plutôt que la capacité à détecter l'erreur factuelle. La taxonomie proposée permet de prédire quels types de données permettront une détection géométrique efficace et lesquels resteront hors de portée des méthodes actuelles basées sur les embeddings.