Auteurs originaux : Mohit Singh Chauhan

Publié 2026-06-02✓ Author reviewed ⓘ

📖 6 min de lecture🧠 Analyse approfondie

Auteurs originaux : Mohit Singh Chauhan

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Imaginez que vous avez un robot très intelligent et sûr de lui qui répond aux questions. Parfois, ce robot invente des choses. Nous appelons ces erreurs des « hallucinations ».

Pendant longtemps, les chercheurs ont essayé de classer ces erreurs selon ce qui était faux (par exemple : « Il s'est trompé sur les faits » ou « Son raisonnement était défaillant »). Mais les auteurs de ce document, Mohit Singh Chauhan, disent que c'est comme classer les accidents de voiture en « a percuté un arbre » contre « a percuté un mur ». Cela vous dit ce qui s'est passé, mais cela ne vous dit pas comment attraper le conducteur avant l'accident.

Ce document présente une nouvelle façon de classer les erreurs appelée DECK. Au lieu de regarder le contenu de l'erreur, il regarde le signal que l'erreur laisse derrière elle. Il demande : « Quel type de détecteur aurait repéré cela ? »

Les deux détecteurs (les axes)

Pour construire leur système, les auteurs utilisent deux « capteurs » simples pour surveiller le robot :

Le capteur de cohérence (le test de la « répétition ») : Si vous posez la même question au robot 10 fois, vous donne-t-il la même réponse à chaque fois ?
- Cohérence élevée : Il répète la même réponse.
- Cohérence faible : Il donne une réponse différente à chaque fois.
Le capteur de confiance (le test du « certain de soi ») : À quel point le robot semble-t-il sûr de lui ? Dit-il la réponse avec une certitude de 100 %, ou semble-t-il hésitant ?
- Confiance élevée : « Je suis sûr à 100 %. »
- Confiance faible : « Je pense peut-être que... »

La taxonomie DECK (les quatre cases)

En croisant ces deux capteurs, les auteurs créent une grille 2x2 avec quatre types d'erreurs. Ils leur ont donné des noms accrocheurs :

1. Drift / Dérive (le « dériveur confus »)

Ce à quoi cela ressemble : Le robot est confiant mais donne une réponse fausse différente à chaque fois que vous posez la question.
L'analogie : Imaginez un guide touristique qui est très bruyant et sûr de lui, mais chaque fois que vous demandez « Où est le musée ? », il pointe une direction différente. Il est confiant, mais il dérive.
Qui le attrape ? Un détecteur de boîte noire (un détecteur qui vérifie si les réponses concordent entre elles) attrapera cela car les réponses ne sont pas d'accord.

2. Entrenched / Encastré (la « mule têtue »)

Ce à quoi cela ressemble : Le robot est confiant et donne la même réponse fausse exacte à chaque fois.
L'analogie : C'est comme un étudiant qui a mémorisé le mauvais corrigé. Si vous lui demandez « Combien font 2+2 ? », il dira avec assurance « 5 » à chaque fois, peu importe le nombre de fois où vous posez la question. Il est coincé (encastré) dans une conception erronée.
Qui le attrape ? C'est le plus difficile. Les détecteurs de cohérence pensent qu'il a raison parce qu'il est cohérent ! Seul un Juge (une seconde IA indépendante qui connaît les faits) peut attraper cela.

3. Confabulation (le « fabricateur hésitant »)

Ce à quoi cela ressemble : Le robot est incertain et donne des réponses fausses différentes à chaque fois.
L'analogie : C'est le robot qui admet : « Je ne sais pas, mais voici une supposition... en fait, peut-être cette autre supposition ? » Il invente des choses mais sait qu'il devine.
Qui le attrape ? Tout le monde attrape cela. Il est en faible confiance et incohérent, donc tous les détecteurs le signalent comme « risqué ».

4. Knotted / Noué (la « haie coincée »)

Ce à quoi cela ressemble : Le robot est incertain (faible confiance) mais donne la même réponse fausse exacte à chaque fois.
L'analogie : Imaginez un robot qui a peur de se tromper, alors il répète sans cesse : « Je ne suis pas sûr, mais je pense que c'est probablement X », et il dit « probablement X » à chaque fois. Il est « noué » dans un schéma répétitif, mais faux, et sécurisant.
Qui le attrape ? Un détecteur de boîte blanche (un détecteur qui examine les calculs internes du robot) l'attrapera car les calculs internes du robot montrent qu'il n'est pas réellement sûr, même si la réponse est répétée.

La grande découverte : Le « angle mort universel »

Les auteurs ont découvert une situation effrayante où tous les détecteurs échouent en même temps.

Ils ont testé les robots sur des questions auxquelles personne ne peut répondre (comme « Quelle est la capitale d'un pays qui n'existe pas encore ? »).

Les robots n'ont pas dit « Je ne sais pas ».
Au lieu de cela, ils ont inventé une réponse fausse avec assurance et l'ont répétée à chaque fois.

Cela a créé un piège parfait :

Le capteur de cohérence a vu qu'ils répétaient la réponse, alors il a pensé : « Super, c'est cohérent ! »
Le capteur de confiance a vu qu'ils semblaient sûrs d'eux, alors il a pensé : « Super, c'est confiant ! »
Le Juge a échoué car le Juge ne connaissait pas non plus la réponse (puisque le pays n'existe pas).

Les auteurs appellent cela l'« angle mort universel ». Lorsqu'un robot répète avec assurance un mensonge sur quelque chose qu'il ne connaît pas, aucun détecteur actuel ne peut le rattraper.

La solution

Le document suggère qu'au lieu d'essayer de construire un meilleur détecteur pour attraper ces mensonges spécifiques, nous devrions construire une « enveloppe de refus ». C'est comme un videur à l'entrée d'un club. Si la question porte sur quelque chose que le robot ne devrait pas savoir (un manque de connaissances), le videur doit empêcher le robot de répondre du tout et dire : « Je ne peux pas répondre à cela », avant même que le robot ne tente d'inventer quelque chose.

Résumé

Ce document ne se contente pas de dire « L'IA fait des erreurs ». Il dit : « L'IA fait des erreurs selon quatre modèles spécifiques. Certains modèles sont faciles à attraper, certains sont difficiles, et un modèle spécifique (des mensonges répétés et confiants sur des choses inconnues) est actuellement impossible à attraper avec les outils standards. Nous devons empêcher le robot de répondre à ces questions dès le départ. »

Résumé technique : DECK – Une taxonomie de la Consistance × de la Confiance des hallucinations des LLM

Énoncé du problème

Les taxonomies existantes pour les hallucinations des grands modèles de langage (LLM) classent les erreurs selon la nature de l'échec de la sortie (ex: méconceptions mémorisées, échecs de raisonnement, fabrications fluides). Bien qu'utiles pour le diagnostic, ces cadres ne répondent pas à une question cruciale de déploiement : quel évaluateur de quantification de l'incertitude (UQ) aurait détecté une erreur spécifique ?

La littérature actuelle propose trois principales familles d'évaluateurs d'UQ au niveau de la sortie :

Boîte noire (BB - Black-box) : Vérifications de cohérence inter-échantillons (ex: entropie sémantique, auto-vérification).
Boîte blanche (WB - White-box) : Mesures de probabilité de log-token au niveau du jeton.
LLM-en-tant-que-Juge (J - LLM-as-a-Judge) : Revue factuelle par un modèle distinct.

Cependant, la relation entre les types de hallucinations spécifiques et les signatures de détectabilité que ces familles d'évaluateurs lisent reste implicite. Sans une taxonomie fondée sur l'axe de la détectabilité, la sélection d'un évaluateur pour un nouveau domaine reste une supposition heuristique. De plus, il existe un manque de compréhension mécaniste concernant les raisons pour lesquelles certains ensembles sont plus performants que d'autres et où se situent les modes de défaillance universels.

Méthodologie

La Taxonomie DECK

Le document propose DECK, une taxonomie complémentaire qui classe les hallucinations par leur signature de détectabilité plutôt que par leur contenu sémantique. Elle partitionne les hallucinations dans une grille $2 \times 2$ basée sur deux axes observables :

Cohérence inter-échantillons : Le modèle produit-il la même réponse incorrecte à travers plusieurs échantillons stochastiques indépendants ?
Confiance au niveau du jeton : Le modèle assigne-t-il une probabilité élevée aux jetons de sa réponse générée ?

Cela produit quatre régimes comportementaux (Tableau 1) :

Dérive (Drift - D) : Faible Cohérence, Haute Confiance. Le modèle génère différentes réponses erronées mais confiantes pour chaque échantillon.
Enracinée (Entrenched - E) : Haute Cohérence, Haute Confiance. Le modèle s'accroche à une méconception mémorisée ou à une erreur de pré-entraînement partagée et la reproduit sans variance.
Confabulation (C) : Faible Cohérence, Faible Confiance. Le modèle manque réellement de connaissances, produisant différentes réponses erronées avec une faible confiance.
Nœud (Knotted - K) : Haute Cohérence, Faible Confiance. Le modèle répète systématiquement la même réponse prudente ou erronée, mais assigne une faible probabilité de jeton.

Opérationnalisation : L'appartenance à une cellule est déterminée en appliquant les seuils optimaux de l'indice J de Youden sur les scores des évaluateurs BB (cohérence) et WB (confiance) pour chaque condition.

Configuration Expérimentale

Modèles : Llama-3-8B (poids ouverts), GPT-4o (poids fermés) et Gemini-2.5-Flash (poids fermés).
Jeux de données : TriviaQA (factuel), HaluEval (hallucinations adverses), SelfAware (questions sans réponse/lacunes de connaissances) et PopQA (centré sur les entités, stratifié par popularité).
Évaluateurs : 15 configurations à travers les trois familles (BB, WB, Juge), sélectionnées sur la base de l'AUROC la plus élevée par division pour éviter les biais.
Évaluation :
- AUROC : Performance par évaluateur.
- Complémentarité ( $C_H$ ) : La fraction d'échantillons hallucinés où deux évaluateurs sont en désaccord.
- Validation externe : Vérification si les étiquettes externes (ex: popularité de l'entité, nature adverse) se retrouvent dans les cellules DECK prédites.

Principales Contributions

La Taxonomie DECK : Un passage de la classification de ce qui est faux à comment une erreur est détectée. Elle cartographie explicitement les quatre régimes comportementaux aux forces et points aveugles des trois familles d'évaluateurs :
- Dérive : Détectable par BB et Juge.
- Enracinée : Détectable uniquement par un Juge indépendant (aveugle à BB et WB).
- Confabulation : Détectable par les trois familles d'évaluateurs.
- Nœud : Détectable par WB et Juge.
Identification d'un Point Aveugle Universel : Le papier identifie un régime où toutes les familles d'UQ de sortie s'effondrent simultanément. Sur les entrées de type "lacune de connaissance" (ex: questions sans réponse de SelfAware) où le générateur émet des fabrications confiantes et répétables, BB voit une haute concordance, WB voit une haute probabilité de jeton, et les Juges partagent la même lacune de connaissance. Dans ce régime, l'UQ de sortie échoue par construction.
Validation Mécaniste de l'Ensemblage : Le papier fournit une explication structurelle de la raison pour laquelle l'ensemblage fonctionne. Il démontre que le désaccord entre les évaluateurs n'est pas aléatoire mais concentré dans des quadrants DECK spécifiques (ex: BB manque l'Enraciné/Nœud ; WB manque la Dérive/Enraciné), validant la complémentarité des familles.

Résultats

Validation de la Taxonomie

Analyse du désaccord : À travers 12 combinaisons modèle-jeu de données, les modèles de désaccord entre les paires d'évaluateurs s'alignent sur les prédictions DECK. Par exemple, les désaccords BB-Juge se concentrent dans les cellules Enraciné et Nœud (points aveugles de BB), tandis que les désaccords WB-Juge se concentrent dans la Dérive et la Confabulation.
Validation par signaux externes :
- SelfAware (Sans réponse) : Les échantillons se retrouvent principalement dans la cellule Enraciné (62–71 % selon les modèles), confirmant l'hypothèse que les hallucinations de lacunes de connaissances se manifestent par des erreurs confiantes et répétables.
- PopQA (Entités rares) : Les échantillons se retrouvent principalement dans la Confabulation, cohérent avec le manque de connaissances spécifiques des modèles.
- PopQA (Entités populaires) : Les échantillons se retrouvent dans l'Enraciné, reflétant des méconceptions mémorisées.
- HaluEval : Montre des distributions dépendantes du modèle, se divisant souvent entre Enraciné et Nœud/Confabulation.

Le Point Aveugle Universel

Sur le jeu de données SelfAware (lacunes de connaissances), les trois familles d'évaluateurs se sont effondrées vers une performance proche du hasard (AUROC $\approx$ 0,5 ou moins).

GPT-4o : 13 des 15 évaluateurs sont tombés en dessous de 0,5 AUROC ; $P(\text{Vrai})$ s'est inversé à 0,331.
Sonde d'état interne : Une sonde linéaire sur les états cachés de la dernière couche de Llama-3-8B s'est également effondrée vers le hasard (AUROC 0,44) sur SelfAware, suggérant que le mode de défaillance persiste au niveau des activations, et non seulement au niveau de la sortie.
Conclusion : Aucun ensemble d'évaluateurs de sortie ne peut détecter ces erreurs ; la seule réponse d'ingénierie est une enveloppe d'abstention pour router ces entrées vers le refus ou la récupération avant l'évaluation.

Effets de l'Échelle des Modèles

TriviaQA : Passer de Llama-3-8B à GPT-4o a déplacé le désaccord résiduel de la Confabulation/Nœud vers la Dérive. Les modèles plus grands produisent des hallucinations plus confiantes et répétables qui sont détectables par les Juges mais manquées par les vérifications de cohérence BB.
PopQA : L'augmentation de l'échelle a significativement augmenté la complémentarité entre les Juges et les autres familles, particulièrement pour les requêtes centrées sur les entités.

Signification et Revendications

Le papier affirme que DECK fournit un compte mécaniste de la quantification de l'incertitude dans les LLM, allant au-delà de l'ensemblage empirique pour proposer une compréhension structurelle de pourquoi certains évaluateurs se complètent.

Utilité Diagnostique : DECK permet aux praticiens de prédire quel type de famille d'évaluateur échouera pour un type de hallucination donné (ex: s'attendre à ce que BB échoue sur les erreurs Enracinées).
Limitation de l'UQ de niveau sortie : Le papier affirme modestement mais fermement que l'UQ de niveau sortie possède un point aveugle fondamental et universel sur les entrées de type lacune de connaissance où le modèle est de façon confiante erroné. C'est une propriété du couple (générateur, tâche), et non d'un algorithme spécifique.
Preuve par l'état interne : La découverte préliminaire qu'une simple sonde linéaire sur les états cachés échoue également sur ces entrées suggère que la défaillance est ancrée profondément dans l'espace d'activation du modèle, bien que les auteurs notent que des méthodes d'état interne plus riches (ex: têtes d'UQ, estimateurs d'information théorique) restent à tester.

L'étude conclut que bien que l'ensemblage améliore les performances dans de nombreux régimes, il ne peut surmonter le point aveugle universel des fabrications confiantes et répétables sur les entrées sans réponse. La réponse d'ingénierie appropriée n'est pas un ensemble plus complexe, mais un mécanisme d'abstention au niveau du système.

DECK: A Consistency x Confidence Taxonomy of LLM Hallucinations