DECK: A Consistency x Confidence Taxonomy of LLM Hallucinations

Le document introduit DECK, une nouvelle taxonomie 2x2 qui classifie les hallucinations des LLM en fonction de leurs signatures de détectabilité à travers la cohérence inter-échantillons et la confiance au niveau du jeton, révélant que des types d'erreurs spécifiques (Dérive, Enracinement, Confabulation, Nœud) nécessitent des méthodes de détection distinctes et exposant un angle mort universel où les fabrications confiantes et répétables sur des entrées présentant des lacunes de connaissances restent indétectables par les approches actuelles de quantification de l'incertitude au niveau de la sortie.

Auteurs originaux : Mohit Singh Chauhan

Publié 2026-06-02✓ Author reviewed
📖 6 min de lecture🧠 Analyse approfondie

Auteurs originaux : Mohit Singh Chauhan

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Imaginez que vous avez un robot très intelligent et sûr de lui qui répond aux questions. Parfois, ce robot invente des choses. Nous appelons ces erreurs des « hallucinations ».

Pendant longtemps, les chercheurs ont essayé de classer ces erreurs selon ce qui était faux (par exemple : « Il s'est trompé sur les faits » ou « Son raisonnement était défaillant »). Mais les auteurs de ce document, Mohit Singh Chauhan, disent que c'est comme classer les accidents de voiture en « a percuté un arbre » contre « a percuté un mur ». Cela vous dit ce qui s'est passé, mais cela ne vous dit pas comment attraper le conducteur avant l'accident.

Ce document présente une nouvelle façon de classer les erreurs appelée DECK. Au lieu de regarder le contenu de l'erreur, il regarde le signal que l'erreur laisse derrière elle. Il demande : « Quel type de détecteur aurait repéré cela ? »

Les deux détecteurs (les axes)

Pour construire leur système, les auteurs utilisent deux « capteurs » simples pour surveiller le robot :

  1. Le capteur de cohérence (le test de la « répétition ») : Si vous posez la même question au robot 10 fois, vous donne-t-il la même réponse à chaque fois ?
    • Cohérence élevée : Il répète la même réponse.
    • Cohérence faible : Il donne une réponse différente à chaque fois.
  2. Le capteur de confiance (le test du « certain de soi ») : À quel point le robot semble-t-il sûr de lui ? Dit-il la réponse avec une certitude de 100 %, ou semble-t-il hésitant ?
    • Confiance élevée : « Je suis sûr à 100 %. »
    • Confiance faible : « Je pense peut-être que... »

La taxonomie DECK (les quatre cases)

En croisant ces deux capteurs, les auteurs créent une grille 2x2 avec quatre types d'erreurs. Ils leur ont donné des noms accrocheurs :

1. Drift / Dérive (le « dériveur confus »)

  • Ce à quoi cela ressemble : Le robot est confiant mais donne une réponse fausse différente à chaque fois que vous posez la question.
  • L'analogie : Imaginez un guide touristique qui est très bruyant et sûr de lui, mais chaque fois que vous demandez « Où est le musée ? », il pointe une direction différente. Il est confiant, mais il dérive.
  • Qui le attrape ? Un détecteur de boîte noire (un détecteur qui vérifie si les réponses concordent entre elles) attrapera cela car les réponses ne sont pas d'accord.

2. Entrenched / Encastré (la « mule têtue »)

  • Ce à quoi cela ressemble : Le robot est confiant et donne la même réponse fausse exacte à chaque fois.
  • L'analogie : C'est comme un étudiant qui a mémorisé le mauvais corrigé. Si vous lui demandez « Combien font 2+2 ? », il dira avec assurance « 5 » à chaque fois, peu importe le nombre de fois où vous posez la question. Il est coincé (encastré) dans une conception erronée.
  • Qui le attrape ? C'est le plus difficile. Les détecteurs de cohérence pensent qu'il a raison parce qu'il est cohérent ! Seul un Juge (une seconde IA indépendante qui connaît les faits) peut attraper cela.

3. Confabulation (le « fabricateur hésitant »)

  • Ce à quoi cela ressemble : Le robot est incertain et donne des réponses fausses différentes à chaque fois.
  • L'analogie : C'est le robot qui admet : « Je ne sais pas, mais voici une supposition... en fait, peut-être cette autre supposition ? » Il invente des choses mais sait qu'il devine.
  • Qui le attrape ? Tout le monde attrape cela. Il est en faible confiance et incohérent, donc tous les détecteurs le signalent comme « risqué ».

4. Knotted / Noué (la « haie coincée »)

  • Ce à quoi cela ressemble : Le robot est incertain (faible confiance) mais donne la même réponse fausse exacte à chaque fois.
  • L'analogie : Imaginez un robot qui a peur de se tromper, alors il répète sans cesse : « Je ne suis pas sûr, mais je pense que c'est probablement X », et il dit « probablement X » à chaque fois. Il est « noué » dans un schéma répétitif, mais faux, et sécurisant.
  • Qui le attrape ? Un détecteur de boîte blanche (un détecteur qui examine les calculs internes du robot) l'attrapera car les calculs internes du robot montrent qu'il n'est pas réellement sûr, même si la réponse est répétée.

La grande découverte : Le « angle mort universel »

Les auteurs ont découvert une situation effrayante où tous les détecteurs échouent en même temps.

Ils ont testé les robots sur des questions auxquelles personne ne peut répondre (comme « Quelle est la capitale d'un pays qui n'existe pas encore ? »).

  • Les robots n'ont pas dit « Je ne sais pas ».
  • Au lieu de cela, ils ont inventé une réponse fausse avec assurance et l'ont répétée à chaque fois.

Cela a créé un piège parfait :

  • Le capteur de cohérence a vu qu'ils répétaient la réponse, alors il a pensé : « Super, c'est cohérent ! »
  • Le capteur de confiance a vu qu'ils semblaient sûrs d'eux, alors il a pensé : « Super, c'est confiant ! »
  • Le Juge a échoué car le Juge ne connaissait pas non plus la réponse (puisque le pays n'existe pas).

Les auteurs appellent cela l'« angle mort universel ». Lorsqu'un robot répète avec assurance un mensonge sur quelque chose qu'il ne connaît pas, aucun détecteur actuel ne peut le rattraper.

La solution

Le document suggère qu'au lieu d'essayer de construire un meilleur détecteur pour attraper ces mensonges spécifiques, nous devrions construire une « enveloppe de refus ». C'est comme un videur à l'entrée d'un club. Si la question porte sur quelque chose que le robot ne devrait pas savoir (un manque de connaissances), le videur doit empêcher le robot de répondre du tout et dire : « Je ne peux pas répondre à cela », avant même que le robot ne tente d'inventer quelque chose.

Résumé

Ce document ne se contente pas de dire « L'IA fait des erreurs ». Il dit : « L'IA fait des erreurs selon quatre modèles spécifiques. Certains modèles sont faciles à attraper, certains sont difficiles, et un modèle spécifique (des mensonges répétés et confiants sur des choses inconnues) est actuellement impossible à attraper avec les outils standards. Nous devons empêcher le robot de répondre à ces questions dès le départ. »

Noyé(e) sous les articles dans votre domaine ?

Recevez des digests quotidiens des articles les plus récents correspondant à vos mots-clés de recherche — avec des résumés techniques, dans votre langue.

Essayer Digest →