HART: Data-Driven Hallucination Attribution and Evidence-Based Tracing for Large Language Models

Le papier présente HART, un cadre de recherche d'informations et d'attribution des hallucinations à granularité fine pour les grands modèles de langage, qui formalise le traçage des erreurs en quatre étapes structurées et introduit un nouveau jeu de données annoté pour améliorer l'interprétabilité et la traçabilité des preuves factuelles.

Shize Liang, Hongzhi Wang

Publié 2026-03-09
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Imaginez que les grands modèles de langage (comme ceux qui génèrent du texte pour nous) sont des super-boulangers. Ils sont incroyablement doués pour créer des gâteaux (des textes) qui ont l'air délicieux, bien décorés et qui sentent bon. Mais parfois, ils mettent dans le gâteau des ingrédients qui n'existent pas : du "sel de mer de la lune" ou du "sucre fait de nuages". C'est ce qu'on appelle une hallucination : le modèle invente des faits qui semblent vrais mais qui sont faux.

Le problème, c'est que jusqu'à présent, si vous demandiez à un expert de vérifier le gâteau, il vous disait juste : "Ce gâteau est mauvais". Il ne vous disait pas pourquoi (est-ce que c'est le sel ? le sucre ?) ni exactement l'erreur se trouvait, ni quelle était la vraie recette.

Voici comment le papier HART change la donne, expliqué simplement :

1. Le Problème : Le Détective qui ne voit que le crime

Avant HART, les chercheurs agissaient comme des détectives qui regardaient seulement la scène du crime. Ils pouvaient dire : "Il y a un mensonge ici !". Mais ils ne pouvaient pas expliquer :

  • Quel type de mensonge ? (Est-ce une invention pure ? Une confusion entre deux personnes ? Une logique tordue ?)
  • Pourquoi le modèle a-t-il menti ? (A-t-il mal compris le contexte ? A-t-il généralisé trop vite ?)
  • Où est la vérité ? (Quelle est la vraie recette pour corriger le gâteau ?)

2. La Solution HART : Le "Détective de la Vérité"

Les auteurs de ce papier ont créé HART, un système qui ne se contente pas de dire "c'est faux". Il agit comme un détective privé ultra-organisé qui fait quatre choses pour chaque morceau de texte suspect :

  1. Localiser le morceau de gâteau gâté : Il pointe exactement le mot ou la phrase qui ment (par exemple : "Einstein a conçu la bombe atomique à Princeton").
  2. Classer le type de mensonge : Il identifie la nature de l'erreur. Est-ce une invention pure (le modèle a tout inventé) ? Une confusion d'identité (il a mélangé Einstein avec un autre scientifique) ?
  3. Trouver la cause racine : Il analyse pourquoi le modèle a fait cette erreur. A-t-il "fuité" des informations d'un autre contexte ? A-t-il fait un mauvais raisonnement ?
  4. Apporter la preuve (le "Témoin") : C'est la partie la plus magique. HART va chercher dans une immense bibliothèque (Wikipedia, sites officiels) le vrai document qui prouve que le modèle a menti. Il ne se contente pas de trouver un texte similaire, il trouve la vérité factuelle qui contredit le mensonge.

3. L'Analogie du "Super-Filet"

Imaginez que le modèle de langage est un pêcheur qui lance son filet dans l'océan des connaissances. Parfois, il attrape des poissons (des faits vrais) et parfois des déchets (des hallucinations).

  • Les anciennes méthodes regardaient le filet et disaient : "Il y a un déchet ici".
  • HART, lui, prend le déchet, le nettoie, regarde son étiquette, demande "Pourquoi est-il tombé dans le filet ?", et ensuite, il plonge dans l'océan pour aller chercher exactement le poisson qui aurait dû être là à la place, et il vous le montre.

4. Comment ils ont fait ça ? (La Cuisine du Dataset)

Pour entraîner ce détective, les chercheurs n'ont pas juste laissé le modèle travailler. Ils ont créé un gigantesque manuel d'exercices (un jeu de données) :

  • Ils ont pris des textes générés par des IA.
  • Des humains et d'autres IA ont surligné chaque mensonge.
  • Pour chaque mensonge, ils ont annoté : "C'est une erreur de type X, causée par Y, et la preuve Z se trouve ici".
  • C'est comme si on entraînait un élève non seulement à repérer les fautes d'orthographe, mais à expliquer la règle de grammaire et à donner l'exemple correct.

5. Le Résultat : Pourquoi c'est génial ?

Les tests montrent que HART est bien meilleur que les anciennes méthodes (comme chercher simplement des mots-clés).

  • Il est plus précis : Il trouve la vraie preuve 80% du temps dès le premier essai, contre moins de 10% pour les anciennes méthodes.
  • Il est explicable : Au lieu de juste dire "Mauvais", il dit : "Le modèle a confondu deux villes (erreur de type), parce qu'il a généralisé trop vite (mécanisme), et voici la carte qui prouve que la capitale est Canberra, pas Sydney (preuve)."

En résumé

Ce papier transforme la lutte contre les mensonges des IA. On passe de "C'est faux, arrêtez-le !" à "Voici ce qui est faux, voici pourquoi c'est faux, et voici la preuve de ce qui est vrai". C'est un pas énorme pour rendre les intelligences artificielles plus fiables, surtout dans des domaines sérieux comme la médecine ou le droit, où une erreur peut avoir de graves conséquences.