VeriTrail: Closed-Domain Hallucination Detection with Traceability

Le papier présente VeriTrail, une méthode pionnière de détection d'hallucinations en domaine fermé offrant une traçabilité complète des sources d'erreur et de la fidélité du contenu, surpassant les méthodes existantes sur des processus génératifs simples et multiples grâce à l'utilisation de nouveaux jeux de données annotés.

Dasha Metropolitansky, Jonathan Larson

Publié 2026-03-03
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ VeriTrail : Le Détective qui trace les pas de l'IA

Imaginez que vous demandez à un assistant très intelligent (une Intelligence Artificielle) de résumer un livre de 1 000 pages ou de répondre à une question complexe en consultant des dizaines d'articles de presse.

Parfois, cet assistant fait des erreurs. Il invente des faits, mélange des dates ou raconte des choses qui ne sont pas dans les documents. C'est ce qu'on appelle une hallucination.

Le problème, c'est que les assistants modernes ne font pas toujours leur travail d'un seul coup. Ils le font en étapes, comme une chaîne de montage.

  1. Ils lisent un bout de texte.
  2. Ils écrivent un petit résumé.
  3. Ils combinent plusieurs résumés.
  4. Ils écrivent la réponse finale.

Si la réponse finale est fausse, comment savoir l'erreur s'est produite ? Est-ce dans le premier résumé ? Dans la combinaison ? Ou est-ce que l'assistant a simplement menti à la fin ?

C'est là qu'intervient VeriTrail.

🧩 L'Analogie de la Piste de Crème Glacée

Imaginez que vous commandez une glace à la fraise.

  • L'ancienne méthode (SGS) : Le vendeur vous donne la glace directement. Si elle est au goût de poivre, vous dites "C'est faux !", mais vous ne savez pas si c'est parce qu'il a mis du poivre dans le pot, s'il a confondu les pots, ou s'il a menti sur l'étiquette.
  • La méthode complexe (MGS) : Le vendeur prépare la glace en plusieurs étapes : il écrase les fraises, mélange la crème, ajoute du sucre, puis met le tout dans un cornet.
  • Le problème : Si le cornet final est mauvais, il est difficile de savoir à quelle étape le poison a été ajouté.

VeriTrail, c'est comme un détective privé qui ne regarde pas seulement le cornet final. Il remonte toute la piste (le "Trail") :

  1. Il vérifie le cornet.
  2. Il regarde le mélange.
  3. Il regarde l'écrasement des fraises.
  4. Il remonte jusqu'aux fraises originales.

Si le cornet est mauvais, VeriTrail peut vous dire : "Attendez, les fraises étaient bonnes, le mélange était bon, mais c'est au moment d'ajouter le sucre que le vendeur a confondu le sel et le sucre."

🛠️ Comment fonctionne VeriTrail ?

Le système fonctionne en trois étapes magiques :

  1. Décomposer le mensonge : Au lieu de dire "C'est faux", VeriTrail casse la phrase en petits morceaux.

    • Phrase : "L'entreprise X a acheté deux startups en 2020 pour aller dans la santé."
    • Décomposition : (1) A-t-elle acheté deux startups ? (2) Était-ce en 2020 ? (3) Était-ce pour la santé ?
    • Cela permet de vérifier chaque petit fait individuellement.
  2. Chercher la preuve (La Piste) : Pour chaque petit fait, VeriTrail ne se contente pas de regarder le document final. Il regarde tous les brouillons intermédiaires générés par l'IA. Il cherche la phrase exacte dans le texte original qui prouve le fait.

    • C'est comme si le détective demandait au vendeur : "Montrez-moi le ticket de caisse où il est écrit que vous avez acheté ces fraises."
  3. Localiser l'erreur : Si le fait est faux, VeriTrail regarde à quelle étape de la chaîne de montage l'information a été corrompue.

    • Si l'erreur est dans le résumé intermédiaire, c'est là qu'il faut corriger.
    • Si l'erreur est dans la phrase finale, c'est l'IA qui a halluciné à la toute fin.

📊 Pourquoi c'est important ?

Les chercheurs ont créé deux nouveaux jeux de données (des bibliothèques de livres et d'articles) pour tester leur détective. Ils ont comparé VeriTrail à d'autres méthodes qui regardent juste la réponse finale.

Le résultat ? VeriTrail est beaucoup plus précis.

  • Il ne se contente pas de dire "C'est faux".
  • Il dit "C'est faux, et c'est arrivé à l'étape 3 de la préparation, voici exactement la phrase qui a causé le problème."

🎯 En résumé

VeriTrail, c'est l'outil qui rend les IA honnêtes et transparentes.
Au lieu de recevoir une réponse magique et parfois trompeuse, vous recevez une réponse accompagnée de preuves et d'une carte routière qui montre exactement comment l'IA a trouvé l'information.

C'est comme passer d'un orateur qui vous donne un discours sans sources, à un journaliste qui vous donne son article avec tous ses notes de recherche, ses interviews et ses sources originales à l'appui. Vous pouvez ainsi vérifier vous-même si l'histoire est vraie, et savoir exactement où l'histoire a dévié de la réalité.

C'est une avancée majeure pour faire confiance aux machines, surtout quand elles traitent des sujets sérieux comme la médecine, le droit ou l'actualité.