VeriTrail: Closed-Domain Hallucination Detection with Traceability

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ VeriTrail : Le Détective qui trace les pas de l'IA

Imaginez que vous demandez à un assistant très intelligent (une Intelligence Artificielle) de résumer un livre de 1 000 pages ou de répondre à une question complexe en consultant des dizaines d'articles de presse.

Parfois, cet assistant fait des erreurs. Il invente des faits, mélange des dates ou raconte des choses qui ne sont pas dans les documents. C'est ce qu'on appelle une hallucination.

Le problème, c'est que les assistants modernes ne font pas toujours leur travail d'un seul coup. Ils le font en étapes, comme une chaîne de montage.

Ils lisent un bout de texte.
Ils écrivent un petit résumé.
Ils combinent plusieurs résumés.
Ils écrivent la réponse finale.

Si la réponse finale est fausse, comment savoir où l'erreur s'est produite ? Est-ce dans le premier résumé ? Dans la combinaison ? Ou est-ce que l'assistant a simplement menti à la fin ?

C'est là qu'intervient VeriTrail.

🧩 L'Analogie de la Piste de Crème Glacée

Imaginez que vous commandez une glace à la fraise.

L'ancienne méthode (SGS) : Le vendeur vous donne la glace directement. Si elle est au goût de poivre, vous dites "C'est faux !", mais vous ne savez pas si c'est parce qu'il a mis du poivre dans le pot, s'il a confondu les pots, ou s'il a menti sur l'étiquette.
La méthode complexe (MGS) : Le vendeur prépare la glace en plusieurs étapes : il écrase les fraises, mélange la crème, ajoute du sucre, puis met le tout dans un cornet.
Le problème : Si le cornet final est mauvais, il est difficile de savoir à quelle étape le poison a été ajouté.

VeriTrail, c'est comme un détective privé qui ne regarde pas seulement le cornet final. Il remonte toute la piste (le "Trail") :

Il vérifie le cornet.
Il regarde le mélange.
Il regarde l'écrasement des fraises.
Il remonte jusqu'aux fraises originales.

Si le cornet est mauvais, VeriTrail peut vous dire : "Attendez, les fraises étaient bonnes, le mélange était bon, mais c'est au moment d'ajouter le sucre que le vendeur a confondu le sel et le sucre."

🛠️ Comment fonctionne VeriTrail ?

Le système fonctionne en trois étapes magiques :

Décomposer le mensonge : Au lieu de dire "C'est faux", VeriTrail casse la phrase en petits morceaux.
- Phrase : "L'entreprise X a acheté deux startups en 2020 pour aller dans la santé."
- Décomposition : (1) A-t-elle acheté deux startups ? (2) Était-ce en 2020 ? (3) Était-ce pour la santé ?
- Cela permet de vérifier chaque petit fait individuellement.
Chercher la preuve (La Piste) : Pour chaque petit fait, VeriTrail ne se contente pas de regarder le document final. Il regarde tous les brouillons intermédiaires générés par l'IA. Il cherche la phrase exacte dans le texte original qui prouve le fait.
- C'est comme si le détective demandait au vendeur : "Montrez-moi le ticket de caisse où il est écrit que vous avez acheté ces fraises."
Localiser l'erreur : Si le fait est faux, VeriTrail regarde à quelle étape de la chaîne de montage l'information a été corrompue.
- Si l'erreur est dans le résumé intermédiaire, c'est là qu'il faut corriger.
- Si l'erreur est dans la phrase finale, c'est l'IA qui a halluciné à la toute fin.

📊 Pourquoi c'est important ?

Les chercheurs ont créé deux nouveaux jeux de données (des bibliothèques de livres et d'articles) pour tester leur détective. Ils ont comparé VeriTrail à d'autres méthodes qui regardent juste la réponse finale.

Le résultat ? VeriTrail est beaucoup plus précis.

Il ne se contente pas de dire "C'est faux".
Il dit "C'est faux, et c'est arrivé à l'étape 3 de la préparation, voici exactement la phrase qui a causé le problème."

🎯 En résumé

VeriTrail, c'est l'outil qui rend les IA honnêtes et transparentes.
Au lieu de recevoir une réponse magique et parfois trompeuse, vous recevez une réponse accompagnée de preuves et d'une carte routière qui montre exactement comment l'IA a trouvé l'information.

C'est comme passer d'un orateur qui vous donne un discours sans sources, à un journaliste qui vous donne son article avec tous ses notes de recherche, ses interviews et ses sources originales à l'appui. Vous pouvez ainsi vérifier vous-même si l'histoire est vraie, et savoir exactement où l'histoire a dévié de la réalité.

C'est une avancée majeure pour faire confiance aux machines, surtout quand elles traitent des sujets sérieux comme la médecine, le droit ou l'actualité.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : L'Hallucination en Domaine Clos et la Complexité des Processus Multi-Étapes

Le papier aborde le problème de l'hallucination en domaine clos (closed-domain hallucination), phénomène où les modèles de langage (LLM) génèrent du contenu non étayé par les sources fournies, même lorsqu'ils sont explicitement instruits de s'y tenir. Ce risque est particulièrement critique dans des applications professionnelles (médicales, juridiques, service client).

L'auteur distingue deux types de processus de génération :

Processus à étape générative unique (SGS) : Le modèle produit une sortie finale directement à partir de la source (ex: RAG classique).
Processus à étapes génératives multiples (MGS) : Le modèle génère des sorties intermédiaires qui servent d'entrées pour les étapes suivantes (ex: résumé hiérarchique, GraphRAG).

Le défi principal : Bien que la détection d'hallucination dans la sortie finale soit nécessaire, elle est insuffisante pour les processus MGS. En raison de la complexité et de la propagation des erreurs à travers les étapes intermédiaires, il est crucial de pouvoir tracer (traceability) l'origine de l'erreur (localisation) et de comprendre comment la sortie a été dérivée de la source (provenance). Les méthodes existantes échouent souvent car elles évaluent la sortie finale isolément ou ne peuvent pas gérer efficacement la structure complexe des MGS (parfois avec plus de 100 000 sorties intermédiaires).

2. Méthodologie : VeriTrail

VeriTrail est la première méthode de détection d'hallucination en domaine clos conçue pour fournir une traçabilité complète pour les processus SGS et MGS.

Représentation Conceptuelle

Le processus génératif est modélisé comme un graphe acyclique dirigé (DAG) $G = (V, E)$ :

Les nœuds représentent des segments de texte (sources, sorties intermédiaires, sortie finale).
Les arêtes indiquent les relations d'entrée-sortie entre les étapes.
La méthode décompose la sortie finale en un ensemble de faits vérifiables (claims).

Algorithme de Vérification

VeriTrail fonctionne par itérations ascendantes (de la sortie finale vers les sources racines) selon les étapes suivantes :

Décomposition en sous-claims : Chaque fait est décomposé en parties plus simples et indépendantes pour une vérification précise.
Sélection de preuves (Evidence Selection) : Pour chaque itération, le système sélectionne les phrases pertinentes dans les nœuds sources (actuellement les nœuds parents du nœud en cours de vérification) qui soutiennent ou réfutent le fait. Cela évite de traiter des nœuds entiers, se concentrant sur les phrases clés.
Génération de verdict : Un LLM attribue un verdict à chaque fait :
- Fully Supported (Entièrement soutenu)
- Not Fully Supported (Pas entièrement soutenu)
- Inconclusive (Inconcluant)
Sélection des nœuds candidats et Terminaison :
- Si le verdict est "Fully Supported", la vérification remonte aux nœuds sources des nœuds ayant fourni la preuve.
- Si le verdict est "Not Fully Supported", le système vérifie les sources de tous les nœuds vérifiés précédemment pour éviter les faux positifs (manque de preuves).
- Le processus s'arrête si : (a) les nœuds sources sont des nœuds racines déjà vérifiés, (b) aucune preuve n'est trouvée, ou (c) un seuil $q$ de verdicts "Not Fully Supported" consécutifs est atteint.

Traçabilité

Pour chaque fait, VeriTrail fournit :

Provenance : Un chemin de preuves reliant la sortie finale aux documents sources originaux.
Localisation de l'erreur : Pour les faits non soutenus, le système identifie l'étape (stage) du DAG où l'information non fondée a probablement été introduite pour la première fois.

3. Contributions Clés

Framework Unifié : Une représentation conceptuelle unifiée des processus génératifs sous forme de DAG pour l'évaluation de la fidélité.
VeriTrail : Une nouvelle méthode de détection d'hallucination offrant une traçabilité (provenance et localisation d'erreur) pour les processus MGS et SGS, surpassant les méthodes de base tout en restant rentable.
Nouveaux Datasets : Création de FABLES+ et DiverseSumm+, les premiers jeux de données incluant :
- Toutes les sorties intermédiaires des processus MGS (résumés hiérarchiques et GraphRAG).
- Des annotations humaines de la fidélité des sorties finales.
- FABLES+ : Résumés de livres (moyenne de 118k tokens).
- DiverseSumm+ : Articles de news sur des conflits (ex: Ukraine-Russie) avec GraphRAG.

4. Résultats Expérimentaux

Les expériences ont comparé VeriTrail à plusieurs méthodes de référence (NLI comme AlignScore, INFUSE, RAG, et vérification directe par des LLM à contexte long comme GPT-4.1 Mini et Gemini 1.5 Pro).

Performance : VeriTrail surpasse systématiquement les méthodes de base sur les deux datasets (FABLES+ et DiverseSumm+) en termes de Macro F1 et de Précision/ Rappel équilibrés.
- Sur FABLES+, VeriTrail atteint un Macro F1 de 84,5 % (avec $q=3$ ) contre 69,6 % pour le meilleur RAG.
- Sur DiverseSumm+, VeriTrail atteint 79,5 % contre 75,1 % pour le RAG.
Efficacité Coût-Performance : Malgré une charge de vérification plus lourde (vérification de nœuds intermédiaires), VeriTrail reste compétitif en coût. L'utilisation de modèles plus petits (ex: DeepSeek-V3 ou Gemini-2.5-Flash) avec un paramètre $q$ faible permet de réduire le coût par claim à environ 0,09 $- 0,14$ , tout en maintenant une performance supérieure aux baselines.
Analyse des Erreurs : L'étude des "stages d'erreur" révèle que dans les processus de résumé hiérarchique, les erreurs surviennent principalement aux étapes intermédiaires (stages 3 et 4), tandis que dans GraphRAG, l'étape de génération des rapports communautaires (stage 4) est la plus critique.

5. Signification et Impact

Ce travail est significatif car il comble un vide majeur dans l'évaluation des LLM : la capacité à auditer non seulement le résultat final, mais aussi le chemin de raisonnement dans des pipelines complexes.

Transparence Opérationnelle : En fournissant une traçabilité, VeriTrail permet aux utilisateurs de vérifier la fiabilité d'une réponse et de comprendre exactement où un processus a dévié de la source, ce qui est essentiel pour l'adoption des LLM dans des domaines à haut risque.
Évolutivité : La méthode démontre qu'il est possible de gérer des processus génératifs massifs (plus de 100 000 nœuds intermédiaires) sans une explosion des coûts, grâce à des mécanismes de terminaison précoce et de vérification sélective.
Ressources Open Source : La publication des datasets FABLES+ et DiverseSumm+ avec leurs sorties intermédiaires complète établit un nouveau standard pour la recherche future sur l'évaluation de la fidélité dans les systèmes multi-agents et les processus itératifs.

En résumé, VeriTrail transforme la détection d'hallucination d'une simple classification binaire en un processus d'audit forensique, essentiel pour la fiabilité des systèmes d'IA générative complexes.