HART: Data-Driven Hallucination Attribution and Evidence-Based Tracing for Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Imaginez que les grands modèles de langage (comme ceux qui génèrent du texte pour nous) sont des super-boulangers. Ils sont incroyablement doués pour créer des gâteaux (des textes) qui ont l'air délicieux, bien décorés et qui sentent bon. Mais parfois, ils mettent dans le gâteau des ingrédients qui n'existent pas : du "sel de mer de la lune" ou du "sucre fait de nuages". C'est ce qu'on appelle une hallucination : le modèle invente des faits qui semblent vrais mais qui sont faux.

Le problème, c'est que jusqu'à présent, si vous demandiez à un expert de vérifier le gâteau, il vous disait juste : "Ce gâteau est mauvais". Il ne vous disait pas pourquoi (est-ce que c'est le sel ? le sucre ?) ni où exactement l'erreur se trouvait, ni quelle était la vraie recette.

Voici comment le papier HART change la donne, expliqué simplement :

1. Le Problème : Le Détective qui ne voit que le crime

Avant HART, les chercheurs agissaient comme des détectives qui regardaient seulement la scène du crime. Ils pouvaient dire : "Il y a un mensonge ici !". Mais ils ne pouvaient pas expliquer :

Quel type de mensonge ? (Est-ce une invention pure ? Une confusion entre deux personnes ? Une logique tordue ?)
Pourquoi le modèle a-t-il menti ? (A-t-il mal compris le contexte ? A-t-il généralisé trop vite ?)
Où est la vérité ? (Quelle est la vraie recette pour corriger le gâteau ?)

2. La Solution HART : Le "Détective de la Vérité"

Les auteurs de ce papier ont créé HART, un système qui ne se contente pas de dire "c'est faux". Il agit comme un détective privé ultra-organisé qui fait quatre choses pour chaque morceau de texte suspect :

Localiser le morceau de gâteau gâté : Il pointe exactement le mot ou la phrase qui ment (par exemple : "Einstein a conçu la bombe atomique à Princeton").
Classer le type de mensonge : Il identifie la nature de l'erreur. Est-ce une invention pure (le modèle a tout inventé) ? Une confusion d'identité (il a mélangé Einstein avec un autre scientifique) ?
Trouver la cause racine : Il analyse pourquoi le modèle a fait cette erreur. A-t-il "fuité" des informations d'un autre contexte ? A-t-il fait un mauvais raisonnement ?
Apporter la preuve (le "Témoin") : C'est la partie la plus magique. HART va chercher dans une immense bibliothèque (Wikipedia, sites officiels) le vrai document qui prouve que le modèle a menti. Il ne se contente pas de trouver un texte similaire, il trouve la vérité factuelle qui contredit le mensonge.

3. L'Analogie du "Super-Filet"

Imaginez que le modèle de langage est un pêcheur qui lance son filet dans l'océan des connaissances. Parfois, il attrape des poissons (des faits vrais) et parfois des déchets (des hallucinations).

Les anciennes méthodes regardaient le filet et disaient : "Il y a un déchet ici".
HART, lui, prend le déchet, le nettoie, regarde son étiquette, demande "Pourquoi est-il tombé dans le filet ?", et ensuite, il plonge dans l'océan pour aller chercher exactement le poisson qui aurait dû être là à la place, et il vous le montre.

4. Comment ils ont fait ça ? (La Cuisine du Dataset)

Pour entraîner ce détective, les chercheurs n'ont pas juste laissé le modèle travailler. Ils ont créé un gigantesque manuel d'exercices (un jeu de données) :

Ils ont pris des textes générés par des IA.
Des humains et d'autres IA ont surligné chaque mensonge.
Pour chaque mensonge, ils ont annoté : "C'est une erreur de type X, causée par Y, et la preuve Z se trouve ici".
C'est comme si on entraînait un élève non seulement à repérer les fautes d'orthographe, mais à expliquer la règle de grammaire et à donner l'exemple correct.

5. Le Résultat : Pourquoi c'est génial ?

Les tests montrent que HART est bien meilleur que les anciennes méthodes (comme chercher simplement des mots-clés).

Il est plus précis : Il trouve la vraie preuve 80% du temps dès le premier essai, contre moins de 10% pour les anciennes méthodes.
Il est explicable : Au lieu de juste dire "Mauvais", il dit : "Le modèle a confondu deux villes (erreur de type), parce qu'il a généralisé trop vite (mécanisme), et voici la carte qui prouve que la capitale est Canberra, pas Sydney (preuve)."

En résumé

Ce papier transforme la lutte contre les mensonges des IA. On passe de "C'est faux, arrêtez-le !" à "Voici ce qui est faux, voici pourquoi c'est faux, et voici la preuve de ce qui est vrai". C'est un pas énorme pour rendre les intelligences artificielles plus fiables, surtout dans des domaines sérieux comme la médecine ou le droit, où une erreur peut avoir de graves conséquences.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article "HART: Data-Driven Hallucination Attribution and Evidence-Based Tracing for Large Language Models", structuré selon les aspects demandés.

1. Problématique

Les grands modèles de langage (LLM) excellent dans la génération de texte et le raisonnement, mais souffrent d'un problème critique de hallucination : la production de contenu factuellement incorrect ou non étayé par des preuves.

Limites des approches existantes : Les méthodes actuelles se divisent en deux catégories principales :
1. Détection basée sur la récupération de connaissances externes (RAG) : Se concentre sur la similarité sémantique mais échoue à établir des correspondances structurées au niveau des segments de texte.
2. Détection basée sur les mécanismes internes : Analyse les états latents du modèle pour identifier les erreurs, mais reste confiné à l'espace de représentation interne sans lien direct avec des preuves factuelles vérifiables dans le monde réel.
Le défi : Il manque un cadre unifié capable de localiser finement les fragments hallucinés, d'attribuer la cause de l'erreur (mécanisme) et de tracer ces erreurs vers des preuves factuelles externes concrètes pour une interprétabilité causale.

2. Méthodologie : Le Framework HART

Les auteurs proposent HART (Hallucination Attribution Retrieval Tracing), un cadre de recherche et d'attribution d'erreurs basé sur des données, formalisant le traçage des hallucinations en quatre étapes structurées : localisation du segment, attribution du mécanisme, récupération de preuves et traçage causal.

A. Construction d'un Dataset Structuré (Nouveau)

Pour entraîner et évaluer le système, les auteurs ont créé le premier dataset structuré au niveau des segments (span-level) dédié au traçage des hallucinations.

Annotation : Chaque fragment halluciné est annoté avec :
- Type d'hallucination : (4 catégories) : Factuel, Entité, Logique, Fabrication.
- Mécanisme d'erreur : (5 catégories) : Incohérence d'entité, Sur-généralisation, Échec de raisonnement, Fuite de contexte, Heuristique de fabrication.
- Preuves adverses : Un ensemble de documents externes (Wikipedia, sites officiels) qui contredisent ou corrigent l'erreur.
Processus : Une annotation hybride combinant l'automatisation par LLM (Claude Sonnet 4.5, ChatGPT 5.1) et une supervision humaine pour garantir la qualité.

B. Architecture du Modèle HART

Le framework fonctionne selon un pipeline de "Modélisation pilotée par les données → Récupération de preuves → Attribution causale".

Modélisation du Contexte au Niveau du Segment :
- Le modèle prend en entrée un segment halluciné $s_i$ entouré d'une fenêtre de contexte (avant et après).
- Cela permet de capturer les dépendances sémantiques locales nécessaires à la classification.
Classification Décorrélée (Dual-Classifiers) :
- Deux modèles de classification indépendants (basés sur BERT) sont utilisés pour éviter le couplage sémantique :
  - Un classifieur pour le Type d'hallucination.
  - Un classifieur pour le Mécanisme d'erreur.
- Cette approche fournit des signaux de supervision structurés pour l'analyse des causes racines.
Récupération de Preuves (Evidence Retrieval) :
- Encodage Sémantique : Utilisation de Sentence-BERT pour mapper les fragments d'hallucination et les documents de preuve dans un espace vectoriel commun.
- Indexation Vectorielle : Utilisation de FAISS pour une recherche de voisins les plus proches efficace (complexité sous-linéaire).
- Re-ranking (Affinage) : Une étape cruciale utilisant un Cross-Encoder pour réévaluer les candidats récupérés. Cela permet de passer d'une simple similarité géométrique à une évaluation de la cohérence factuelle fine et de l'alignement sémantique profond.
- Stratégie Multi-Query : Génération de plusieurs requêtes à partir d'un même segment pour maximiser la couverture des preuves potentielles.
Sortie de Traçage :
- Le résultat final est un quadruplet : $(\text{Segment}, \text{Type}, \text{Mécanisme}, \text{Preuves})$ , établissant une chaîne causale complète.

3. Contributions Clés

Changement de Paradigme : Passage d'une analyse centrée sur la détection interne ou la simple détection d'erreur vers un cadre de traçage causal basé sur des preuves externes.
Framework HART : Unification de la classification des segments, de l'attribution des mécanismes d'erreur et de l'alignement des preuves dans un seul pipeline.
Dataset Structuré : Création du premier dataset annoté finement avec des types d'erreurs, des mécanismes sous-jacents et des ensembles de preuves contradictoires, permettant une évaluation au niveau causal.
Validation Empirique : Démonstration que l'approche surpasse largement les méthodes de récupération classiques.

4. Résultats Expérimentaux

Les expériences ont été menées sur des données générées par les modèles Qwen2.5-7B et Mistral-Small-24B.

Performance de Récupération :
- HART dépasse significativement les baselines (BM25, DPR, Sentence-BERT, Cross-Encoder seul).
- Sur le dataset Qwen ( $k=1$ ), HART atteint un Recall@1 de 0.8024 contre 0.1074 pour BM25 et 0.0859 pour Sentence-BERT.
- L'ajout du module Cross-Encoder et de la stratégie Multi-Query améliore considérablement la précision et le rappel (Tableau 1).
Performance de Classification :
- Le classifieur de type d'hallucination atteint 79.13% de précision.
- Le classifieur de mécanisme d'erreur atteint 83.32% de précision.
Analyse des Mécanismes :
- Les résultats montrent que la majorité des hallucinations proviennent d'une "Heuristique de fabrication" (Fabrication Heuristic) et d'erreurs factuelles, plutôt que d'erreurs logiques pures.

5. Signification et Impact

Interprétabilité Causale : HART ne se contente pas de dire "c'est faux", il explique "pourquoi c'est faux" (mécanisme) et "quelle est la vérité" (preuve externe).
Fiabilité des LLM : Cette approche est cruciale pour les domaines à haut risque (santé, droit, finance) où la traçabilité des sources est indispensable.
Évolution de la Recherche : L'article marque un tournant en passant d'une recherche sur la "détection d'erreurs" à une recherche sur "l'attribution et la vérification factuelle", ouvrant la voie à des systèmes de confiance plus robustes et explicables.

En résumé, HART propose une solution complète et structurée pour transformer les hallucinations des LLM d'un problème opaque en un processus d'investigation factuel, traçable et vérifiable.