Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Each language version is independently generated for its own context, not a direct translation.

🧠 Le Problème : Quand l'IA "Invente" des Faits

Imaginez que les grands modèles de langage (comme ceux qui écrivent des emails ou répondent à des questions) sont comme des étudiants très brillants mais un peu trop confiants. Ils adorent parler et finir leurs phrases. Le problème, c'est qu'ils ont une habitude dangereuse : quand ils ne savent pas la réponse, au lieu de dire "Je ne sais pas", ils inventent une réponse qui sonne très bien, très logique, mais qui est totalement fausse.

En termes techniques, les chercheurs appellent cela une hallucination. Mais selon ce papier, le vrai problème n'est pas l'erreur en elle-même, c'est le moment où l'étudiant décide de lever la main et de donner sa réponse alors qu'il n'a pas les preuves pour le faire. C'est une erreur de jugement à la frontière entre "ce que je pense" et "ce que je sais".

🛡️ La Solution : Une Double Sécurité (Le "Filtre Composite")

Les chercheurs ont proposé une solution intelligente qui combine deux méthodes de sécurité, un peu comme un système de contrôle de sécurité dans un aéroport qui utilise à la fois un agent humain et un scanner.

1. La première sécurité : L'Instruction (Le "Professeur")

C'est la méthode classique : on demande poliment au modèle : "S'il te plaît, ne réponds pas si tu n'es pas sûr de toi."

Le problème : C'est comme demander à un élève de ne pas tricher. Parfois, l'élève obéit trop bien et refuse de répondre même quand il a la bonne réponse (trop prudent). D'autres fois, surtout s'il est moins intelligent (comme le modèle GPT-3.5), il ignore l'ordre et continue d'inventer des choses.

2. La deuxième sécurité : Le "Porte-Garde" Structurel (Le "Scanner")

C'est la partie innovante du papier. Au lieu de faire confiance à la parole du modèle, on utilise un système de vérification automatique qui regarde la réponse avant qu'elle ne soit envoyée.
Ce système pose trois questions simples (sans avoir besoin de lire le code interne du modèle) :

La cohérence : Si je pose la question trois fois, obtient-il la même réponse ?
La stabilité : Si je reformule la question, la réponse reste-t-elle la même ?
La preuve : Est-ce que la réponse cite des sources dans le texte fourni ?

Si ces trois indicateurs sont mauvais, le "Porte-Garde" bloque la réponse, même si le modèle est très confiant.

🤝 Pourquoi il faut les deux ensemble ?

C'est là que la magie opère. Les chercheurs ont découvert que chaque méthode a ses propres faiblesses, mais qu'elles se complètent parfaitement :

Le cas du "Menteur Confiant" : Imaginez un élève qui a inventé une histoire. Il l'a racontée trois fois de la même façon (cohérent) et il cite un livre qui contient une partie de l'histoire (citations).
- L'Instruction (le professeur) pourrait se faire avoir et laisser passer la réponse.
- Le Scanner pourrait aussi se faire avoir car tout semble stable.
- MAIS, si on combine les deux, l'Instruction peut détecter des conflits subtils que le Scanner rate, et le Scanner peut bloquer les réponses que l'Instruction a laissées passer.
Le cas du "Trop Prudent" : Parfois, le modèle a la bonne réponse, mais l'Instruction lui dit "Non, ne réponds pas" par excès de zèle.
- Ici, le Scanner sauve la mise : il voit que les preuves sont solides et autorise la réponse, évitant ainsi de rater une bonne information.

📊 Les Résultats : Une Sécurité "Indépendante"

Les chercheurs ont testé cela sur différents modèles (des plus intelligents aux moins intelligents) avec des questions difficiles, des contradictions et des pièges.

Seul, le "Professeur" (Instruction) : Rate souvent les pièges des modèles moins intelligents et refuse parfois de répondre quand il le faudrait.
Seul, le "Scanner" (Porte-Garde) : Se fait parfois berner par des réponses inventées mais très cohérentes.
Ensemble (L'Architecture Composite) : C'est le gagnant.
- Ils ont réduit les erreurs (hallucinations) de 30-50% à moins de 4%.
- Ils ont réussi à empêcher les modèles de répondre quand il n'y avait aucune information (un test de stress avec 100 questions sans contexte), même pour les modèles les moins intelligents qui échouaient habituellement.

🎯 L'Analogie Finale : Le Chef et l'Inspecteur

Imaginez un restaurant :

Le Chef (le Modèle) prépare le plat. Il est talentueux, mais parfois il utilise des ingrédients périmés sans s'en rendre compte.
L'Instruction est le Chef qui se dit : "Je ne sers pas si je doute." Parfois, il annule un bon plat par peur, ou parfois il sert un plat pourri parce qu'il est trop confiant.
Le Scanner (la Porte-Garde) est un Inspecteur de la Santé qui goûte le plat avant qu'il ne sorte en cuisine. Il vérifie la fraîcheur, la consistance et les étiquettes.

Le papier conclut que : Vous ne pouvez pas vous fier uniquement à la conscience du Chef, ni uniquement à l'Inspecteur. Mais si vous avez les deux, vous obtenez un service presque parfait : peu de plats pourris (hallucinations) et très peu de bons plats jetés par erreur (refus inutiles).

En résumé

Ce papier nous dit que pour arrêter les IA d'inventer des faits, il ne suffit pas de leur demander d'être honnêtes. Il faut leur installer un système de contrôle externe qui vérifie la solidité de leurs preuves, et combiner ce système avec leurs propres instructions. C'est une approche "double sécurité" qui rend l'IA beaucoup plus fiable, même quand elle est moins intelligente.

Each language version is independently generated for its own context, not a direct translation.

1. Le Problème : L'Hallucination comme Erreur de Classification

L'article propose un nouveau cadre conceptuel pour comprendre l'hallucination dans les grands modèles de langage (LLM). Au lieu de la considérer uniquement comme une erreur de contenu factuel, les auteurs la définissent comme une erreur de classification à la limite de sortie (output-boundary misclassification).

Le mécanisme du problème : Les LLM génèrent du texte de manière autorégressive. Lorsqu'ils font face à un « vide épistémique » (manque d'information dans le contexte, les données récupérées ou la connaissance paramétrique), ils ont tendance à combler ce vide en produisant un contenu fluide mais non étayé.
L'erreur fondamentale : Le système échoue à distinguer entre une génération basée sur des preuves (evidence-backed) et une génération basée uniquement sur des priors internes (prior-only). L'hallucination survient lorsque le modèle émet une réponse non fondée comme si elle était validée par des preuves externes.
Limites des approches actuelles : Les stratégies de mitigation existantes (vérification post-hoc, training de vérificateurs) interviennent après la génération, alors que le contenu erroné a déjà été émis. L'article plaide pour un contrôle pré-émission.

2. Méthodologie : Une Architecture Composite d'Abstention

Pour résoudre ce problème, les auteurs proposent une architecture hybride combinant deux mécanismes complémentaires : un refus basé sur les instructions et une porte structurelle (structural gate).

A. Le Score de Déficit de Soutien ( $S_t$ )

La porte structurelle calcule un score de déficit de soutien en temps réel, basé sur trois signaux « boîte noire » (ne nécessitant pas l'accès aux poids internes du modèle) :

Auto-cohérence ( $A_t$ ) : Fraction d'accord majoritaire sur $K=3$ réponses générées indépendamment.
Stabilité du paraphrase ( $P_t$ ) : Mesure de la similarité sémantique entre la réponse originale et une réponse générée à partir d'une reformulation de la requête.
Couverture des citations ( $C_t$ ) : Fraction des mots-clés de la réponse traçables dans le contexte fourni (calculé par chevauchement de mots-clés).

Le score est défini par la formule :
$S_t = 1 - \frac{A_t + P_t + C_t}{3}$

B. Politique d'Abstention

Une sortie est bloquée (abstention) si le score de déficit dépasse un seuil $\tau = 0.55$ .
L'architecture composite fonctionne selon une logique OU : la sortie est bloquée si :

Le modèle refuse lui-même de répondre (basé sur des instructions système).
OU la porte structurelle détecte un déficit de soutien ( $S_t > \tau$ ).

C. Design Expérimental

L'évaluation a été menée sur 50 items répartis en 5 régimes épistémiques (questions répondables, non répondables, preuves contradictoires, récupération dégradée, pression adversaire) et sur 3 modèles (GPT-3.5-turbo, GPT-4o-mini, GPT-4o).
Une deuxième phase a utilisé un test de stress de 100 items issus de TruthfulQA (sans contexte) pour évaluer la capacité d'abstention pure.

3. Contributions Clés

Cadre théorique : Redéfinition de l'hallucination comme une erreur de classification à la frontière de sortie plutôt que comme une simple erreur factuelle.
Métrique nouvelle : Introduction d'un score de déficit de soutien calculable sans accès interne au modèle.
Preuve de concept composite : Démonstration empirique qu'aucun mécanisme seul (instructions ou porte) ne suffit ; leur combinaison est nécessaire pour atteindre une précision élevée et un taux d'hallucination quasi nul.
Identification des modes d'échec : Mise en évidence des faiblesses spécifiques de chaque approche (abstention excessive vs. confabulation confiante).

4. Résultats Principaux

Performance Globale (50 items)

Baseline : Taux d'hallucination élevé (30-50%).
Instructions seules : Réduit l'hallucination à 0% pour GPT-4o/mini, mais entraîne une abstention excessive (10% d'items répondables refusés) et laisse persister des hallucinations pour GPT-3.5 (6%).
Porte structurelle seule : Élimine l'abstention excessive (100% de précision sur les items répondables) mais échoue face aux confabulations confiantes (70% d'hallucination sur les items à preuves contradictoires, car le modèle est cohérent mais faux).
Architecture Composite :
- Précision globale : 96–98%.
- Taux d'hallucination : 0–4%.
- Elle hérite de la prudence des instructions (évitant les hallucinations) tout en corrigeant les erreurs de la porte seule (détectant les conflits que la porte rate).

Test de Stress (TruthfulQA, 100 items sans contexte)

Ce test mesure la capacité à s'abstenir lorsque aucune preuve n'est disponible.

Instructions seules : Dépendantes de la capacité du modèle. GPT-4o/mini s'abstiennent à 100%, mais GPT-3.5 ne s'abstient que dans 62% des cas.
Porte structurelle : Maintient un taux d'abstention de 98–100% sur tous les modèles, indépendamment de leur capacité à suivre les instructions.
Composite : Garantit un « plancher d'abstention » robuste (98–100%) sur tous les modèles.

5. Signification et Implications

Complémentarité des Mécanismes

L'étude démontre que les deux mécanismes ont des modes d'échec complémentaires :

Les instructions échouent lorsque le modèle est « confiant mais faux » (confabulation) ou lorsque ses capacités de suivi d'instructions sont faibles (GPT-3.5).
La porte structurelle échoue lorsque le modèle produit une sortie cohérente et stable mais basée sur des priors erronés (ex: choisir un côté d'un conflit de preuves).
La combinaison des deux crée un système de sécurité plus robuste.

Implications Pratiques

Coût computationnel : L'architecture nécessite environ 22 appels API par requête (pour les échantillons de cohérence et de paraphrase), ce qui la rend coûteuse pour des applications grand public mais justifiée pour des domaines à haut risque (médical, juridique).
Évaluation future : Les auteurs suggèrent que l'évaluation de l'hallucination ne doit pas se limiter à la justesse de la réponse finale, mais doit inclure la stabilité du support épistémique (le système a-t-il franchi la limite de sortie de manière justifiée ?).

Limites

L'étude est limitée à la famille de modèles OpenAI.
Les régimes épistémiques sont synthétiques et construits manuellement.
Le coût en calcul est élevé pour un déploiement à grande échelle.

Conclusion

L'article conclut que le contrôle efficace de l'hallucination nécessite une approche hybride. En traitant l'hallucination comme un problème de classification à la limite de sortie, l'architecture composite proposée atteint un taux d'hallucination de 0-4% tout en préservant une haute précision, offrant ainsi une solution prometteuse pour les applications critiques où la fiabilité est primordiale.