Consistency-Guided Decoding with Proof-Driven Disambiguation for Three-Way Logical Question Answering

Each language version is independently generated for its own context, not a direct translation.

🧠 Le Problème : Le Détective Confus

Imaginez que vous avez un détective très intelligent (c'est l'Intelligence Artificielle, ou "LLM") qui doit résoudre des énigmes logiques. On lui donne une histoire (les faits) et une hypothèse (une affirmation). Il doit répondre par l'un de ces trois mots :

Vrai (L'histoire le prouve).
Faux (L'histoire prouve le contraire).
Inconnu (On ne sait pas, l'histoire ne donne pas assez d'indices).

Le problème, c'est que ce détective est parfois capricieux et peureux :

L'incohérence : Si vous lui demandez "Est-ce que A est vrai ?", il dit "Vrai". Mais si vous lui demandez la même chose en disant "Est-ce que A est faux ?", il dit parfois "Vrai" aussi ! C'est comme un détective qui dirait "Le suspect est innocent" et "Le suspect est coupable" en même temps. C'est mathématiquement impossible.
La peur de l'inconnu : Parfois, le détective a la réponse, mais il a peur de se tromper. Alors, au lieu de dire "Vrai" ou "Faux", il se cache derrière un "Je ne sais pas" (Inconnu) pour être sûr de lui. C'est trop prudent ! Il rate des réponses qu'il pourrait donner.

🛠️ La Solution : Le "Double-Vérificateur" (CGD-PD)

Les auteurs de l'article ont créé une petite méthode intelligente, qu'ils appellent CGD-PD. Imaginez que c'est un chef de police qui supervise le détective. Voici comment il procède, étape par étape :

1. La Règle du Miroir (La Cohérence)

Au lieu de poser une seule question, le chef demande au détective de répondre à deux questions en même temps :

"Est-ce que l'hypothèse est vraie ?"
"Est-ce que l'hypothèse est fausse ?" (C'est la version miroir).

Si le détective dit "Vrai" pour la première et "Faux" pour la seconde, c'est parfait ! Le chef valide la réponse.
Mais si le détective dit "Vrai" pour les deux (ce qui est impossible), le chef intervient et dit : "Attends, tu ne peux pas dire les deux ! Choisis celui qui a le plus de preuves."

2. Le "Débloqueur" (Pour la peur de l'inconnu)

Si le détective répond "Je ne sais pas" (Inconnu), le chef ne l'abandonne pas. Il lui donne un petit coup de pouce :

Le "Fixeur" : Il demande au détective : "Tu es sûr de ne pas savoir ? Montre-moi une seule phrase de l'histoire qui prouve ta réponse."
- Souvent, le détective réalise : "Ah oui, en fait, cette phrase prouve que c'est Vrai !" et il change sa réponse.
Le "Sondage" (Preuve) : Si le détective est toujours bloqué, le chef pose des questions binaires très simples (Oui/Non) sur des détails précis de l'histoire, comme un interrogatoire ciblé, pour forcer une conclusion logique.

🎯 Le Résultat : Moins de Peur, Plus de Précision

Grâce à cette méthode, le détective devient beaucoup plus fiable :

Il arrête de se contredire (il ne dit plus "Vrai" et "Faux" en même temps).
Il arrête de dire "Je ne sais pas" quand il a en fait la réponse.
Il gagne en précision (jusqu'à 16% de mieux sur les tests) sans avoir besoin d'apprendre de nouvelles choses (c'est juste une meilleure façon de poser les questions).

🍎 L'Analogie Finale : Le Juge et le Tribunal

Imaginez un Juge (l'IA) qui doit rendre un verdict.

Sans la méthode : Le juge regarde le dossier une fois, a peur de se tromper, et dit "Je ne sais pas" ou rend un verdict bizarre qui contredit la logique.
Avec la méthode (CGD-PD) : Le Juge est assisté par un Procureur et un Avocat de la défense.
1. Le Juge écoute l'accusation ("C'est Vrai") et la défense ("C'est Faux") en même temps.
2. Si les deux s'accusent mutuellement de mensonge, le Juge triche pour trouver la vérité.
3. Si le Juge hésite, l'assistant lui demande : "Montre-moi la preuve dans le dossier !"
4. Résultat : Le verdict est plus juste, plus rapide, et le Juge a moins peur de dire "Je ne sais pas".

En résumé : Cette méthode ne rend pas l'IA plus intelligente, elle lui apprend juste à vérifier ses propres réponses et à oser trancher quand les preuves sont là, en utilisant la logique simple (si A est vrai, alors "non A" doit être faux). C'est comme donner des lunettes à quelqu'un qui a du mal à voir la cohérence de ses propres pensées.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

L'article aborde les défis rencontrés par les grands modèles de langage (LLM) dans le cadre du Questionnement Logique à Trois Voies (3-way Logical QA). Dans cette tâche, le modèle doit attribuer l'une des trois étiquettes suivantes à une hypothèse $H$ étant donné un ensemble de prémisses $S$ :

Vrai (True) : $S$ implique $H$ ( $S \models H$ ).
Faux (False) : $S$ implique la négation de $H$ ( $S \models \neg H$ ).
Inconnu (Unknown) : Ni $H$ ni $\neg H$ ne sont déduits de $S$ .

Les auteurs identifient deux modes d'échec récurrents chez les LLMs modernes, même lorsqu'ils semblent compétents sur des exemples isolés :

Incohérence de la négation (Negation Inconsistency) : Le modèle traite $H$ et sa négation mécanique $\neg H$ comme des entrées indépendantes. Il peut ainsi attribuer des étiquettes incompatibles (par exemple, prédire « Vrai » pour $H$ et « Vrai » pour $\neg H$ ), violant la contrainte logique déterministe selon laquelle si $H$ est Vrai, $\neg H$ doit être Faux.
Inconnu Épistémique (Epistemic Unknown) : Le modèle prédit « Inconnu » non pas parce que la logique est sous-spécifiée, mais en raison d'incertitude, d'instabilité ou d'une abstention conservatrice face à des cas où la réponse est en fait déterminée (Vrai ou Faux). Cela réduit la précision et l'utilité du système.

2. Méthodologie : CGD-PD

Les auteurs proposent CGD-PD (Consistency-Guided Decoding with Proof-Driven Disambiguation), une couche légère appliquée au moment de l'inférence (test-time), sans réentraînement du modèle. Cette méthode agit comme un « wrapper » autour d'un classificateur 3 voies existant.

Le processus se déroule en plusieurs étapes :

Sondage Dual Guidé par la Cohérence :
- Le système interroge le modèle deux fois : une fois sur l'hypothèse $H$ et une fois sur sa forme mécaniquement négée $\neg H$ .
- Si les deux réponses sont cohérentes avec la carte de négation (ex: $Vrai \leftrightarrow Faux$ ) et qu'au moins une est décisive, la réponse est acceptée.
Correction Ciblée de l'« Inconnu » (Targeted Unknown Fixing) :
- Si l'une des réponses est « Inconnu », un prompt spécifique (« Fixer ») est invoqué.
- Ce prompt demande au modèle de fournir soit une étiquette décisive accompagnée d'une preuve (une citation de prémisse), soit de confirmer l'« Inconnu » en identifiant ce qui manque.
- Si une réponse devient décisive, l'autre est déduite par la carte de négation.
Désambiguïsation Pilotée par la Preuve (Proof-Driven Disambiguation) :
- Si les deux côtés restent « Inconnu » après l'étape précédente, le système utilise des sondes d'implication binaire (YES/NO).
- Au lieu de demander une déduction complète, le modèle répond à des questions binaires simples : « $S$ implique-t-il $H$ ? » et « $S$ implique-t-il $\neg H$ ? ».
- Ces sondes sont moins sujettes à l'abus de la catégorie « Inconnu ». Si l'une répond « Oui » et l'autre « Non », la décision est prise. Sinon, le système maintient « Inconnu ».
Arbitrage (Adjudication) :
- Si les deux réponses initiales sont décisives mais incohérentes (ex: $Vrai$ et $Vrai$), un prompt d'arbitrage léger choisit la réponse la plus probable pour projeter le résultat sur une étiquette cohérente.

Coût computationnel : La méthode est économe, nécessitant en moyenne 4 à 5 appels au modèle par exemple (contre 1 pour une inférence standard), avec un maximum de 6 appels dans les cas complexes.

3. Contributions Clés

Identification et Quantification des Échecs : L'étude isole et mesure systématiquement l'incohérence de négation et l'« Inconnu » épistémique sur le benchmark FOLIO, en utilisant ses annotations de logique du premier ordre (FOL).
Proposition de CGD-PD : Introduction d'un wrapper d'inférence, sans entraînement, qui impose la cohérence logique via la négation et résout sélectivement les cas d'incertitude grâce à des sondes binaires ciblées.
Analyse Empirique : Démonstration que les gains de performance proviennent principalement de la conversion des prédictions « Inconnu » (épistémiques) en réponses décisives correctes, tout en préservant la capacité du modèle à identifier les cas véritablement sous-spécifiés.

4. Résultats Expérimentaux

Les expériences ont été menées sur le benchmark FOLIO (champs de formules de logique du premier ordre) en utilisant deux modèles de pointe : GPT-5.2 et Claude Sonnet 4.5.

Amélioration de la Précision :
- GPT-5.2 : Gain de +4,4 points de précision (passant de 63,7 % à 68,1 %).
- Claude Sonnet 4.5 : Gain de +6,9 points de précision (passant de 42,2 % à 49,0 %).
Réduction de l'Abstention :
- La fréquence des prédictions « Inconnu » a diminué significativement, en particulier pour les cas où la vérité est déterminée (réduction du taux d'« Inconnu épistémique »).
- Pour Claude Sonnet 4.5, le taux d'« Inconnu » est passé de 75,5 % à 58,8 %.
Analyse des Coûts : Le nombre moyen d'appels au modèle est passé de 1,0 à environ 4,4 (GPT) et 4,9 (Claude), ce qui est considéré comme un compromis acceptable pour le gain de fiabilité.

Les matrices de confusion montrent que les gains proviennent majoritairement de la correction des cas « Vrai » et « Faux » qui étaient initialement classés à tort comme « Inconnu », avec un compromis minime sur les cas véritablement « Inconnu ».

5. Signification et Impact

Ce travail démontre qu'imposer une structure logique minimale (ici, la cohérence de la négation) au moment de l'inférence peut améliorer considérablement la fiabilité des LLMs sans nécessiter de réentraînement coûteux.

Approche Complémentaire : Contrairement aux méthodes d'agrégation comme la « Self-Consistency » (qui répètent le même prompt), CGD-PD exploite les relations logiques entre des prompts différents ( $H$ et $\neg H$ ).
Efficacité : La méthode utilise des sondes ciblées plutôt que des solveurs logiques complets, la rendant applicable aux modèles « boîte noire » via API.
Applications : Cette approche est particulièrement pertinente pour les systèmes éducatifs, les assistants d'analyse et les systèmes de vérification où la réduction des abstentions inutiles et la cohérence logique sont critiques.

En conclusion, CGD-PD offre une voie pratique pour transformer les LLMs en raisonneurs logiques plus robustes, en transformant l'incertitude épistémique en décisions logiques étayées par des preuves partielles.

Consistency-Guided Decoding with Proof-Driven Disambiguation for Three-Way Logical Question Answering

🧠 Le Problème : Le Détective Confus

🛠️ La Solution : Le "Double-Vérificateur" (CGD-PD)

1. La Règle du Miroir (La Cohérence)

2. Le "Débloqueur" (Pour la peur de l'inconnu)

🎯 Le Résultat : Moins de Peur, Plus de Précision

🍎 L'Analogie Finale : Le Juge et le Tribunal

1. Problématique et Contexte

2. Méthodologie : CGD-PD

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

LLM-Augmented Knowledge Base Construction For Root Cause Analysis

The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?

Depression Detection at the Point of Care: Automated Analysis of Linguistic Signals from Routine Primary Care Encounters

Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Temporally Phenotyping GLP-1RA Case Reports with Large Language Models: A Textual Time Series Corpus and Risk Modeling