Consistency-Guided Decoding with Proof-Driven Disambiguation for Three-Way Logical Question Answering

Each language version is independently generated for its own context, not a direct translation.

De Probleemstelling: De Verwarde Vertaler

Stel je voor dat je een slimme, maar soms wat onzekere vertaler hebt (een AI-model). Je geeft hem een verhaal (de premisse) en een stelling (de hypothese). Je vraagt: "Is dit waar, onwaar, of weten we het niet?"

In de echte wereld (en bij deze AI's) gebeuren er twee rare dingen:

De "Tegenstrijdige Vertaling": Als je de vertaler vraagt of een zin waar is, zegt hij "Ja". Maar als je hem vraagt of de tegenovergestelde zin waar is, zegt hij ook "Ja". Dat is logisch onmogelijk! Het is alsof de vertaler zegt: "Het regent" én "Het regent niet" op hetzelfde moment.
De "Vage Onzekerheid": Soms weet de vertaler het eigenlijk wel, maar is hij zo bang om een fout te maken dat hij zegt: "Ik weet het niet." Hij trekt zich terug in een schuilkelder van onzekerheid, zelfs als het antwoord eigenlijk duidelijk is.

De auteurs van dit paper (Huang en collega's) hebben een slimme oplossing bedacht om deze twee problemen op te lossen. Ze noemen hun methode CGD-PD.

De Oplossing: De "Dubbelcheck- en Bewijs-Strategie"

Stel je voor dat je een detective bent die een zaak moet oplossen. In plaats van één keer te vragen "Is de verdachte schuldig?", doet de detective het slimme volgende:

Stap 1: De Dubbele Check (Consistentie)

De detective vraagt niet alleen aan de getuige: "Is de verdachte schuldig?" (Ja/Nee/Weet ik niet).
Hij vraagt ook direct: "Is de verdachte onschuldig?"

Het idee: Als de getuige zegt "Ja, schuldig" en "Nee, onschuldig", klopt het wel. Maar als de getuige zegt "Ja, schuldig" en ook "Ja, onschuldig", dan is er een probleem. De detective weet dan: "Oké, deze getuige is in de war. Ik moet een beslissing nemen die logisch klopt."
In het paper: Het systeem vraagt de AI naar de zin én de omgekeerde zin. Als de antwoorden tegenstrijdig zijn, dwingt het systeem de AI om zich te houden aan de logica (als A waar is, moet B onwaar zijn).

Stap 2: De "Bewijs-Check" (Voor de Onzekerheid)

Stel de getuige zegt: "Ik weet het niet."
In plaats van dat te accepteren, zegt de detective: "Oké, laten we het eens heel specifiek vragen. Is er een getuige die de verdachte precies op dat moment zag?"

Het idee: Soms zegt een AI "Ik weet het niet" omdat hij bang is. Maar als je hem vraagt om een heel specifiek bewijs (een ja/nee-vraag), durft hij vaak wel een antwoord te geven.
In het paper: Als de AI "Onbekend" zegt, gebruikt het systeem een simpele "Ja/Nee"-vraag om te checken of er echt bewijs is. Als er bewijs is, dwingt het de AI om een definitief antwoord te geven in plaats van te twijfelen.

Wat is het resultaat?

Het is alsof je een team van twee detectives hebt die samenwerken, in plaats van één detective die alleen werkt.

Minder fouten: De AI maakt minder logische fouten (zoals zeggen dat iets wel én niet waar is).
Minder "Ik weet het niet": De AI durft vaker een antwoord te geven als het antwoord eigenlijk wel bekend is.
Beter resultaat: Op de tests (de FOLIO-benchmark) bleek dat deze methode de AI's (zoals GPT-5.2 en Claude) aanzienlijk slimmer maakte. Ze werden tot 16% beter in het beantwoorden van logische vragen.

De Prijs: Meer werk, maar het loont

Het enige nadeel is dat je de AI iets vaker moet "vragen". In plaats van 1 vraag te stellen, stelt het systeem er gemiddeld 4 of 5.

Vergelijking: Het is alsof je in plaats van één keer naar een kaart te kijken, eerst de kaart, dan de tegenovergestelde kant, en dan nog een paar details checkt voordat je de route kiest. Het kost iets meer tijd, maar je komt veel minder vaak vast te lopen in een doodlopende straat.

Samenvattend

De auteurs hebben een slimme "tussenschakel" bedacht die AI's dwingt om logisch na te denken in plaats van te raden. Ze gebruiken de kracht van tegengestelden (als dit waar is, moet dat onwaar zijn) en specifiek bewijs om de onzekerheid van de AI weg te nemen. Het is een simpele, maar krachtige manier om slimme machines een beetje meer "logica" en minder "twijfel" te geven.

Each language version is independently generated for its own context, not a direct translation.

Titel

Consistency-Guided Decoding with Proof-Driven Disambiguation voor driedelige logische vraag-antwoordtaken (Three-Way Logical QA).

1. Probleemstelling

Het paper richt zich op driedelige logische vraag-antwoordtaken (3-way Logical QA). In deze taken krijgt een model een premisse-set $S$ en een hypothese $H$ , en moet het een van drie labels toekennen:

True: $S$ impliceert $H$ ( $S \models H$ ).
False: $S$ impliceert $\neg H$ ( $S \models \neg H$ ).
Unknown: $S$ impliceert noch $H$ noch $\neg H$ .

Hoewel moderne Large Language Models (LLM's) goed presteren op geïsoleerde voorbeelden, identificeren de auteurs twee terugkerende foutmodi die de betrouwbaarheid ondermijnen:

Negatie-inconsistentie: Het model geeft antwoorden op $H$ en $\neg H$ die logisch onverenigbaar zijn. Bijvoorbeeld, als $S \models H$ , dan moet het antwoord op $\neg H$ per definitie "False" zijn. LLM's behandelen deze vaak als onafhankelijke prompts, wat leidt tot tegenstrijdige labels.
Epistemische Unknown: Het model voorspelt "Unknown" uit onzekerheid, instabiliteit of conservatisme, zelfs wanneer de premises logisch gezien een definitief antwoord (True of False) ondersteunen. Dit onderscheidt zich van "genuïne Unknown" (waar de premises daadwerkelijk onvoldoende informatie bevatten).

De huidige evaluatie is subtiel omdat een model "veilig" kan lijken door vaak "Unknown" te voorspellen, maar dit verlaagt de bruikbaarheid en de standaardnauwkeurigheid.

2. Methodologie: CGD-PD

De auteurs stellen CGD-PD (Consistency-Guided Decoding with Proof-Driven Disambiguation) voor. Dit is een lichtgewicht wrapper die tijdens de inferentie (test-time) wordt toegepast en geen extra training vereist. Het werkt als volgt:

Dual Probing (Dubbel Vragen):
Het model vraagt dezelfde 3-way classifier om een label te genereren voor zowel de hypothese $H$ als de mechanisch genegateerde versie $\neg H$ .
- Als de resultaten consistent zijn (bijv. $H \to$ True, $\neg H \to$ False) en minstens één kant beslissend is, wordt dit resultaat direct geretourneerd.
Gerichte "Unknown"-fixing:
Als één kant "Unknown" oplevert, wordt een specifieke prompt ("FixUnknown") gebruikt. Deze vraagt het model om een beslissend label te geven alleen als er bewijs (een premisse-citaat) voorhanden is, of om expliciet aan te geven welke ontbrekende premisse nodig zou zijn.
- Als één kant nu beslissend is en de ander nog steeds "Unknown", wordt de onbekende kant automatisch bepaald via de negatiemap ($NegMap$).
Proof-Driven Disambiguatie (Binaire Entailment Probes):
Als beide kanten nog steeds "Unknown" zijn na de fixing-stap, worden binaire entailment-probes gebruikt (vragen met antwoord Ja/Neen: "Impliceert $S$ $H$ ?").
- Deze binaire vragen zijn eenvoudiger dan 3-way classificatie en minder geneigd om onnodig "Unknown" te kiezen.
- Als de probes aantonen dat $S \models H$ (Ja) en $S \not\models \neg H$ (Nee), wordt "True" geretourneerd. Hetzelfde geldt voor "False". Als beide probes "Ja" zijn (een zeldzame conflict), blijft het model "Unknown" (abstention) om willekeur te voorkomen.
Adjudicatie voor Inconsistente Beslissingen:
Als zowel $H$ als $\neg H$ een beslissend label krijgen dat logisch onverenigbaar is (bijv. beide "True"), wordt een lichte "adjudicator"-prompt gebruikt om de meest waarschijnlijke consistente toewijzing te selecteren.

Efficiëntie: De methode vereist gemiddeld 4–5 modelcalls per voorbeeld (twee voor de initiële probing, plus optionele calls voor fixing en probes), wat aanzienlijk minder is dan uitgebreide zoekalgoritmen zoals Tree-of-Thoughts.

3. Belangrijkste Bijdragen

Identificatie van Foutmodi: Het paper isoleert en kwantificeert negatie-inconsistentie en epistemische "Unknown" als praktische faalpunten in 3-way logische QA met LLM's, gebruikmakend van formele annotaties van het FOLIO-benchmark.
CGD-PD Framework: Introductie van een trainingsvrije, implementeerbare wrapper die logische consistentie afdwingt en "Unknown"-voorspellingen selectief oplost via bewijsgedreven binaire probes.
Analyse van Verbeteringen: Gedetailleerde analyses tonen aan waar de winst vandaan komt (voornamelijk het oplossen van epistemische "Unknown" bij voorbeelden met een gouden label True/False) en wanneer extra calls worden gebruikt.

4. Resultaten

De methode werd geëvalueerd op het FOLIO-benchmark (specifiek de velden met formele eerste-orde logica), met gebruik van twee state-of-the-art modellen: GPT-5.2 en Claude Sonnet 4.5.

Nauwkeurigheid:
- GPT-5.2: Verbetering van +4,4% (van 63,7% naar 68,1%).
- Claude Sonnet 4.5: Verbetering van +6,9% (van 42,2% naar 49,0%).
Reductie van "Unknown":
- De frequentie van "Unknown"-voorspellingen daalde aanzienlijk voor beide modellen.
- De "Epistemische Unknown"-rate (het percentage waar het model onterecht "Unknown" voorspelde op voorbeelden die eigenlijk True of False waren) daalde met respectievelijk 5,2 en 19,3 punten.
Kosten: Het gemiddelde aantal calls steeg van 1 naar ongeveer 4,4–4,9 per voorbeeld, wat een acceptabele trade-off is voor de winst in betrouwbaarheid.
Confusiematrices: De verbeteringen komen voornamelijk doordat het model minder vaak abstineert op gevallen die een definitief antwoord hebben, zonder de prestaties op genuïne "Unknown"-gevallen significant te verslechteren.

5. Betekenis en Impact

Methodologische Vooruitgang: CGD-PD toont aan dat het afdwingen van minimale logische structuren (zoals negatie-consistentie) tijdens de inferentie een praktische en effectieve aanvulling is op zwaardere redeneringspijplijnen.
Toepasbaarheid: De methode is model-onafhankelijk (werkt op black-box API's), vereist geen training en kan direct worden ingezet in systemen waar logische consistentie cruciaal is (bijv. educatieve tools, verificatiesystemen).
Beperkingen: Het is geen volledige logische solver. Het kan nog steeds fouten maken bij genuïne onduidelijkheid en verhoogt de inferentiekosten. De auteurs benadrukken dat het vooral waardevol is in toepassingen waar betrouwbaarheid de extra kosten rechtvaardigt.

Kortom, het paper demonstreert dat het systematisch benutten van logische relaties (negatie) en het gebruik van gerichte binaire verificaties de redeneercapaciteiten van LLM's aanzienlijk kan verbeteren, zelfs zonder het model zelf te herscholen.