C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning

Dit paper introduceert C2-Faith, een benchmark op basis van PRM800K die de betrouwbaarheid van LLM-jurissen meet bij het beoordelen van oorzakelijke samenhang en volledigheid in chain-of-thought-redeneringen, en laat zien dat de prestaties sterk afhangen van de taakstelling en dat er aanzienlijke beperkingen zijn in het lokaliseren van fouten en het correct beoordelen van onvolledige redeneringen.

Avni Mittal, Rauno Arike

Gepubliceerd 2026-03-06
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

C2-Faith: De "Eerlijkheids-Test" voor Slimme Computers

Stel je voor dat je een zeer slimme, maar soms wat overdreven beleefde robot hebt die wiskundepuzzels oplost. Deze robot schrijft niet alleen het antwoord op, maar legt ook stap voor stap uit hoe hij tot dat antwoord komt. Dit noemen we "Chain-of-Thought" (een denkrijtje).

Nu willen we weten: Is die robot eerlijk? Of maakt hij gewoon een mooi verhaal dat klinkt alsof het logisch is, terwijl hij eigenlijk op een heel andere manier tot het antwoord is gekomen?

De auteurs van dit paper hebben een nieuwe test bedacht, genaamd C2-Faith, om precies dat te checken. Ze kijken naar twee dingen: Causaliteit (Logica) en Coverage (Volledigheid).

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De Twee Dingen die ze Checken

Stel je voor dat de robot een verhaal vertelt over hoe hij een taart bakt.

  • Causaliteit (Logica): "Klopt het verhaal?"
    • Voorbeeld: De robot zegt: "Ik heb de eieren geklopt, dus nu kan ik de auto starten."
    • Dat klinkt misschien als een zin, maar het klopt niet. Stap 2 volgt niet logisch uit stap 1. De test checkt of elke stap een logisch vervolg is op de vorige.
  • Coverage (Volledigheid): "Ontbreekt er iets belangrijks?"
    • Voorbeeld: De robot zegt: "Ik heb de eieren geklopt en de taart is klaar."
    • Hij vergeet de bloem, de suiker en de oven. Het verhaal klinkt misschien soepel, maar er zijn cruciale stappen overgeslagen. De test checkt of het verhaal compleet is.

2. Hoe hebben ze de test gemaakt? (De "Vervalsing")

Om te zien of de robot (of andere robots die als scheidsrechter fungeren) dit echt ziet, hebben de onderzoekers slimme trucs uitgehaald met een grote verzameling van goede wiskundeverklaringen:

  • De "Valse Stap" (Causaliteit): Ze namen een perfecte uitleg en vervingen één stap in het midden door een nep-versie.
    • Analogie: Het is alsof je in een recept voor pannenkoeken de zin "voeg de melk toe" vervangt door "voeg de tandpasta toe". Het klinkt als een zin, maar het is logisch onzin.
  • De "Verdwijntruc" (Coverage): Ze haalden willekeurig een aantal stappen uit het midden van het verhaal.
    • Analogie: Je pakt een recept, veegt de helft van de instructies weg (zoals "bak 10 minuten"), en kijkt of de robot dat gemerkt heeft.

3. De Scheidsrechters (De "Jury")

Ze hebben drie van de slimste AI-modellen ter wereld (GPT-4.1, DeepSeek-V3.1 en o4-mini) ingezet als scheidsrechter. Hun taak was:

  1. Zeggen of een stap logisch klopt (Ja/Nee).
  2. Aangeven welke stap fout is.
  3. Een cijfer geven voor hoe compleet het verhaal is (van 0 tot 4).

4. Wat bleek eruit? (De Verassende Resultaten)

De resultaten waren verrassend en leerzaam:

  • Geen enkele "Super-Scheidsrechter": Er was geen enkele robot die in alles de beste was.
    • DeepSeek was supergoed in het zien van één fout in een korte zin (zoals een detective die een klein detail ziet).
    • o4-mini was de beste in het vinden van de exacte fout in een heel lang verhaal (zoals een detective die een heel dossier doorzoekt).
    • GPT-4.1 zat ergens in het midden.
  • Het "Ik zie iets, maar weet niet wat"-probleem: Alle robots merkten vaak dat er iets mis was (bijvoorbeeld: "Dit verhaal klopt niet!"), maar ze konden vaak niet precies zeggen waar het mis was. Ze konden de fout ruiken, maar niet vinden.
  • De "Compleetheids-Bluf": Dit was het grootste probleem. Als er veel stappen uit een verhaal werden gehaald, gaven de robots nog steeds hoge cijfers (bijvoorbeeld een 3 of 4 van de 4).
    • Waarom? Omdat het verhaal er nog steeds "mooi" uitzag. De robots werden bedrogen door de oppervlakte. Ze dachten: "Oh, het klinkt als een compleet verhaal," terwijl ze eigenlijk 70% van de inhoud misten. Ze waren te aardig en gaven te snel een goed cijfer.

5. Wat betekent dit voor ons?

Deze test laat zien dat we niet zomaar op AI-scheidsrechters kunnen vertrouwen als we willen weten of een AI echt goed redeneert.

  • Tip 1: Als je wilt checken of een specifieke stap logisch is, gebruik dan DeepSeek.
  • Tip 2: Als je wilt weten of een heel verhaal compleet is, gebruik dan o4-mini, maar wees voorzichtig: ze geven vaak te hoge cijfers als er veel mist.
  • Tip 3: Wees kritisch. AI's zijn goed in het klinken als slimme mensen, maar ze zijn nog niet perfect in het zien van hun eigen logische gaten of het tellen van ontbrekende puzzelstukjes.

Kortom: C2-Faith is een nieuwe spiegel die we voor de slimste computers hebben gehouden. Het laat zien dat ze soms heel slim zijn, maar ook heel makkelijk te bedotten zijn als het gaat om het controleren van hun eigen eerlijkheid.