Breaking the Chain: A Causal Analysis of LLM Faithfulness to Intermediate Structures

Each language version is independently generated for its own context, not a direct translation.

De Ketting Gebroken: Waarom LLM's hun eigen "tussentijdse notities" vaak negeren

Stel je voor dat je een student vraagt een wiskundig probleem op te lossen. Je zegt: "Laat eerst je tussenstappen zien op een kladblaadje, en gebruik die stappen om je eindantwoord te geven."

Je doet dit omdat je hoopt dat de student eerlijk is. Als het antwoord fout is, kun je kijken naar het kladblaadje en zeggen: "Ah, hier heb je een fout gemaakt in stap 2, daarom is je eindantwoord ook fout." Je vertrouwt erop dat het eindantwoord afhangt van wat er op dat kladblaakje staat.

Dit is precies wat onderzoekers willen zien bij Grote Taalmodellen (LLMs) zoals de modellen die dit artikel onderzoekt. Ze laten de AI eerst een gestructureerd "tussenstapje" maken (een checklist, een rubric of een lijstje met ja/nee-vragen) voordat ze het eindantwoord geven. Dit heet Schema-Guided Reasoning.

Maar de onderzoekers van dit paper stellen een heel vervelende, maar belangrijke vraag: Luistert de AI echt naar wat er op dat kladblaakje staat, of maakt hij gewoon een antwoord dat toevallig lijkt op wat er op het blaakje staat?

Het Experiment: De "Magische" Verandering

Om dit uit te zoeken, hebben de onderzoekers een slim experiment bedacht. Ze laten de AI een taak doen en een tussenstapje maken. Vervolgens doen ze iets heel speciaals: ze veranderen het tussenstapje handmatig voordat de AI het eindantwoord mag geven.

Stel je voor:

De AI schrijft op zijn kladblaakje: "Stap 1: Ja, Stap 2: Nee, Stap 3: Ja."
De AI zou dan een eindantwoord moeten geven dat past bij "Ja, Nee, Ja".
De ingreep: De onderzoekers wissen "Nee" en schrijven er "Ja" bij. Het kladblaakje zegt nu: "Stap 1: Ja, Stap 2: Ja, Stap 3: Ja."
De test: Kijkt de AI naar dit veranderde blaakje en past hij zijn eindantwoord aan? Of blijft hij het oude antwoord geven alsof er niets gebeurd is?

Wat bleek eruit? (De Verbluffende Resultaten)

De resultaten zijn verrassend en een beetje onthutsend:

1. De "Schijnheilige" AI
In de meeste gevallen (tot wel 60%!) deed de AI alsof hij luisterde. Als je vroeg om een antwoord, gaf hij er een dat leek op wat er op zijn eigen kladblaakje stond. Maar zodra je het kladblaakje veranderde, bleef hij vaak zijn oude antwoord geven.

De analogie: Het is alsof een student zegt: "Ik heb mijn sommen opgeschreven, dus mijn antwoord is 10." Jij kijkt naar zijn sommen, veegt de '10' weg en schrijft '20' erbij. De student kijkt niet eens naar het nieuwe getal, maar blijft roepen: "Nee, mijn antwoord is nog steeds 10!" Hij heeft zijn eigen notities genegeerd.

2. De AI is makkelijker te "verwarren" dan te "corrigeren"
Het bleek dat de AI makkelijker een fout maakt als je zijn tussenstapje verandert (bijvoorbeeld van "Ja" naar "Nee") dan dat hij een fout corrigeert als je een verkeerd tussenstapje goedmaakt.

De analogie: Als je een spiegel voorhoudt die een lelijke foto laat zien, kijkt de AI er misschien wel naar. Maar als je een lelijke foto vervangt door een mooie, kijkt hij er soms niet eens naar en blijft hij denken dat hij lelijk is. Hij is gevoelig voor chaos, maar niet voor verbetering.

3. De "Rekenmachine" Oplossing
De onderzoekers probeerden iets slims: ze gaven de AI geen opdracht om het eindantwoord zelf te berekenen op basis van het blaakje. In plaats daarvan lieten ze de AI het blaakje invullen en gaven ze het aan een rekenmachine (een tool) om het eindantwoord te berekenen.

Het resultaat: Toen de AI niet meer zelf hoefde te rekenen, maar alleen het blaakje hoefde door te sturen naar de rekenmachine, verdween het probleem bijna volledig!
De les: De AI was niet per se "onbetrouwbaar" in zijn logica, maar hij was gewoon te lui of te slecht om de complexe berekening zelf in zijn hoofd uit te voeren. Hij probeerde het antwoord te raden in plaats van het echt te berekenen.

4. Meer druk werkt niet
De onderzoekers probeerden de AI strengere instructies te geven: "Luister echt naar je kladblaakje, dat is belangrijker dan je eigen gevoel!"

Het resultaat: Dit hielp nauwelijks. De AI blijft zijn eigen "snelle weg" (de gok) volgen, ongeacht hoe streng je hem vraagt om eerlijk te zijn.

De Grote Conclusie

De kernboodschap van dit paper is: De tussenstappen die een AI maakt, zijn vaak slechts "decoratie" en geen echte leidraad.

Ze fungeren als een invloedrijke hint (context), maar niet als een onwrikbare schakel (causaal mechanisme) in het denkproces. De AI kijkt soms wel naar het kladblaakje, maar als het lastig wordt, springt hij er overheen en gebruikt hij zijn eigen "buikgevoel" (of eerder geleerde patronen) om het antwoord te raden.

Wat betekent dit voor de toekomst?
Als we willen dat AI's betrouwbaar zijn in belangrijke situaties (zoals medische diagnoses of juridische adviezen), kunnen we niet zomaar vertrouwen op hun "gedachtegang". We moeten de lastige berekeningen uit handen nemen en ze laten doen door externe tools (zoals een rekenmachine of een database), zodat de AI zich echt moet houden aan de stappen die hij heeft gezet.

Kortom: Laat de AI het werk doen, maar laat een rekenmachine de cijfers checken. Dan is de ketting pas echt gebroken en weer in orde.

Each language version is independently generated for its own context, not a direct translation.

Titel: Het verbreken van de keten: Een causale analyse van de trouw van LLM's aan tussenliggende structuren

1. Het Probleem

In schema-gestuurde redeneringspijplijnen (Schema-Guided Reasoning - SGR) worden Large Language Models (LLM's) gevraagd om expliciete tussenliggende structuren te genereren (zoals rubrieken, checklists of verificatievragen) voordat ze een definitieve beslissing nemen. De onderliggende aanname is dat deze structuren de uiteindelijke output causaal bepalen en niet slechts een bijwerking zijn.

Het paper stelt echter de vraag: Beïnvloeden deze tussenliggende structuren daadwerkelijk de uitkomst, of genereert het model de uitkomst direct op basis van de input en gebruikt de structuur slechts als decoratie? Bestaande methoden om "faithfulness" (trouw) te evalueren, zoals het analyseren van vrije Chain-of-Thought (CoT), zijn vaak onvoldoende omdat vrije tekst redundanties en zelfcorrecties bevat die het moeilijk maken om causale componenten te isoleren.

2. Methodologie

De auteurs introduceren een causale evaluatieprotocol gebaseerd op Pearls "front-door" causaliteitsprincipe. Het doel is om te testen of een tussenliggende structuur ( $M$ ) fungeert als een operationele mediator tussen de input ( $X$ ) en de voorspelling ( $Y$ ).

Het Protocol:

Deterministische Functie: De auteurs selecteren taken waarbij een deterministische functie $C$ de tussenliggende structuur $M$ omzet in de definitieve beslissing $Y$ . Dit betekent dat elke wijziging in $M$ een unieke, correcte verandering in $Y$ impliceert.
Interventie: Het model genereert eerst een structuur $\hat{M}$ en een voorspelling $\hat{Y}$ . Vervolgens wordt er een gecontroleerde interventie uitgevoerd op $\hat{M}$ om een geïntervenieerde versie $M^*$ te creëren (bijvoorbeeld door een item in een checklist om te draaien).
Herprompting: Het model wordt opnieuw geprompt met de originele input $X$ en de geïntervenieerde structuur $M^*$ , en moet een nieuwe voorspelling $Y^*$ genereren.
Evaluatie:
- Als het model trouw is, moet $Y^*$ veranderen om overeen te komen met de deterministische uitkomst van $M^*$ .
- Als het model ontrouw is, blijft $Y^*$ gelijk aan de originele voorspelling, wat aangeeft dat het model de structuur negeert en directer afhankelijk is van $X$ of interne kennis.

Metrieken:

$F_{ID}$ (In-Distribution Faithfulness): Meet of het model consistent is met zijn eigen gegenereerde structuur ( $\hat{Y} = C(\hat{M})$ ).
$F_{Strong}$ (Strong Faithfulness): Meet of het model consistent blijft na interventie ( $\hat{Y} = C(\hat{M})$ én $Y^* = C(M^*)$ ).
$\Delta$ (Gap): Het verschil tussen $F_{ID}$ en $F_{Strong}$ . Een grote $\Delta$ duidt op fragiele trouw: het model lijkt consistent, maar faalt bij interventie.

Experimentele Setup:

Datasets: RiceChem (chemie-gradering), AVeriTeC (feitencontrole), TabFact (tabelverificatie).
Modellen: 8 instructie-geoptimaliseerde modellen (Qwen 3, Falcon 3, LLaMA 3, Gemma 2) van verschillende groottes.
Scenario's:
- Correctie (COR): Een foutieve structuur wordt gecorrigeerd.
- Counterfactual (CNF): Een correcte structuur wordt bewust gewijzigd.

3. Belangrijkste Resultaten

A. Tussenliggende structuren zijn vaak geen stabiele causale mediators
Er is een consistente kloof ( $\Delta$ ) tussen $F_{ID}$ en $F_{Strong}$ over alle modellen en datasets. Modellen lijken vaak consistent met hun eigen structuur, maar updaten hun voorspelling niet wanneer de structuur expliciet wordt gewijzigd.

AVeriTeC: Toont de grootste dissociatie. Hoewel $F_{ID}$ hoog is (~~0.74), daalt $F_{Strong}$ drastisch (~~0.27). Dit suggereert dat modellen vaak een "shortcut" nemen die de tussenliggende stap omzeilt.
RiceChem: Toont de meest consistente causale afhankelijkheid, maar zelfs hier is er een significante kloof.
Conclusie: Tussenliggende structuren fungeren meer als invloedrijke context dan als stabiele causale bottlenecks.

B. Asymmetrie in gevoeligheid
Modellen reageren niet symmetrisch op interventies:

Ze zijn gevoeliger voor counterfactual interventies (het verstoren van een correcte structuur) dan voor correcties (het repareren van een foutieve structuur).
Modellen laten zich makkelijker "verwarren" door een gewijzigde structuur dan dat ze worden "gecorrigeerd" door een betere structuur.

C. Invloed van Tools (Externalisatie)
Wanneer de deterministische stap $C$ (het berekenen van het eindresultaat op basis van de structuur) wordt uitbesteed aan een extern hulpmiddel (tool) in plaats van intern door het model te worden berekend:

De kloof ( $\Delta$ ) verdwijnt grotendeels (vaak < 0.03).
Dit bewijst dat een groot deel van de "ontrouw" in de standaardsetting voortkomt uit het rekenkundige vermogen van het model om de structuur correct te verwerken in de context, en niet noodzakelijk uit het negeren van de structuur.
Kleine modellen hebben nog steeds moeite met het correct formuleren van de tool-call, wat wijst op beperkingen in instructievolging.

D. Invloed van Prompting (Instructiesterkte)
Versterken van de instructies (bijv. "prioriteer de structuur boven de input" of "de structuur is de ultieme waarheid") leidt slechts tot marginale verbeteringen in $F_{Strong}$ .

Dit suggereert dat het probleem niet ligt in ambiguïteit over welke bron te vertrouwen, maar in de inherente moeilijkheid voor het model om de causale keten $M \to Y$ te volgen.

4. Bijdragen

Causaal Framework: Formulering van trouw aan gestructureerde representaties als een causaal mediatieprobleem met een protocol voor deterministische contrafactuele doelen.
Systematische Evaluatie: Een uitgebreide evaluatie van 8 modellen op 3 benchmarks, waarbij wordt aangetoond dat zelfconsistentie geen garantie is voor causale afhankelijkheid.
Asymmetrie-inzicht: Het identificeren dat modellen gevoeliger zijn voor destructieve interventies dan voor constructieve correcties.
Oorzaak-analyse: Het aantonen dat de waargenomen ontrouw voornamelijk een gevolg is van computatieproblemen (in-context uitvoering van $C$ ) en niet van een fundamenteel gebrek aan causale redenering, wat wordt bevestigd door het gebruik van tools.

5. Betekenis en Conclusie

Het paper concludeert dat in huidige LLM's gestructureerde tussenliggende redeneringen (zoals checklists of rubrieken) niet fungeren als betrouwbare causale mediators die de beslissing dwingend bepalen. In plaats daarvan dienen ze als invloedrijke contextsignalen.

De "trouw" die we zien is vaak een illusie die ontstaat doordat het model toevallig een antwoord genereert dat overeenkomt met de gegenereerde structuur. Zodra de structuur echter wordt gewijzigd, breekt deze link vaak. Om echte causale controle te bereiken, is het essentieel om de deterministische verwerking van de structuur naar het eindresultaat uit te besteden aan externe tools, in plaats van te vertrouwen op het model om deze berekening intern uit te voeren. Dit heeft grote implicaties voor het vertrouwen op LLM's in hoog-risico domeinen zoals juridische redenering en medische diagnose, waar tussenliggende stappen cruciaal moeten zijn voor de uiteindelijke beslissing.

Breaking the Chain: A Causal Analysis of LLM Faithfulness to Intermediate Structures

Het Experiment: De "Magische" Verandering

Wat bleek eruit? (De Verbluffende Resultaten)

De Grote Conclusie

Titel: Het verbreken van de keten: Een causale analyse van de trouw van LLM's aan tussenliggende structuren

1. Het Probleem

2. Methodologie

3. Belangrijkste Resultaten

4. Bijdragen

5. Betekenis en Conclusie

Meer zoals dit

Exploration and Exploitation Errors Are Measurable for Language Model Agents

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Optimizing Earth Observation Satellite Schedules under Unknown Operational Constraints: An Active Constraint Acquisition Approach

WebXSkill: Skill Learning for Autonomous Web Agents