CoTJudger: A Graph-Driven Framework for Automatic Evaluation of Chain-of-Thought Efficiency and Redundancy in LRMs

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat overdreven student hebt die elke vraag moet beantwoorden. Als je hem vraagt: "Hoeveel minuten zijn er tussen 3:52 en het volgende moment waarop de cijfers 2, 3 en 5 precies één keer voorkomen?", dan begint hij niet direct met rekenen. Nee, hij begint te twijfelen, schrijft drie pagina's over hoe klokken eruitzien, maakt een fout, corrigeert die, twijfelt weer, schrijft nog een pagina over digitale klokken, en komt dan eindelijk tot het antwoord.

Hij heeft het juiste antwoord, maar hij heeft ook een berg papier verspild. In de wereld van kunstmatige intelligentie (AI) noemen we dit "over-redeneren". De modellen (zoals DeepSeek-R1 of Gemini) denken dat hoe langer hun gedachtegang (Chain-of-Thought) is, hoe slimmer ze zijn. Maar vaak is het gewoon een hoop ruis.

Hier komt CoTJudger in het spel.

Wat is CoTJudger?

CoTJudger is als een slimme redacteur of een architect die naar het gedachteproces van een AI kijkt en zegt: "Oké, dit is een heel rommelig verhaal, maar laten we de essentie eruit halen."

In plaats van gewoon te tellen hoeveel woorden de AI heeft geschreven (wat vaak misleidend is), bouwt CoTJudger een kaart (een grafiek) van de gedachten.

De Analogie: De Verkeerskaart

Stel je voor dat het denken van een AI een ritje is van punt A (de vraag) naar punt B (het antwoord).

De ideale route: Je rijdt rechtstreeks van A naar B. Dit is de kortste effectieve route.
De werkelijke route van de AI: De AI rijdt vaak in rondjes, maakt omwegen naar een tankstation dat niet nodig was, rijdt terug naar een verkeerslicht waar hij al was, en staat vast in file.

CoTJudger tekent al deze ritten op een kaart. Het ziet precies waar de AI in een cirkel rijdt (repetitie), waar hij onnodig omrijdt (overbodige exploratie) en waar hij terugkeert om iets te controleren dat al goed was (dwangmatige verificatie).

Hoe werkt het? (In 3 simpele stappen)

De Gedachten Opsplitsen: De AI schrijft een lange tekst. CoTJudger knipt deze tekst in kleine, logische blokjes (zoals losse tegels).
De Kaart Maken: Het kijkt naar de blokken en maakt een netwerk. Als blokje 3 zegt "Ik denk dat X fout is" en verwijst naar blokje 1, dan tekent CoTJudger een pijl terug. Als blokje 5 precies hetzelfde zegt als blokje 2, dan zegt het: "Ah, dit is een dubbelgang."
De Kortste Route Vinden: Het algoritme zoekt de kortste weg door dit netwerk die nog steeds leidt tot het juiste antwoord. Dit noemen ze de Shortest Effective Path (SEP).

Wat leert dit ons?

De onderzoekers hebben 21 verschillende AI-modellen getest en ontdekten een paar verrassende dingen:

De "Dwangmatige Verificator": Sommige modellen (zoals DeepSeek-R1) lijken bezeten van het controleren van hun eigen werk. Ze denken iets, controleren het, twijfelen, controleren het weer, en komen dan terug bij het begin. Het is alsof iemand een deur opent, dichtdoet, weer opent, en dan pas de kamer in loopt.
De "Woordvechters": Andere modellen (zoals Qwen3-Max) schrijven gewoon heel veel tekst zonder veel structuur. Ze zijn als een persoon die een verhaal vertelt, maar halverwege begint te herhalen of afwijkt naar een ander onderwerp, alleen maar om te vullen.
De "Kleine Slimme": Sommige modellen (zoals gpt-oss-120b) zijn verrassend efficiënt. Ze vinden het antwoord met veel minder "kilometers" op de teller.

Waarom is dit belangrijk?

Vroeger dachten we: "Hoe langer het antwoord, hoe slimmer de AI."
CoTJudger bewijst het tegenovergestelde: Hoe langer het antwoord, hoe meer tijd en geld we verspillen.

Door te kijken naar de "kortste effectieve route" kunnen onderzoekers nu:

AI's trainen om sneller te zijn: Ze kunnen de AI belonen voor het vinden van de directe route in plaats van de lange omweg.
Kosten besparen: Minder tekst betekent minder rekenkracht nodig, wat goedkoper is en minder stroom verbruikt.
Betere diagnoses: We kunnen nu precies zien waar een AI vastloopt. Is het omdat hij de vraag niet begrijpt? Of omdat hij in een denkkrans belandt?

Conclusie

CoTJudger is de tool die ons leert dat kwaliteit niet gelijkstaat aan kwantiteit. Het helpt ons de "slimme" AI's te onderscheiden van de "luidruchtige" AI's. Het is alsof we een bril opzetten die ons laat zien welke delen van een gedachtegang echt nodig zijn om een probleem op te lossen, en welke delen gewoon "ruis" zijn die we kunnen weggooien.

Kortom: Het helpt de AI's om te stoppen met "overdenken" en te beginnen met "doen".

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "CoTJudger: A Graph-Driven Framework for Automatic Evaluation of Chain-of-Thought Efficiency and Redundancy in LRMs", vertaald en samengevat in het Nederlands.

Titel

CoTJudger: Een grafiekgedreven framework voor automatische evaluatie van de efficiëntie en redundantie van Chain-of-Thought (CoT) in Large Reasoning Models (LRMs)

1. Het Probleem

Grote Redeneringsmodellen (LRMs), zoals OpenAI o1 en DeepSeek-R1, presteren sterk door uitgebreide Chain-of-Thought (CoT) traces te genereren voordat ze een antwoord geven. Dit paradigma leidt echter vaak tot over-redeneren (over-reasoning).

Overschot aan berekening: Modellen voeren redundante berekeningen uit, gaan in cirkels rond bij zelfverificatie en tonen onproductief terugkrabbelen.
Gebrek aan nuance in evaluatie: Bestaande evaluatiemethoden focussen voornamelijk op de uiteindelijke nauwkeurigheid of ruwe token-aantallen. Ze kunnen niet onderscheid maken tussen noodzakelijke complexiteit en structurele verspilling.
Risico: Zonder gerichte tools worden modellen geoptimaliseerd voor token-volume in plaats van redeneringskwaliteit, wat leidt tot hoge inferentiekosten zonder verbeterde uitkomsten.

2. Methodologie: Het CoTJudger Framework

CoTJudger introduceert een automatische, structurele benadering om redundantie te kwantificeren door vrije tekst-CoTs om te zetten in gerichte afhankelijkheidsgrafieken. Het proces verloopt via zes modules:

Stapsegmentatie en Atomaire Vorming:
- CoT-tekst wordt eerst grof opgesplitst (bijv. op basis van regeleinden).
- Een LLM (GPT-5) voert vervolgens "atomaire vorming" uit: het samenvoegen van te gefragmenteerde stappen en splitsen van stappen die meerdere redeneringsacties bevatten, zodat elke knoop één logische eenheid vertegenwoordigt.
Atomaire Knoopclassificatie:
- Een uniek, domein-agnostisch classificatiesysteem (twee niveaus) wijst elke knoop een functionele rol toe (bijv. Probleem-deconstructie, Reflectie/Verificatie, Correctie, Irrelevant/Redundant).
Detectie en Verificatie van Antwoordknooppunten:
- Het systeem detecteert waar in de tekst een antwoord wordt gegeven en verifieert de juistheid (bijv. door code uit te voeren bij programmeertaken).
Constructie van de CoT-Grafiek:
- Lineaire tekst wordt omgezet in een gerichte graaf $G = (V, E)$ .
- Knoopnormalisatie: Semantisch identieke knopen (herhalingen) krijgen dezelfde ID.
- Randen: Er worden drie types randen gedefinieerd:
  - Forward: Sequentiële logica.
  - Backward: Reflectie of correctie van een eerdere stap.
  - Self-loop: Semantische herhaling.
  - Shortcut: Randen die redundante verificatiestappen overslaan als ze niet essentieel zijn voor de logica.
Extraheren en Valideren van het Kortste Effectieve Pad (SEP):
- Het systeem zoekt het Shortest Effective Path (SEP): de kortste, logisch samenhangende reeks stappen die noodzakelijk is om tot het juiste antwoord te komen.
- Dit pad wordt gevalideerd om te garanderen dat het antwoord strikt hieruit kan worden afgeleid.
Berekening van Redundantie-metrics:
- Op basis van de graaf en het SEP worden diverse metrics berekend.

Belangrijkste Metrics:

Redundancy Ratio ( $R$ ): Het percentage niet-essentiële stappen in de totale CoT ( $R = \frac{|V| - L_{eff}}{|V|}$ ).
Gemiddelde Graad ( $D$ ): Maat voor de topologische dichtheid. Een waarde dicht bij 1.0 wijst op een lineair pad; hogere waarden wijzen op complexe terugkoppelingen en redundantie.
Logische Epicenters: Knooppunten met een extreem hoge in- of uitgaande graad, wat wijst op locaties waar het model veelvuldig vastloopt en paden herschrijft.

3. Belangrijkste Bijdragen

CoTJudger Framework: Het eerste automatische, structurele evaluatiesysteem dat CoTs omzet in afhankelijke grafieken om het SEP te extraheren, waardoor redundantie meetbaar wordt.
Functionele Knoopclassificatie: Een domein-agnostisch taxonomiesysteem dat redeneringsstappen categoriseert, wat interpretatie van waarom redundantie optreedt mogelijk maakt.
Grootschalige Studie: Evaluatie van 21 LRMs (propriëtaire, open-source en gedistilleerde modellen) over wiskunde, programmeren, wetenschap (PCB) en algemeen redeneren.
Nieuwe Metriek: Definitie van de Redundancy Ratio (R) als een schaalbaar objectief voor het vergelijken van modellen en het sturen van reward-modellering voor efficiënt redeneren.

4. Resultaten en Inzichten

De evaluatie van 21 modellen op 896 queries leverde de volgende inzichten op:

Alomtegenwoordige Redundantie: Redundantie is wijdverspreid, maar varieert sterk per model. Sommige modellen (zoals Qwen3-Max) spenderen meer dan 80% van hun inferentiebudget aan niet-essentiële stappen ( $R \approx 86.5\%$ ).
Drie Typen Redundantie:
1. Cyclische Complexiteit: Modellen zoals DeepSeek-R1 vertonen frequente terugloop en hoge "Logische Epicenters" (veelvuldig vastlopen op specifieke knopen).
2. Semantische Verbaaliteit: Modellen zoals Qwen3-Max tonen een hoge mate van "Irrelevant-or-Redundant" stappen en zelfverificatie, wat wijst op globale losheid in plaats van lokale congestie.
3. Lokale Over-optimalisatie: Modellen zoals Gemini-3-Pro hebben een lineaire structuur maar tonen micro-inefficiënties door frequente backtracking.
Het Distillatie-probleem: Gedistilleerde modellen (kleinere modellen getraind op output van grote modellen) erven vaak de redundantie van de leraar, soms zelfs versterkt. Ze vertonen vaak een "redeneringsillusie" waarbij ze de vorm van reflecteren nabootsen zonder de stabiliteit, wat leidt tot het vernietigen van correcte antwoorden (Deconstructive Revision).
Post-Antwoord Redundantie: Veel modellen genereren aanzienlijke redenering na het eerste correcte antwoord (Superfluous Verification), wat de latentie verhoogt zonder de nauwkeurigheid te verbeteren.
Verband met Moeilijkheid: Open-source modellen vertonen een U-vormig patroon: ze redeneren inefficiënt op makkelijke vragen, zijn optimaal bij hun "sweet spot", en worden extreem redundant (topologische instorting) bij te moeilijke vragen.

5. Betekenis en Impact

CoTJudger verschuift de focus van "hoeveel tokens" naar "hoeveel logica is nodig".

Diagnostisch Instrument: Het biedt een manier om de oorzaken van inefficiëntie te lokaliseren (bijv. is het een probleem met verificatie, of met het initiële plan?).
Optimalisatie: De metrics kunnen worden gebruikt om reward-modellen te trainen die modellen belonen voor korte, effectieve paden in plaats van lange teksten.
Toekomstige Ontwikkeling: Het framework helpt bij het ontwikkelen van LRMs die niet alleen accuraat zijn, maar ook computationeel zuinig, wat essentieel is voor schaalbare en kosteneffectieve AI-toepassingen.

Kortom, CoTJudger biedt de eerste gestructureerde manier om het "over-denken" van moderne AI-modellen te meten, te analyseren en te diagnosticeren, waardoor de weg vrijkomt voor efficiëntere redeneringsarchitecturen.

CoTJudger: A Graph-Driven Framework for Automatic Evaluation of Chain-of-Thought Efficiency and Redundancy in LRMs

Wat is CoTJudger?

De Analogie: De Verkeerskaart

Hoe werkt het? (In 3 simpele stappen)

Wat leert dit ons?

Waarom is dit belangrijk?

Conclusie

Titel

1. Het Probleem

2. Methodologie: Het CoTJudger Framework

3. Belangrijkste Bijdragen

4. Resultaten en Inzichten

5. Betekenis en Impact

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models