CoTJudger: A Graph-Driven Framework for Automatic Evaluation of Chain-of-Thought Efficiency and Redundancy in LRMs

Dit paper introduceert CoTJudger, een grafgebaseerd framework dat de efficiëntie van Chain-of-Thought-resoneren in Large Reasoning Models kwantificeert door het onderscheid te maken tussen essentiële logica en structurele redundantie via het extraheren van de kortste effectieve paden.

Siyi Li, Jiajun Shi, Shiwen Ni, Ge Zhang, Shuaimin Li, Shijian Wang, Zhoufutu Wen, Yizhi Li, Hamid Alinejad-Rokny, Jiaheng Liu, Min Yang, Wenhao Huang

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat overdreven student hebt die elke vraag moet beantwoorden. Als je hem vraagt: "Hoeveel minuten zijn er tussen 3:52 en het volgende moment waarop de cijfers 2, 3 en 5 precies één keer voorkomen?", dan begint hij niet direct met rekenen. Nee, hij begint te twijfelen, schrijft drie pagina's over hoe klokken eruitzien, maakt een fout, corrigeert die, twijfelt weer, schrijft nog een pagina over digitale klokken, en komt dan eindelijk tot het antwoord.

Hij heeft het juiste antwoord, maar hij heeft ook een berg papier verspild. In de wereld van kunstmatige intelligentie (AI) noemen we dit "over-redeneren". De modellen (zoals DeepSeek-R1 of Gemini) denken dat hoe langer hun gedachtegang (Chain-of-Thought) is, hoe slimmer ze zijn. Maar vaak is het gewoon een hoop ruis.

Hier komt CoTJudger in het spel.

Wat is CoTJudger?

CoTJudger is als een slimme redacteur of een architect die naar het gedachteproces van een AI kijkt en zegt: "Oké, dit is een heel rommelig verhaal, maar laten we de essentie eruit halen."

In plaats van gewoon te tellen hoeveel woorden de AI heeft geschreven (wat vaak misleidend is), bouwt CoTJudger een kaart (een grafiek) van de gedachten.

De Analogie: De Verkeerskaart

Stel je voor dat het denken van een AI een ritje is van punt A (de vraag) naar punt B (het antwoord).

  • De ideale route: Je rijdt rechtstreeks van A naar B. Dit is de kortste effectieve route.
  • De werkelijke route van de AI: De AI rijdt vaak in rondjes, maakt omwegen naar een tankstation dat niet nodig was, rijdt terug naar een verkeerslicht waar hij al was, en staat vast in file.

CoTJudger tekent al deze ritten op een kaart. Het ziet precies waar de AI in een cirkel rijdt (repetitie), waar hij onnodig omrijdt (overbodige exploratie) en waar hij terugkeert om iets te controleren dat al goed was (dwangmatige verificatie).

Hoe werkt het? (In 3 simpele stappen)

  1. De Gedachten Opsplitsen: De AI schrijft een lange tekst. CoTJudger knipt deze tekst in kleine, logische blokjes (zoals losse tegels).
  2. De Kaart Maken: Het kijkt naar de blokken en maakt een netwerk. Als blokje 3 zegt "Ik denk dat X fout is" en verwijst naar blokje 1, dan tekent CoTJudger een pijl terug. Als blokje 5 precies hetzelfde zegt als blokje 2, dan zegt het: "Ah, dit is een dubbelgang."
  3. De Kortste Route Vinden: Het algoritme zoekt de kortste weg door dit netwerk die nog steeds leidt tot het juiste antwoord. Dit noemen ze de Shortest Effective Path (SEP).

Wat leert dit ons?

De onderzoekers hebben 21 verschillende AI-modellen getest en ontdekten een paar verrassende dingen:

  • De "Dwangmatige Verificator": Sommige modellen (zoals DeepSeek-R1) lijken bezeten van het controleren van hun eigen werk. Ze denken iets, controleren het, twijfelen, controleren het weer, en komen dan terug bij het begin. Het is alsof iemand een deur opent, dichtdoet, weer opent, en dan pas de kamer in loopt.
  • De "Woordvechters": Andere modellen (zoals Qwen3-Max) schrijven gewoon heel veel tekst zonder veel structuur. Ze zijn als een persoon die een verhaal vertelt, maar halverwege begint te herhalen of afwijkt naar een ander onderwerp, alleen maar om te vullen.
  • De "Kleine Slimme": Sommige modellen (zoals gpt-oss-120b) zijn verrassend efficiënt. Ze vinden het antwoord met veel minder "kilometers" op de teller.

Waarom is dit belangrijk?

Vroeger dachten we: "Hoe langer het antwoord, hoe slimmer de AI."
CoTJudger bewijst het tegenovergestelde: Hoe langer het antwoord, hoe meer tijd en geld we verspillen.

Door te kijken naar de "kortste effectieve route" kunnen onderzoekers nu:

  1. AI's trainen om sneller te zijn: Ze kunnen de AI belonen voor het vinden van de directe route in plaats van de lange omweg.
  2. Kosten besparen: Minder tekst betekent minder rekenkracht nodig, wat goedkoper is en minder stroom verbruikt.
  3. Betere diagnoses: We kunnen nu precies zien waar een AI vastloopt. Is het omdat hij de vraag niet begrijpt? Of omdat hij in een denkkrans belandt?

Conclusie

CoTJudger is de tool die ons leert dat kwaliteit niet gelijkstaat aan kwantiteit. Het helpt ons de "slimme" AI's te onderscheiden van de "luidruchtige" AI's. Het is alsof we een bril opzetten die ons laat zien welke delen van een gedachtegang echt nodig zijn om een probleem op te lossen, en welke delen gewoon "ruis" zijn die we kunnen weggooien.

Kortom: Het helpt de AI's om te stoppen met "overdenken" en te beginnen met "doen".