DAG-Math: Graph-of-Thought Guided Mathematical Reasoning in LLMs

Each language version is independently generated for its own context, not a direct translation.

De Kern: Is het slim of is het toeval?

Stel je voor dat je een wiskundepuzzel geeft aan een zeer slimme robot (een Large Language Model of LLM). De robot geeft het juiste antwoord. Maar hoe weet je of de robot het echt begrepen heeft, of dat het gewoon een slimme gok heeft gedaan door miljoenen mogelijke wegen te proberen tot hij op het juiste antwoord landde?

Tot nu toe keken we alleen naar het eindantwoord (zoals een leraar die alleen kijkt naar het cijfer op je toets). Dit paper introduceert een nieuwe manier om te kijken: DAG-MATH.

1. De Vergelijking: De Labyrinth vs. De Kaart

Stel je wiskundig redeneren voor als het lopen door een enorm labyrint.

De oude manier (Chain-of-Thought): De robot loopt door het labyrint. Soms loopt hij doodlopende paden, soms draait hij om, soms rent hij dwars door muren heen. Als hij uiteindelijk de uitgang vindt, zeggen we: "Goed gedaan!" Maar we hebben niet gezien of hij de weg echt kende of dat hij gewoon veel geluk had.
De nieuwe manier (DAG-MATH): In plaats van een lange, chaotische loop, dwingen we de robot om een kaart te tekenen van zijn gedachten.
- Elke stap in zijn redenering is een punt op de kaart (een knoop).
- De verbindingen tussen de stappen zijn lijnen (de randen).
- Belangrijk: De lijnen mogen nooit teruglopen naar een punt dat je al hebt bezocht (geen lussen). Het is een "gericht acyclisch graf" (DAG).

2. Wat is "Logische Sluiting" (Logical Closeness)?

Dit is het belangrijkste nieuwe concept in het paper.

Stel je voor dat je een huis bouwt.

Perfect Redeneren: Je bouwt elke muur op een stevige fundering. Elke nieuwe muur steunt op de muren die er al waren. Als je klaar bent, staat het huis perfect. Alles is logisch verbonden.
Slecht Redeneren (maar wel het juiste antwoord): Je bouwt een muur die eigenlijk op niets steunt, en een andere muur die je later weer afbreekt omdat je merkt dat hij niet nodig was. Uiteindelijk heb je een dak opgezet dat er perfect uitziet (het juiste antwoord), maar als je eronder kijkt, zie je dat de muren los van elkaar hangen.

Het paper introduceert een maatstaf genaamd "Logische Sluiting". Dit meet of elke stap in het verhaal van de robot echt nodig was en of hij logisch voortkwam uit de vorige stap.

Als de robot veel "dode hoeken" (stappen die niet worden gebruikt) of "losse muren" heeft, is zijn logische sluiting laag.
Als elke stap een steunpilaar is voor de volgende, is de sluiting hoog.

3. Wat hebben ze ontdekt?

De onderzoekers hebben gekeken naar de beste AI-modellen (zoals Gemini en GPT) en hen gedwongen om hun gedachten in deze "kaart-vorm" (DAG-MATH) te schrijven.

De verrassende bevinding:
Veel modellen krijgen een hoge score op het eindantwoord (PASS@1), maar een lage score op logische sluiting.

De Analogie: Het is alsof een student een wiskundetoets maakt. Hij schrijft 50 pagina's vol met gekke berekeningen, maakt fouten, veegt ze weg, probeert een andere methode, en schrijft uiteindelijk het juiste antwoord op. De leraar geeft een 10 omdat het antwoord klopt.
DAG-MATH zegt: "Wacht even, kijk naar je werk. Je hebt 30 pagina's geschreven die nergens toe dienden. Je hebt het antwoord gevonden door te zoeken en te gokken, niet door te redeneren."

Het paper laat zien dat AI-modellen vaak heel goed zijn in zoeken (veel paden proberen tot ze het juiste antwoord vinden), maar nog niet perfect zijn in strak redeneren (elke stap logisch onderbouwen zonder onnodige omwegen).

4. Waarom is dit belangrijk?

Tot nu toe dachten we dat als een AI het juiste antwoord gaf, hij het ook begreep. Dit paper zegt: "Nee, niet per se."

Veiligheid: Als je een AI gebruikt voor medische diagnoses of juridisch advies, wil je niet dat hij het juiste antwoord geeft door toeval of door een "gok-strategie". Je wilt dat hij de logica stap-voor-stap kan uitleggen zonder flauwekul.
Verbetering: Door te meten hoe "logisch gesloten" een antwoord is, kunnen onderzoekers AI-modellen beter trainen. In plaats van alleen te belonen voor het juiste antwoord, kunnen ze de AI belonen voor het bouwen van een strakke, logische kaart zonder dode hoeken.

Samenvatting in één zin

Dit paper introduceert een nieuwe manier om AI te testen: in plaats van alleen te kijken of het antwoord klopt, kijken we of het rekenblad (de gedachtegang) logisch strak is, zodat we zeker weten dat de AI het echt begrijpt en niet alleen maar slim aan het gokken is.

Each language version is independently generated for its own context, not a direct translation.

1. Probleemstelling

Grote Taalmodellen (LLMs) tonen indrukwekkende prestaties bij wiskundige problemen wanneer ze worden geprompt met Chain-of-Thought (CoT) redenering. Echter, het blijft onduidelijk of dit succes voortkomt uit echte logische afleiding, bloot memorisatie, of brute kracht zoekstrategieën (zoals het uitproberen van veel mogelijke paden totdat het juiste antwoord wordt gevonden).

Bestaande evaluatiemethoden, zoals PASS@k, meten alleen of het eindantwoord correct is. Dit laat de kwaliteit van het redeneerproces zelf onzichtbaar. Een model kan het juiste antwoord vinden door toeval of door een zoektocht die veel irrelevante stappen bevat, terwijl het de onderliggende logica niet volledig begrijpt. Er is behoefte aan een rigoureuze framework om te onderscheiden tussen:

Echte, logisch consistente afleiding.
Zoekgedrag dat het juiste antwoord produceert zonder een coherent redeneerpad.

2. Methodologie: Het DAG-MATH Framework

De auteurs stellen een nieuw framework voor dat CoT modelleert als een stochastisch proces op gerichte acyclische grafieken (DAGs). In plaats van CoT te zien als een lineaire tekstreeks, wordt het gezien als een graaf waar knopen tussenstappen vertegenwoordigen en randen logische afhankelijkheden.

Kernconcepten:

Twee-fasen Workflow:
1. Taak-specifieke DAG: Voor een gegeven probleem wordt een latent DAG gedefinieerd dat alle mogelijke geldige afleidingen bevat. Knopen zijn onderliggende conclusies (nodes) en randen zijn de logische justities (edges) die van de ene naar de andere leiden.
2. Stochastisch Proces: Het LLM genereert een traject (een pad door de graaf) via een sampling-strategie. Het proces is "absorberend": het stopt zodra een sink-node (het eindantwoord) wordt bereikt.
Logische Sluiting (Logical Closeness):
Dit is het centrale concept van de paper. Een CoT-traject is logisch gesloten als elke knoop in het traject (behalve de sink-node) wordt gebruikt als input voor ten minste één volgende stap.
- Als een model een stap maakt die nergens voor wordt gebruikt (een "dode tak"), is het traject niet logisch gesloten. Dit duidt vaak op zoekgedrag of het genereren van irrelevante informatie.
- Perfect Redeneren (Perfect Reasoning): Een traject is "perfect" als het logisch gesloten is en eindigt bij het correcte antwoord.
Nieuwe Evaluatiemetrics:
- PRR (Perfect Reasoning Rate): Het percentage van de gegenereerde trajecten dat zowel logisch gesloten is als het juiste antwoord geeft.
- AUC (Area Under Curve): Een score die berekent hoe de nauwkeurigheid afneemt naarmate de eis voor logische sluiting strenger wordt (van 0% tot 100%). Dit geeft een gedetailleerd beeld van de redeneerkwaliteit.

Benchmark Constructie (DAG-MATH):

Om deze metrics te kunnen toepassen, hebben de auteurs een nieuwe benchmark ontwikkeld:

Ze hebben een DAG-MATH formaat geïntroduceerd waarbij LLMs worden gevraagd om hun redenering in een gestructureerde JSON-achtige vorm te geven: Edge (redenering) $\to$ Parents (afhankelijke stappen) $\to$ Node (conclusie).
Ze hebben een Gold-Standard benchmark samengesteld van 2.894 wiskundige problemen (uit datasets zoals Omni-MATH) waarbij de correcte, logisch gesloten DAGs handmatig of via een strikt 3-staps prompting-proces zijn gevalideerd.

3. Belangrijkste Bijdragen

Rigoureus Framework: De formalisering van CoT als een rule-based stochastisch proces op DAGs, wat een brug slaat tussen vrij-vormige natuurlijke taal en formele bewijssystemen (zoals LEAN).
Nieuwe Metrics: Introductie van Logical Closeness en PRR om te meten of een model echt redeneert of alleen zoekt.
DAG-MATH Benchmark: Een dataset van 2.894 gouden standaard DAGs met gedetailleerde statistieken over graafstructuren (aantal knopen, dichtheid, vertakkingscomplexiteit) gerelateerd aan probleemcomplexiteit.
Empirisch Inzicht: Het aantonen dat er een significante kloof bestaat tussen eindantwoord-nauwkeurigheid (PASS@1) en de kwaliteit van het redeneerproces (PRR).

4. Resultaten en Observaties

De auteurs hebben diverse state-of-the-art modellen getest (o.a. Gemini-2.5, GPT-4.1, Qwen3) op datasets zoals AIME 2025, BRUMO 2025 en HMMT 2025.

Zoeken vs. Redeneren: Er is een statistisch significant verschil gevonden tussen PASS@1 en PRR. Modellen kunnen een hoog PASS@1 scoren door uitgebreid te "zoeken" (veel vertakkingen en exploratie), maar hun Perfect Reasoning Rate blijft vaak laag en stabiel. Dit suggereert dat veel correcte antwoorden het resultaat zijn van exploratie in plaats van een strakke, logische afleiding.
Invloed van Probleemcomplexiteit:
- Moeilijkere problemen leiden tot grotere, verdere (sparser) DAGs met meer vertakkingscomplexiteit.
- Perfecte redenering correspondeert met kleinere, dichte grafieken (geconcentreerde logica).
- Foutieve redenering (waarbij het antwoord verkeerd is) toont vaak extreme vertakkingen (hoge max out-degree), wat aangeeft dat het model in een zoektocht belandt die niet leidt tot een oplossing.
Rol van "Thinking" (Zoekprocessen): Modellen met een "thinking" modus (zoals DeepSeek-R1 of Gemini met thinking) verbeteren zowel PASS@1 als PRR aanzienlijk. Echter, de kloof tussen de twee metrics blijft bestaan, wat betekent dat denken de exploratie verbetert maar de neiging tot zoeken boven logische coherentie niet volledig elimineert.
Robuustheid: De metrics zijn robuust tegen variaties in prompts (herformulering, andere opmaak) en zijn niet afhankelijk van de specifieke parser die wordt gebruikt om de graaf te reconstrueren.

5. Betekenis en Toekomstperspectief

De paper biedt een fundamentele bijdrage aan het begrijpen van hoe LLMs wiskunde redeneren:

Diagnostisch Instrument: Het framework biedt een manier om te diagnosticeren waarom een model faalt (bijv. te veel exploratie, gebrek aan logische sluiting, of echte onbekwaamheid) in plaats van alleen te kijken of het antwoord goed is.
Training en Optimalisatie: De metrics kunnen worden gebruikt als beloningssignalen (reward signals) voor Reinforcement Learning (RL) of voor het sturen van zoekalgoritmen (zoals Monte Carlo Tree Search). In plaats van alleen het juiste antwoord te belonen, kan men paden belonen die logisch gesloten zijn.
Theoretische Basis: Het legt een brug tussen "generalisatie" in supervised learning en "redeneren" in LLMs, waarbij "perfect redeneren" wordt gezien als de "sweet spot" tussen onder- en over-redeneren.

Samenvattend introduceert DAG-MATH een nieuwe standaard voor het evalueren van wiskundig redeneren in AI, waarbij de nadruk ligt op de kwaliteit en coherentie van het proces in plaats van alleen het eindresultaat.