Beyond Symbolic Solving: Multi Chain-of-Thought Voting for… — Begrijpelijke uitleg

Each language version is independently generated for its own context, not a direct translation.

Hoe een AI-teamsport wiskundige raadsels oplost: De MARS-GPS methode

Stel je voor dat je een ingewikkeld raadsel moet oplossen: een meetkundig probleem met een tekening en een tekst. Voor een mens is dit soms lastig, maar voor een kunstmatige intelligentie (AI) is het vaak nog veel lastiger. De AI moet namelijk drie dingen tegelijk doen: de tekening begrijpen, de wiskundige regels toepassen en logisch redeneren.

Deze paper introduceert een nieuwe manier om dit aan te pakken, genaamd MARS-GPS. In plaats van dat de AI één keer probeert het antwoord te raden (en hoopt dat het goed zit), laten ze de AI een heel team van 'denkers' aan het werk zetten.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De Vertalers (Het begrijpen van de tekening)

Eerst moet de AI weten wat er op de tekening staat. Dit is vaak lastig omdat computers niet goed kunnen 'kijken' zoals wij.

De analogie: Stel je voor dat de tekening een vreemde taal spreekt. De AI gebruikt twee speciale vertalers (een voor de tekst en een voor de tekening) om alles om te zetten in een strakke, formele lijst met feiten.
Het resultaat: In plaats van een vage tekening, krijgt de AI nu een duidelijke lijst: "Punt A ligt op lijn B", "Deze lijn is 13 cm lang", "Deze hoek is 90 graden". Dit is de basis voor alles wat volgt.

2. Het Denkers-Team (Meerdere redeneerpaden)

Vroeger liet je de AI één keer een antwoord bedenken. Als die één keer een foutje maakte, was het raak.

De analogie: MARS-GPS doet het anders. Het is alsof je 8 verschillende experts in een kamer zet en zegt: "Bedenk allemaal een oplossing voor dit probleem."
Het proces: De AI genereert 8 verschillende redeneertrajecten (zoals 8 verschillende routes op een GPS). Ze werken allemaal tegelijk. Soms denken ze hetzelfde, soms denken ze heel anders.

3. De Rekenmachine (De Python-sandbox)

AI's zijn goed in taal, maar ze zijn soms slecht in rekenen. Ze kunnen zeggen "13 keer 13 is 169", maar ze kunnen ook een foutje maken en zeggen "168".

De analogie: Als een expert tijdens het denken zegt "Ik moet even een berekening maken", stuurt MARS-GPS die berekening niet naar het hoofd van de AI, maar naar een betrouwbare rekenmachine (een Python-sandbox).
Het voordeel: De AI schrijft de code, de rekenmachine doet het rekenen en geeft het exacte antwoord terug. Geen giswerk, geen foutjes door "hallucinaties".

4. De Jury (Stemmen en vertrouwen)

Nu hebben we 8 mogelijke antwoorden. Welke is goed?

De analogie: Stel je een jury van 8 mensen voor.
1. Stemmen: Als 5 van de 8 experts hetzelfde antwoord geven, is het waarschijnlijk goed.
2. Vertrouwen: Maar wat als er een gelijkspel is? Dan kijken we naar hun 'zenuwen'. De AI meet hoe zeker elke expert is van zijn antwoord (gebaseerd op hoe snel en zeker ze woorden kiezen). De expert die het minst twijfelt, krijgt meer stemmen.
3. De zelf-check: Als het nog steeds onduidelijk is, vraagt de AI zichzelf (de jury) nog één keer: "Weet je zeker dat dit klopt?" Ze kijken nog eens kritisch naar de regels. Als het antwoord logisch niet kan kloppen, wordt het verworpen.

Waarom is dit zo goed?

De paper laat zien dat deze methode 88,8% van de meetkundeproblemen correct oplost. Dat is een enorme sprong vergeleken met de beste methoden van voorheen (die rond de 77% zaten).

Kortom: In plaats van één slimme, maar soms onzeker AI die één keer probeert, maken ze een team van experts die samenwerken, gebruikmaken van een rekenmachine voor de moeilijke getallen, en elkaar controleren voordat ze een definitief antwoord geven.

Het is alsof je niet één wiskundige vraagt om een examen te doen, maar een hele klas die samenwerkt, waarbij de slimste en zekerste leerlingen het woord voeren. Dat is waarom deze methode zo succesvol is.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het oplossen van meetkundige problemen (Geometric Problem Solving - GPS) is een complexe taak die drie vaardigheden vereist:

Diagrammatiek begrip: Het interpreteren van visuele informatie uit een diagram.
Symbolische manipulatie: Het toepassen van wiskundige theorema's en formules.
Logische inferentie: Het redeneren om tot een conclusie te komen.

Bestaande methoden (zoals puur symbolische oplosprogramma's of neuro-symbolische benaderingen) focussen vaak op het synchroniseren van diagram-beschrijvingen met tekst en het oplossen van de vergelijkingen. Echter, de logische inferentie blijft vaak onderontwikkeld. Veel modellen vertrouwen op één enkele "Chain-of-Thought" (CoT) redenering. Als deze ene redeneringsketen een fout maakt, is het antwoord verkeerd. Daarnaast hebben Large Language Models (LLMs) moeite met nauwkeurige numerieke berekeningen en het direct afleiden van logische relaties uit ruwe meetkundige diagrammen.

Methodologie: MARS-GPS

Het paper introduceert MARS-GPS (Multi-path Aggregated Reasoning System for Geometry Problem Solving). Dit is een inference-time framework dat geen modeltraining of fine-tuning vereist. De aanpak bestaat uit twee hoofdfasen:

1. Probleem Parsing (Stap 1)

Om de beperkingen van MLLMs bij het direct lezen van diagrammen te omzeilen, wordt een tweestaps-parsing-pipeline gebruikt om een uniforme formele representatie ( $F^*$ ) te creëren:

Tekst Parser: Een regelgebaseerde (rule-based) parser (geen neurale netwerken) converteert de tekstuele probleemomschrijving naar formele literals (bijv. Find(AreaOf(...))). Dit is gekozen omdat neurale parsers vaak fouten maken bij kleine datasets en de downstream-taak zeer gevoelig is voor fouten.
Diagram Parser: Het diagram wordt verwerkt door PGDPNet om meetkundige primitieven en relaties te extraheren (bijv. PointLiesOnLine, Perpendicular).
Resultaat: Een geünificeerde formele context $F^*$ die als enige input dient voor het redenerende model. Het ruwe beeld wordt niet aan het redeneringsmodel doorgegeven.

2. Inference-Time Ensemble Redenering (Stap 2)

In plaats van één antwoord te genereren, gebruikt MARS-GPS de volgende strategieën:

Parallelle Rollouts: Een bevroren LLM (GPT-OSS 120B) genereert $k$ onafhankelijke redeneringspaden (rollouts) parallel.
Code-Augmented Reasoning: Tijdens het redeneren kan het model Python-code schrijven in een sandbox-omgeving. Deze code wordt uitgevoerd om nauwkeurige numerieke berekeningen uit te voeren, waardoor "arithmetic hallucinations" worden voorkomen.
Vertrouwensschatting (Entropy): Voor elke rollout wordt de Shannon-entropy berekend op token-niveau. Een lagere entropy duidt op een hogere zekerheid van het model.
Aggregatie en Verificatie: De $k$ $k$ antwoorden worden samengevoegd via een zes-staps proces:
1. Vroegtijdige Consensus: Als een antwoord in meer dan de helft van de rollouts voorkomt, wordt het direct geaccepteerd.
2. Harde Acceptatie: Als een antwoord in de meerderheid (maar niet absolute meerderheid) voorkomt, wordt het geaccepteerd.
3. Kandidaatselectie: Antwoorden die in minder dan een kwart van de rollouts voorkomen, worden verworpen (outliers).
4. Entropy-Gerangschikte Verificatie: Kandidaten worden gesorteerd op basis van hun gemiddelde entropy (hoogste vertrouwen eerst).
5. Zelf-Verificatie (Self-Verification): Het model wordt gevraagd om de meest betrouwbare kandidaat te verifiëren (Correct/Fout) op basis van de formele context. Als deze slaagt, wordt het antwoord geaccepteerd.
6. Gewogen Fallback: Als alle verificaties falen, wordt een scorefunctie gebruikt die stemmen en entropy combineert.

Belangrijkste Bijdragen

Superioriteit van Parallelle Sampling: Het bewijs dat parallelle rollout-sampling (multi-CoT) symbolische solvers en traditionele neurale methoden overtreft voor GPS.
Training-Free Vertrouwenssignaal: De introductie van token-entropy als een gratis, trainingsvrije maatstaf voor vertrouwen, afgeleid van de log-probabiliteiten van het model.
Geavanceerde Aggregatie: Een algoritme dat meerderheidsstemming combineert met entropy-rangschikking en zelf-verificatie.
State-of-the-Art Resultaten: Nieuwe records op de belangrijkste meetkundige benchmarks.

Resultaten

De prestaties zijn getest op de Geometry3K en PGPS9K datasets:

Geometry3K: MARS-GPS bereikt 88,8% nauwkeurigheid. Dit is een verbetering van bijna +11% ten opzichte van de vorige state-of-the-art (Pi-GPS, 77,8%) en een verbetering van +30% ten opzichte van pioniers zoals Inter-GPS.
PGPS9K: Het model bereikt 77,48% nauwkeurigheid, wat ongeveer 8% hoger is dan Pi-GPS en meer dan 20% hoger dan algemene multimodale LLM's.
Schaalbaarheid: De nauwkeurigheid groeit log-lineair met het aantal rollouts ( $k$ ). Van $k=1$ (82,0%) naar $k=16$ (88,0%). De grootste winst wordt geboekt bij $k=8$ , wat gekozen is als balans tussen kosten en prestaties.
Ablatie Studies:
- Het verwijderen van zelf-verificatie leidt tot de grootste daling in nauwkeurigheid (-4,5%).
- Het verwijderen van code-augmentatie leidt tot een daling van -2,5%, wat aantoont dat numerieke berekeningen kritiek zijn.
- Entropy-gewogen stemming presteert beter dan simpele meerderheidsstemming.

Betekenis en Conclusie

Dit paper toont aan dat de beperkingen van LLM's in meetkunde niet noodzakelijkerwijs opgelost moeten worden door het model te trainen of door complexere symbolische systemen te bouwen. In plaats daarvan kan inference-time scaling (het genereren van meerdere redeneringspaden) in combinatie met code-executie en intelligente aggregatie de prestaties drastisch verbeteren.

De kernboodschap is dat logische inferentie in GPS vaak onderbenut wordt in eerdere werken. Door meerdere redeneringspaden te genereren, deze te valideren met code en te filteren op basis van modelzekerheid (entropy), kan een systeem de complexiteit van meetkundige problemen effectiever aanpakken dan eerdere neuro-symbolische benaderingen. De methode is bijzonder efficiënt omdat deze geen extra training vereist en volledig werkt op bestaande, krachtige LLM's.

Beyond Symbolic Solving: Multi Chain-of-Thought Voting for Geometric Reasoning in Large Language Models