IndiMathBench: Autoformalizing Mathematical Reasoning Problems with a Human Touch

Each language version is independently generated for its own context, not a direct translation.

🧱 De Bouwmeesters van de Wiskundige Wereld: Een Verhaal over IndiMathBench

Stel je voor dat wiskunde een enorme, ingewikkelde stad is. In deze stad wonen twee soorten mensen:

De Mensen: Ze praten over de stad in gewone taal, met zinnen als "Kijk, dat gebouw is recht" of "Die brug is te kort". Ze noemen dit informele wiskunde.
De Robots (De Theorema-Bewijzers): Deze robots kunnen alleen werken met een heel streng, digitaal taalgebruik. Als je een foutje maakt in een komma of een getal, stopt de robot en zegt hij: "Ik snap het niet." Dit noemen we formele wiskunde (in dit geval in een taal genaamd Lean).

Het probleem is dat we heel graag willen dat de robots de stad van de mensen begrijpen en kunnen bouwen. Maar tot nu toe is dat erg lastig.

🚧 Het Grote Probleem: Te weinig blauwdrukken

Om robots te leren bouwen, hebben we "blauwdrukken" nodig: paren van een menselijke zin en de perfecte robot-versie daarvan.

Het probleem: Er zijn maar heel weinig van deze blauwdrukken beschikbaar.
De oorzaak: Mensen die zowel wiskunde als robot-programmeren kunnen, zijn zeldzaam. Het kost jaren om één perfecte blauwdruk te maken.
Het gevolg: De robots (zoals de slimste AI's van vandaag) oefenen maar op een paar honderd oude blauwdrukken. Ze hebben die al uit hun hoofd geleerd (ze "kijken in de cheat sheet" van het internet) en weten niet echt hoe ze moeten redeneren.

🇮🇳 De Oplossing: IndiMathBench

De auteurs van dit paper hebben een nieuwe, enorme verzameling blauwdrukken gemaakt, genaamd INDIMATHBENCH.

De Bron: Ze hebben 312 moeilijke wiskundeproblemen genomen uit de Indiase Wiskunde Olympiade. Dit zijn problemen die heel anders zijn dan de standaard Amerikaanse of Europese problemen. Ze zijn vaak creatiever en vereisen slimme trucjes.
De Mix: Ze hebben een slim systeem bedacht: Mens + AI.
- De AI probeert eerst de menselijke zin om te zetten in robot-taal.
- De AI krijgt direct feedback van de computer: "Fout! Je hebt een haakje vergeten."
- De AI probeert het opnieuw.
- Maar: Uiteindelijk kijkt een echte mens (een expert) naar het resultaat. Hij zegt: "De AI heeft de grammatica goed, maar hij heeft de betekenis van het probleem verkeerd begrepen." De mens maakt de laatste aanpassingen.

Het resultaat is een benchmark (een test) van 312 problemen die 100% betrouwbaar zijn.

🧪 De Test: Kunnen de Robots het echt?

De auteurs hebben de slimste AI's van de wereld (zoals GPT-5, Claude, en Gemini) op deze test laten werken. Het resultaat was verrassend en een beetje teleurstellend:

De "Grammatica" is goed, de "Betekenis" is slecht:
Stel je voor dat je een robot vraagt om een huis te bouwen. De robot bouwt een perfect huis dat eruitziet als een huis (de code klopt), maar als je erin woont, valt het dak in omdat de muren te zwak zijn.
- De AI's konden vaak code schrijven die compilatie (de bouwvergunning) haalde.
- Maar als je vroeg: "Is dit huis veilig?" (is het bewijs correct?), faalden ze bijna altijd. Ze snapten de logica niet, alleen de woorden.
De "Geometrie" is de nachtmerrie:
De AI's waren goed in algebra (rekenen met getallen), maar volledig vastgelopen bij meetkunde (figuren tekenen en ruimtelijk inzicht). Het was alsof je een robot vraagt om een 3D-puzzel op te lossen terwijl hij alleen in 2D kan denken.
De "Iteratie" (Herhalen) helpt, maar niet genoeg:
Als je de AI 10 keer de kans geeft om het foutje te herstellen (net als een mens die een proefopgave maakt), wordt het een beetje beter. Maar zelfs dan losten ze maar ongeveer 11% van de problemen op. Dat betekent dat voor 9 van de 10 problemen de AI het niet kon.

🛠️ De Tool: Een Slim Werkblad

Om dit proces makkelijker te maken, hebben ze een speciaal VS Code-uitbreiding (een soort digitaal werkblad) gemaakt.

Dit is als een kookplaat met een slimme assistent.
De assistent (de AI) suggereert recepten (formules).
De kok (de mens) ziet direct welke ingrediënten ontbreken of welke stap fout is.
Dankzij dit systeem kon een mens een probleem in 4 minuten oplossen, terwijl het zonder hulp bijna 3 uur zou duren. Het is dus een krachtige hulpmiddel, maar de mens moet nog steeds de chef-kok zijn.

🎯 De Conclusie in Eén Zin

We hebben een nieuwe, eerlijke test (IndiMathBench) gemaakt die laat zien dat onze slimste AI's nog steeds niet echt "wiskundig kunnen denken". Ze kunnen goed nadoen hoe het eruit ziet, maar ze missen het diepe inzicht. We hebben dus nog veel menselijke hulp nodig om de brug te slaan tussen menselijke ideeën en robotische zekerheid.

Kortom: De robots zijn net leerlingen die de antwoorden uit hun hoofd hebben geleerd, maar als je ze een nieuw, lastig probleem geeft, zien ze erdoorheen. IndiMathBench is de nieuwe, eerlijke examenlijst die dat blootlegt.

IndiMathBench: Autoformalizing Mathematical Reasoning Problems with a Human Touch

🧱 De Bouwmeesters van de Wiskundige Wereld: Een Verhaal over IndiMathBench

🚧 Het Grote Probleem: Te weinig blauwdrukken

🇮🇳 De Oplossing: IndiMathBench

🧪 De Test: Kunnen de Robots het echt?

🛠️ De Tool: Een Slim Werkblad

🎯 De Conclusie in Eén Zin

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

IndiMathBench: Autoformalizing Mathematical Reasoning Problems with a Human Touch

🧱 De Bouwmeesters van de Wiskundige Wereld: Een Verhaal over IndiMathBench

🚧 Het Grote Probleem: Te weinig blauwdrukken

🇮🇳 De Oplossing: IndiMathBench

🧪 De Test: Kunnen de Robots het echt?

🛠️ De Tool: Een Slim Werkblad

🎯 De Conclusie in Eén Zin

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA