IndiMathBench: Autoformalizing Mathematical Reasoning Problems with a Human Touch

Each language version is independently generated for its own context, not a direct translation.

INDIMATHBENCH: Wie Menschen und KI gemeinsam Mathematik in eine „Maschinen-Sprache" übersetzen

Stellen Sie sich vor, Mathematik ist wie ein hochkomplexes, poetisches Gedicht. Es gibt viele verschiedene Dialekte (natürliche Sprache wie Englisch oder Deutsch), aber um es von einem Computer zu überprüfen, muss es in eine extrem strenge, fehlerfreie Programmiersprache übersetzt werden – ähnlich wie das Übersetzen eines Gedichts in eine Sprache, in der jedes Wort exakt definiert sein muss, sonst funktioniert der Satz gar nicht.

Dieses Papier stellt INDIMATHBENCH vor, ein neues Werkzeug, das genau diese Lücke schließen soll. Hier ist die Erklärung in einfachen Worten:

1. Das Problem: Der „Übersetzer" macht Fehler

Früher haben Menschen jeden einzelnen mathematischen Beweis manuell in diese strenge Computersprache (Lean 4) übersetzt. Das ist wie das manuelle Abschreiben von Millionen von Seiten – extrem langweilig, teuer und langsam.
Künstliche Intelligenz (KI) hat zwar gelernt, diese Sprache zu schreiben, aber sie macht oft zwei Arten von Fehlern:

Syntax-Fehler: Sie schreibt Wörter, die im Computer-Code nicht existieren (wie wenn man in einem Gedicht ein Wort erfindet, das kein Wörterbuch kennt).
Semantik-Fehler: Der Satz sieht grammatikalisch korrekt aus, bedeutet aber mathematisch etwas völlig anderes.

Bisher gab es nur sehr wenige „Übungsbücher" (Benchmarks), um zu testen, wie gut KI darin ist. Die meisten kamen aus westlichen Wettbewerben und deckten nicht alle wichtigen Bereiche ab (wie Geometrie).

2. Die Lösung: Ein Team aus Mensch und KI

Die Autoren haben INDIMATHBENCH geschaffen. Das ist eine Sammlung von 312 mathematischen Aufgaben aus indischen Mathematik-Olympiaden. Warum Indien? Weil diese Aufgaben oft sehr kreativ sind und Bereiche wie Geometrie und Kombinatorik abdecken, die in anderen Datensätzen fehlen.

Das Besondere daran ist der Prozess, wie sie erstellt wurden:

Die KI als Assistent: Statt dass ein Mensch alles von Null schreibt, nutzt die KI mehrere große Sprachmodelle, um erste Entwürfe zu schreiben.
Der menschliche Chef: Ein Experte schaut sich diese Entwürfe an. Aber er ist nicht allein! Die KI hilft ihm, indem sie Fehler im Code sofort anzeigt (wie ein Korrektor, der rote Linien unter Fehler zieht) und verschiedene Lösungsvorschläge vergleicht.
Das Dashboard: Die Forscher haben eine spezielle Software (eine Art „Werkbank" für VS Code) gebaut, die alle Vorschläge der KI zusammenfasst. Sie sagt dem Menschen: „Schau mal, dieser Vorschlag hat einen Fehler bei der Geometrie, aber dieser hier ist fast perfekt."

Die Analogie: Stellen Sie sich vor, Sie bauen ein Haus. Früher musste ein Maurer jeden Ziegel selbst setzen. Heute gibt es einen Roboter, der die Ziegel stapelt, aber oft schief. Der Mensch ist der Bauleiter, der den Roboter anweist, den Ziegel zu korrigieren, und am Ende prüft, ob das Haus stabil steht. Durch diese Zusammenarbeit geht es viel schneller.

3. Was haben sie herausgefunden?

Die Forscher haben getestet, wie gut die besten aktuellen KI-Modelle (wie GPT-5, Claude, Gemini) sind, wenn sie diese Aufgaben lösen müssen.

Das Ergebnis ist ernüchternd: Selbst die klügsten KIs schaffen es nur in 11 % der Fälle, einen Beweis komplett und fehlerfrei zu führen.
Syntax vs. Bedeutung: Die KIs können oft Code schreiben, der vom Computer akzeptiert wird (Syntax), aber der mathematische Sinn ist falsch. Es ist, als würde jemand einen Satz auf Deutsch schreiben, der grammatikalisch perfekt ist, aber inhaltlich Unsinn ergibt.
Geometrie ist der Albtraum: Besonders Aufgaben mit Figuren und Formen (Geometrie) waren für die KIs extrem schwer. Das liegt daran, dass die „Bibliothek" (Mathlib), aus der die KI lernt, für solche visuellen Probleme noch nicht gut genug ist.

4. Warum ist das wichtig?

Dieses Papier zeigt uns zwei Dinge:

KI ist noch nicht bereit, Mathematiker zu ersetzen. Sie kann helfen, aber sie braucht noch einen menschlichen Führer, um wirklich korrekte Beweise zu liefern.
Die Zusammenarbeit funktioniert. Durch den neuen Prozess (KI schlägt vor, Mensch prüft, KI korrigiert) konnten die Forscher die Zeit, die für das Erstellen eines Beweises benötigt wird, drastisch verkürzen – von fast 3 Stunden auf nur 4 Minuten pro Aufgabe!

Fazit:
INDIMATHBENCH ist wie ein neuer, sehr schwerer „Führerschein-Test" für mathematische KIs. Er zeigt uns, wo die KI noch stolpert (besonders bei Geometrie und tiefer Bedeutung), und bietet gleichzeitig eine neue Methode, wie Menschen und KI zusammenarbeiten können, um mehr und bessere mathematische Daten zu erstellen. Es ist ein Schritt in Richtung einer Zukunft, in der Computer uns nicht nur bei einfachen Rechnungen, sondern bei komplexen logischen Rätseln wirklich helfen können.

IndiMathBench: Autoformalizing Mathematical Reasoning Problems with a Human Touch

1. Das Problem: Der „Übersetzer" macht Fehler

2. Die Lösung: Ein Team aus Mensch und KI

3. Was haben sie herausgefunden?

4. Warum ist das wichtig?

1. Problemstellung

2. Methodik: Die INDIMATHBENCH-Pipeline

A. Automatisierte Generierung (Autoformalization Pipeline)

B. Menschlich-KI-Kollaborations-Dashboard

3. Schlüsselbeiträge

4. Ergebnisse und Evaluation

Autoformalisierung (Übersetzung)

Automatisierter Theorembeweis (ATP)

5. Bedeutung und Fazit

IndiMathBench: Autoformalizing Mathematical Reasoning Problems with a Human Touch

1. Das Problem: Der „Übersetzer" macht Fehler

2. Die Lösung: Ein Team aus Mensch und KI

3. Was haben sie herausgefunden?

4. Warum ist das wichtig?

1. Problemstellung

2. Methodik: Die INDIMATHBENCH-Pipeline

A. Automatisierte Generierung (Autoformalization Pipeline)

B. Menschlich-KI-Kollaborations-Dashboard

3. Schlüsselbeiträge

4. Ergebnisse und Evaluation

Autoformalisierung (Übersetzung)

Automatisierter Theorembeweis (ATP)

5. Bedeutung und Fazit

Mehr davon

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA