Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du versuchst, ein sehr schwieriges geometrisches Rätsel zu lösen, wie sie in der Internationalen Mathematik-Olympiade (IMO) vorkommen. Diese Rätsel sind wie verschlungene Labyrinthe, bei denen du nicht nur die Wände (die gegebenen Regeln) sehen musst, sondern auch unsichtbare Türen (Hilfslinien) errichten musst, um den Weg zum Ziel zu finden.

Bisher waren Computer bei solchen Aufgaben wie ein sturer Schüler: Sie haben riesige Mengen an Übungsaufgaben auswendig gelernt und dann versucht, durch blindes Raten und Suchen die Lösung zu finden. Das funktionierte, aber es war extrem ineffizient – wie wenn man eine Bibliothek durchsucht, indem man jedes einzelne Buch aufschlägt, statt einen klugen Index zu benutzen.

Die Forscher um InternGeometry haben nun einen neuen Ansatz entwickelt, der wie ein genialer menschlicher Detektiv funktioniert. Hier ist die Erklärung, wie das funktioniert, einfach und mit Analogien:

1. Der neue Detektiv: InternGeometry

Stell dir InternGeometry nicht als einen starren Rechner vor, sondern als einen neugierigen Studenten, der an einer Tafel steht.

Das Problem: Frühere KI-Modelle waren gut darin, bekannte Muster zu erkennen, aber sie scheiterten oft, wenn sie eine völlig neue, kreative Hilfslinie zeichnen mussten. Es fehlte ihnen an "Bauchgefühl".
Die Lösung: InternGeometry denkt nicht nur in einem Durchgang. Es denkt, macht einen Vorschlag, prüft ihn, scheitert vielleicht, denkt nach und versucht es erneut. Es ist wie ein Architekt, der erst ein Haus zeichnet, dann merkt: "Moment, das Fundament hält nicht", löscht es, zeichnet eine neue Wand und prüft wieder.

2. Der Werkzeugkasten: Das "Symbolische Gehirn"

Der KI-Agent hat einen super-intelligenten Assistenten an seiner Seite, den wir InternGeometry-DDAR nennen können.

Stell dir das wie einen perfekten Mathematiklehrer vor, der niemals lügt und sofort sagt: "Hey, deine Idee für diese Linie ist falsch, das ergibt keinen Sinn."
Der KI-Agent (der "Denker") schlägt eine Idee vor (z. B. "Ich zeichne hier einen Kreis"). Der Assistent (das "Werkzeug") prüft das sofort mathematisch. Wenn es funktioniert, wird die Linie festgehalten. Wenn nicht, sagt der Assistent: "Nein, das geht nicht."
Das Besondere: Der Agent kann diesen Prozess über 200 Mal pro Aufgabe wiederholen! Frühere Modelle haben oft schon nach wenigen Versuchen aufgegeben.

3. Das Gedächtnis: Der "Notizblock"

Da der Agent so oft hin und her denkt, würde er sonst den Faden verlieren (wie jemand, der 200 Schritte in einem Labyrinth macht und vergisst, wo er angefangen hat).

Hier kommt das dynamische Gedächtnis ins Spiel. Es fasst die langen Gespräche mit dem Assistenten zusammen. Es behält nur das Wichtigste: "Wir haben versucht, Punkt X zu setzen -> gescheitert. Dann Punkt Y -> erfolgreich."
So bleibt der Agent fokussiert und lernt aus seinen Fehlern, ohne von der Flut an Informationen erdrückt zu werden.

4. Der Trainings-Trick: "Schwierigkeits-Boosting" (CBRL)

Das ist vielleicht der coolste Teil. Wie bringt man einen Schüler dazu, Olympiaden-Aufgaben zu lösen, ohne ihn zu überfordern?

Der alte Weg: Gib dem Schüler sofort die schwersten Aufgaben. Ergebnis: Er gibt auf, weil er alles falsch macht.
Der neue Weg (CBRL): Stell dir einen personalisierten Sporttrainer vor.
1. Der Trainer gibt dem Schüler erst leichte Übungen (z. B. "Zeichne eine Linie").
2. Sobald der Schüler das kann, macht der Trainer die nächste Übung ein bisschen schwerer.
3. Wenn der Schüler scheitert, macht der Trainer die Übung etwas leichter.
4. Wenn er erfolgreich ist, wird es sofort wieder etwas kniffliger.
Dieser Prozess nennt sich Complexity-Boosting Reinforcement Learning. Die KI generiert sich ihre eigenen Trainingsaufgaben und passt den Schwierigkeitsgrad automatisch an ihre aktuelle Leistung an. So lernt sie extrem effizient.

5. Das Ergebnis: Ein Goldmedaillengewinner mit wenig Aufwand

Das Ergebnis ist verblüffend:

Daten: Frühere Modelle (wie AlphaGeometry 2) mussten mit 300 Millionen Beispielen trainiert werden (wie ein Schüler, der 100 Jahre lang jeden Tag 24 Stunden lernt). InternGeometry brauchte nur 13.000 Beispiele (wie ein Schüler, der 2 Jahre lang jeden Tag 1 Stunde lernt). Das ist weniger als 0,004% der Datenmenge!
Leistung: InternGeometry löste 44 von 50 der schwierigsten Geometrie-Aufgaben der letzten 25 Jahre. Das ist besser als der Durchschnitt eines echten Goldmedaillengewinners bei der Olympiade.
Kreativität: Manchmal fand die KI sogar Lösungen, die Menschen noch nie gesehen haben – sie "erfand" neue geometrische Tricks, die in keinem Lehrbuch stehen.

Zusammenfassung

Statt wie ein sturer Roboter zu sein, der alles auswendig lernt, hat InternGeometry gelernt, wie ein menschlicher Forscher zu denken: Es probiert Dinge aus, scheitert, denkt nach, nutzt ein Werkzeug zur Überprüfung und passt seinen Lernplan ständig an. Es ist der Beweis, dass man für die schwierigsten mathematischen Aufgaben nicht unbedingt eine riesige Datenbank braucht, sondern einen cleveren Agenten, der weiß, wie man lernt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Lösung von geometrischen Problemen auf dem Niveau der Internationalen Mathematik-Olympiade (IMO) stellt eine enorme Herausforderung für Künstliche Intelligenz dar. Während Large Language Models (LLMs) in anderen mathematischen Domänen bereits Medaillen-Niveau erreichen, scheitern sie bei Geometrie oft an der Schwäche ihrer Heuristiken für Hilfskonstruktionen (auxiliary constructions).

Bestehende State-of-the-Art-Systeme wie AlphaGeometry 2 oder SeedGeometry sind „Expert-Modelle", die auf massiven Mengen synthetisierter Daten (Milliarden von Beispielen) und intensiven Suchalgorithmen basieren. Sie nutzen oft festgelegte Suchbäume und haben Schwierigkeiten, kreativ neue geometrische Konstruktionen zu finden, die nicht in den Trainingsdaten enthalten sind. Die zentrale Frage des Papers ist: Kann ein LLM-Agent durch Interaktion mit einem symbolischen Beweiser und fortschrittlichem Reinforcement Learning (RL) die Effizienz und Generalisierungsfähigkeit dieser Expertensysteme übertreffen, ohne deren enorme Datenmengen zu benötigen?

2. Methodik

Das Paper stellt InternGeometry vor, einen LLM-Agenten, der speziell für geometrische Beweise entwickelt wurde. Die Architektur basiert auf drei Hauptkomponenten:

A. Der Agent und die Interaktion (InternGeometry-DDAR)

Der Agent interagiert mit einer symbolischen Engine namens InternGeometry-DDAR (basierend auf dem Open-Source-System Newclid). Der Prozess folgt einem langen Zyklus (Long-Horizon Interaction):

Think: Der Agent führt eine „Slow Chain-of-Thought"-Analyse in natürlicher Sprache durch.
Action: Der Agent generiert strukturierte Aktionen in einer domänenspezifischen Sprache (DSL), z. B. das Hinzufügen eines Hilfspunkts oder das Vorschlagen eines Teilbeweises.
Feedback: Die Engine führt die Aktion aus und gibt Feedback zurück (Erfolg/Misserfolg, neue geometrische Eigenschaften).
Dynamic Memory: Da Beweise oft über 200 Interaktionsschritte dauern, verwendet der Agent ein dynamisches Gedächtnis-Management. Es komprimiert die Historie, behält jedoch kritische Aktionen und Ergebnisse bei, um den Kontext effizient zu halten und „Action Collapse" (Wiederholung gleicher Muster) zu verhindern.

B. Complexity-Boosting Reinforcement Learning (CBRL)

Um den Agenten effizient zu trainieren, wird ein neuartiges Curriculum-Learning-Verfahren eingeführt:

Cold Start: Zuerst wird das Modell (basierend auf InternThinker-32B) mit 7.000 formalisierten Beispielen überwacht feinabgestimmt (SFT).
Iteratives Training: Im RL-Phasen-Loop werden synthetische Probleme generiert, deren Schwierigkeit durch die Anzahl der erforderlichen Beweisschritte (DDAR proof steps) definiert wird.
Dynamische Anpassung: Das System passt die Schwierigkeit der Trainingsdaten ( $\kappa$ ) automatisch an die Leistung des Agenten an. Das Ziel ist es, die Daten so zu wählen, dass die durchschnittliche absolute Vorteilsspanne (Average Absolute Advantage) maximiert wird (theoretisch optimal bei einer Erfolgsrate von 50 %). Dies verhindert, dass der Agent an zu leichten Aufgaben stagniert oder an zu schweren Aufgaben scheitert.

C. Daten-Synthese-Pipeline

Anstatt auf manuell kuratierte Daten zu setzen, generiert das System dynamisch neue Geometrie-Probleme mit kontrollierter Komplexität. Es fügt Hilfskonstruktionen zu zufälligen Strukturen hinzu und filtert nur solche, die zu nicht-trivialen, lösbaren Problemen führen.

3. Wichtige Beiträge

Erster Medaillen-Level LLM-Agent für Geometrie: InternGeometry ist das erste System, das zeigt, dass ein reiner LLM-Agent (ohne massive Suchbäume wie bei AlphaGeometry) IMO-Probleme lösen kann.
Überwindung schwacher Heuristiken: Durch die Kombination aus langfristiger Interaktion (Trial-and-Error über hunderte Schritte) und symbolischer Verifikation kann der Agent kreative Hilfskonstruktionen finden, die menschlichen Experten oder statischen Modellen entgehen.
Extreme Dateneffizienz: Das Modell wurde mit nur 13.000 Trainingsbeispielen trainiert. Das entspricht 0,004 % der Datenmenge, die AlphaGeometry 2 benötigte (300 Millionen Beispiele).
CBRL-Framework: Die Einführung von Complexity-Boosting RL ermöglicht eine stabile Konvergenz auf hochkomplexen Aufgaben, indem die Schwierigkeit schrittweise an die wachsenden Fähigkeiten des Modells angepasst wird.
Kreativität: Der Agent entwickelt in einigen Fällen völlig neue Hilfskonstruktionen, die in menschlichen Lösungen nicht vorkommen (z. B. bei IMO 2018 P6).

4. Ergebnisse

Die Leistung wurde am IMO 50-Datensatz (Geometrie-Probleme von 2000 bis 2024) evaluiert:

Lösungsrate: InternGeometry löst 44 von 50 Problemen.
Vergleich:
- AlphaGeometry 2: 42/50
- SeedGeometry: 43/50
- Durchschnitt Gold-Medaillengewinner (IMO): 40,9 Punkte.
- InternGeometry übertrifft somit sowohl die aktuellen SOTA-Modelle als auch den Durchschnitt der menschlichen Gold-Medaillengewinner.
IMO 2025: Das Modell löste auch das Geometrie-Problem der IMO 2025.
Skalierbarkeit: Die Leistung steigt signifikant mit der Anzahl der Interaktionsschritte (bis zu 200 Schritte pro Problem). Eine Verlängerung der Trajektorie ist effektiver als reine Wiederholungssampling (Pass@K).
Ablationsstudien: Das Entfernen von Komponenten wie „Slow Thinking", „Context Compression" oder „Rejection Sampling" führte zu drastischen Leistungseinbußen (z. B. von 44/50 auf 20/50 ohne Context Compression).

5. Bedeutung und Fazit

Dieses Paper markiert einen Paradigmenwechsel in der automatisierten geometrischen Beweisführung. Es zeigt, dass LLM-Agenten mit langfristiger Planung und symbolischer Verifikation effizienter und leistungsfähiger sein können als spezialisierte Expertensysteme, die auf massiver Datenmenge und Suchbäumen basieren.

Effizienz: Die Reduktion des Trainingsdatensatzes um den Faktor 25.000 im Vergleich zu AlphaGeometry 2 macht das Training deutlich kostengünstiger und zugänglicher.
Generalisierung: Die Fähigkeit, neue Hilfskonstruktionen zu erfinden, die nicht in den Trainingsdaten enthalten waren, beweist ein echtes Verständnis geometrischer Prinzipien und nicht nur Memorization.
Zukunft: Die Methode legt nahe, dass ähnliche Agenten-Architekturen (LLM + Tool + RL mit Curriculum) auch für andere komplexe Domänen mit schwachen Heuristiken anwendbar sind.

Zusammenfassend demonstriert InternGeometry, dass durch geschickte Kombination von LLMs, symbolischen Engines und adaptivem Reinforcement Learning „Olympia-Level"-Leistungen mit minimalem Datenbedarf erreichbar sind.