Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning

Die Arbeit stellt InternGeometry vor, einen auf einem 32-Milliarden-Parameter-LLM basierenden Agenten, der durch einen iterativen Verifikationszyklus mit einem symbolischen Motor und eine neue Complexity-Boosting-Reinforcement-Learning-Methode (CBRL) 44 von 50 IMO-Geometrieaufgaben löst und dabei mit nur 13.000 Trainingsbeispielen die Leistung von AlphaGeometry 2 bei einem Bruchteil des Datenbedarfs übertrifft.

Haiteng Zhao, Junhao Shen, Yiming Zhang, Songyang Gao, Kuikun Liu, Tianyou Ma, Fan Zheng, Dahua Lin, Wenwei Zhang, Kai Chen

Veröffentlicht 2026-03-06
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du versuchst, ein sehr schwieriges geometrisches Rätsel zu lösen, wie sie in der Internationalen Mathematik-Olympiade (IMO) vorkommen. Diese Rätsel sind wie verschlungene Labyrinthe, bei denen du nicht nur die Wände (die gegebenen Regeln) sehen musst, sondern auch unsichtbare Türen (Hilfslinien) errichten musst, um den Weg zum Ziel zu finden.

Bisher waren Computer bei solchen Aufgaben wie ein sturer Schüler: Sie haben riesige Mengen an Übungsaufgaben auswendig gelernt und dann versucht, durch blindes Raten und Suchen die Lösung zu finden. Das funktionierte, aber es war extrem ineffizient – wie wenn man eine Bibliothek durchsucht, indem man jedes einzelne Buch aufschlägt, statt einen klugen Index zu benutzen.

Die Forscher um InternGeometry haben nun einen neuen Ansatz entwickelt, der wie ein genialer menschlicher Detektiv funktioniert. Hier ist die Erklärung, wie das funktioniert, einfach und mit Analogien:

1. Der neue Detektiv: InternGeometry

Stell dir InternGeometry nicht als einen starren Rechner vor, sondern als einen neugierigen Studenten, der an einer Tafel steht.

  • Das Problem: Frühere KI-Modelle waren gut darin, bekannte Muster zu erkennen, aber sie scheiterten oft, wenn sie eine völlig neue, kreative Hilfslinie zeichnen mussten. Es fehlte ihnen an "Bauchgefühl".
  • Die Lösung: InternGeometry denkt nicht nur in einem Durchgang. Es denkt, macht einen Vorschlag, prüft ihn, scheitert vielleicht, denkt nach und versucht es erneut. Es ist wie ein Architekt, der erst ein Haus zeichnet, dann merkt: "Moment, das Fundament hält nicht", löscht es, zeichnet eine neue Wand und prüft wieder.

2. Der Werkzeugkasten: Das "Symbolische Gehirn"

Der KI-Agent hat einen super-intelligenten Assistenten an seiner Seite, den wir InternGeometry-DDAR nennen können.

  • Stell dir das wie einen perfekten Mathematiklehrer vor, der niemals lügt und sofort sagt: "Hey, deine Idee für diese Linie ist falsch, das ergibt keinen Sinn."
  • Der KI-Agent (der "Denker") schlägt eine Idee vor (z. B. "Ich zeichne hier einen Kreis"). Der Assistent (das "Werkzeug") prüft das sofort mathematisch. Wenn es funktioniert, wird die Linie festgehalten. Wenn nicht, sagt der Assistent: "Nein, das geht nicht."
  • Das Besondere: Der Agent kann diesen Prozess über 200 Mal pro Aufgabe wiederholen! Frühere Modelle haben oft schon nach wenigen Versuchen aufgegeben.

3. Das Gedächtnis: Der "Notizblock"

Da der Agent so oft hin und her denkt, würde er sonst den Faden verlieren (wie jemand, der 200 Schritte in einem Labyrinth macht und vergisst, wo er angefangen hat).

  • Hier kommt das dynamische Gedächtnis ins Spiel. Es fasst die langen Gespräche mit dem Assistenten zusammen. Es behält nur das Wichtigste: "Wir haben versucht, Punkt X zu setzen -> gescheitert. Dann Punkt Y -> erfolgreich."
  • So bleibt der Agent fokussiert und lernt aus seinen Fehlern, ohne von der Flut an Informationen erdrückt zu werden.

4. Der Trainings-Trick: "Schwierigkeits-Boosting" (CBRL)

Das ist vielleicht der coolste Teil. Wie bringt man einen Schüler dazu, Olympiaden-Aufgaben zu lösen, ohne ihn zu überfordern?

  • Der alte Weg: Gib dem Schüler sofort die schwersten Aufgaben. Ergebnis: Er gibt auf, weil er alles falsch macht.
  • Der neue Weg (CBRL): Stell dir einen personalisierten Sporttrainer vor.
    1. Der Trainer gibt dem Schüler erst leichte Übungen (z. B. "Zeichne eine Linie").
    2. Sobald der Schüler das kann, macht der Trainer die nächste Übung ein bisschen schwerer.
    3. Wenn der Schüler scheitert, macht der Trainer die Übung etwas leichter.
    4. Wenn er erfolgreich ist, wird es sofort wieder etwas kniffliger.
  • Dieser Prozess nennt sich Complexity-Boosting Reinforcement Learning. Die KI generiert sich ihre eigenen Trainingsaufgaben und passt den Schwierigkeitsgrad automatisch an ihre aktuelle Leistung an. So lernt sie extrem effizient.

5. Das Ergebnis: Ein Goldmedaillengewinner mit wenig Aufwand

Das Ergebnis ist verblüffend:

  • Daten: Frühere Modelle (wie AlphaGeometry 2) mussten mit 300 Millionen Beispielen trainiert werden (wie ein Schüler, der 100 Jahre lang jeden Tag 24 Stunden lernt). InternGeometry brauchte nur 13.000 Beispiele (wie ein Schüler, der 2 Jahre lang jeden Tag 1 Stunde lernt). Das ist weniger als 0,004% der Datenmenge!
  • Leistung: InternGeometry löste 44 von 50 der schwierigsten Geometrie-Aufgaben der letzten 25 Jahre. Das ist besser als der Durchschnitt eines echten Goldmedaillengewinners bei der Olympiade.
  • Kreativität: Manchmal fand die KI sogar Lösungen, die Menschen noch nie gesehen haben – sie "erfand" neue geometrische Tricks, die in keinem Lehrbuch stehen.

Zusammenfassung

Statt wie ein sturer Roboter zu sein, der alles auswendig lernt, hat InternGeometry gelernt, wie ein menschlicher Forscher zu denken: Es probiert Dinge aus, scheitert, denkt nach, nutzt ein Werkzeug zur Überprüfung und passt seinen Lernplan ständig an. Es ist der Beweis, dass man für die schwierigsten mathematischen Aufgaben nicht unbedingt eine riesige Datenbank braucht, sondern einen cleveren Agenten, der weiß, wie man lernt.