Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een wiskundepuzzel moet oplossen, zoals die op de Internationale Wiskunde Olympiade (IMO). Deze puzzels zijn berucht moeilijk. Ze vereisen niet alleen dat je de regels kent, maar ook dat je creatieve "hulplijnen" trekt die je niet direct ziet.

Vroeger waren computers hier slecht in. Ze konden de regels wel, maar ze misten de "flits van genialiteit" om die creatieve lijnen te bedenken. De beste systemen (zoals AlphaGeometry 2) waren als supercomputers die miljoenen keer probeerden, maar ze hadden enorme hoeveelheden data nodig om te leren.

Dit nieuwe papier introduceert InternGeometry. Dit is geen simpele rekenmachine, maar een AI-agent die werkt als een slimme, doorzettingsvermogen hebbende wiskundestudent. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De Agent: Een Detective met een Onuitputtelijk Notitieblok

Stel je een detective voor die een moordzaak oplost.

Het probleem: De zaak is complex. De detective moet niet alleen kijken naar wat er is, maar ook bedenken: "Wat als ik hier een extra getuige toevoeg?" of "Wat als ik deze twee lijnen verleng?"
De oude manier: De oude AI's probeerden willekeurig duizenden dingen en hoopten dat ze iets raakten.
De nieuwe manier (InternGeometry): Deze AI denkt eerst na (in mensentaal), bedenkt een idee, en zegt dan tegen een strenge "rekenmachine" (een symbolische engine): "Kijk, als ik dit punt hier zet, klopt het dan?"
- Als de rekenmachine zegt: "Ja, dat klopt!", houdt de AI het idee vast.
- Als de rekenmachine zegt: "Nee, dat werkt niet", denkt de AI: "Oké, dat was een slecht idee. Waarom? Wat heb ik geleerd?" en probeert het opnieuw.

2. Het geheugen: De "Gouden Notitie"

Het grootste probleem bij deze puzzels is dat ze zo lang zijn dat je het vergeten bent wat je 50 stappen geleden hebt geprobeerd.

De oplossing: InternGeometry heeft een dynamisch geheugen. Stel je voor dat de detective een notitieblok heeft. Na elke poging schrijft hij niet alles letterlijk over, maar vat hij samen: "Ik heb geprobeerd lijn X te trekken, dat werkte niet. Maar ik heb wel ontdekt dat hoek A gelijk is aan hoek B."
Hierdoor kan de agent meer dan 200 keer met de rekenmachine praten over één probleem, zonder de draad kwijt te raken. Hij bouwt stap voor stap een "trap" van kennis op om bij het antwoord te komen.

3. De Leermethode: "Complexiteit-Boosting" (Van Baby tot Olympiër)

Hoe leer je iemand wiskunde? Je begint niet met de moeilijkste vraag van de dag. Je begint met iets simpels.

De oude fout: Als je een student direct de zwaarste IMO-problemen geeft, geeft hij op. Als je alleen maar simpele sommen geeft, wordt hij niet slim genoeg voor de echte wedstrijd.
De nieuwe methode (CBRL): De AI krijgt een geautomatiseerde leraar.
1. De AI begint met simpele geometrische puzzels.
2. Zodra hij die goed kan, maakt de computer automatisch iets moeilijkere puzzels.
3. Zodra hij die kan, maakt hij nog moeilijkere.
- Het is alsof je een video-game speelt waarbij het niveau automatisch omhoog gaat zodra je te makkelijk wint. Zo wordt de AI geleidelijk aan een expert, zonder dat mensen handmatig duizenden voorbeelden hoeven te maken.

4. Het Resultaat: Een Gouden Medaille met een Klap

De resultaten zijn verbazingwekkend:

Data-efficiëntie: De vorige top-systemen hadden 300 miljoen voorbeelden nodig om te leren. InternGeometry deed het met slechts 13.000. Dat is 0,004% van de data! Het is alsof je een taal leert door 100 zinnen te lezen in plaats van de hele bibliotheek.
Score: De AI loste 44 van de 50 moeilijkste meetkundige problemen op uit de afgelopen 25 jaar. Dat is meer dan het gemiddelde van een gouden medaille-winnaar bij de Olympiade (die gemiddeld 40,9 punten haalt).
Creativiteit: Soms bedacht de AI een oplossing die zelfs de menselijke winnaars niet zagen. Hij vond nieuwe, elegante manieren om de puzzel op te lossen die niet in de standaardboeken staan.

Samenvattend

InternGeometry is een AI die niet alleen "rekenen" kan, maar ook nadenken, fouten maken, leren van die fouten en creatieve oplossingen bedenken. Door slim te leren (van makkelijk naar moeilijk) en slim te onthouden (via een dynamisch geheugen), heeft deze AI bewezen dat een "algemeen" taalmodel (LLM) net zo goed kan zijn als de gespecialiseerde, zware systemen van vroeger, maar dan veel slimmer en efficiënter.

Het is de eerste keer dat een AI-agent de meetkunde op het allerhoogste niveau onder de knie heeft, en dat met een fractie van de rekenkracht en data die daarvoor nodig was.

Each language version is independently generated for its own context, not a direct translation.

Titel: Het bereiken van Olympiade-niveau meetkunde met Large Language Model Agents via Complexiteits-Versterkende Versterkende Leer (CBRL)

1. Het Probleem

Hoewel Large Language Model (LLM) agents sterke vaardigheden hebben getoond in het oplossen van wiskundige problemen (zoals op het niveau van de Internationale Wiskunde Olympiade of IMO), blijft het oplossen van meetkundige problemen een uitdaging.

Zwakke Heuristieken: Meetkundige bewijzen vereisen vaak creatieve "hulpconstructies" (zoals het toevoegen van lijnen of punten die niet in de oorspronkelijke opgave staan). Deze constructies hebben zwakke heuristieken en vereisen veel proef- en foutwerk.
Afhankelijkheid van Expertmodellen: De huidige state-of-the-art systemen (zoals AlphaGeometry 2) zijn "expert-modellen" die afhankelijk zijn van massale synthetische datasets (honderden miljoenen voorbeelden) en uitgebreide zoekalgoritmen om bewijzen te vinden. Ze missen vaak de generalisatie en efficiëntie van LLM-agenten.
Beperkingen van Huidige Agents: Bestaande LLM-agenten falen vaak bij lange bewijsketens en hebben moeite met het handhaven van een coherent geheugen tijdens het iteratief voorstellen en verifiëren van constructies.

2. Methodologie

De auteurs introduceren InternGeometry, een LLM-agent die is ontworpen om olympiade-niveau meetkundige problemen op te lossen door middel van langdurige interactie met een symbolische engine.

A. InternGeometry-DDAR (Het Omgevingstool)

Gebaseerd op het open-source systeem Newclid, maar uitgebreid tot InternGeometry-DDAR.
Dit systeem bevat een rijke bibliotheek met meetkundige theorema's en ondersteunt complexe constructies.
Het kan punten globaal optimaliseren om aan meerdere constraints tegelijk te voldoen (niet alleen punt-voor-punt) en behandelt "dubbele punten" (punten met dezelfde coördinaten maar verschillende namen) als identiek.

B. De Agent Architectuur
De agent werkt in een cyclus van Think-Act-Feedback:

Redeneren (Think): De agent gebruikt natuurlijke taal om strategieën te bedenken.
Actie (Action): De agent voert acties uit in een domeinspecifieke taal (DSL):
- <build>: Het probleem initialiseren.
- <add>: Hulpconstructies toevoegen.
- <propose>: Sub-doelen of stellingen voorstellen om te bewijzen.
Feedback: De symbolische engine voert de actie uit en geeft feedback (succes/falen).
Dynamisch Geheugen: Om de context van meer dan 200 interactiestappen te beheren, gebruikt de agent een dynamisch geheugenmechanisme. Dit comprimeert de geschiedenis door alleen cruciale acties en resultaten te behouden, waardoor de agent niet verdwaalt in een te lange context.
Rejection Sampling: Om "actie-inzakking" (herhaling van dezelfde fouten) te voorkomen, wordt een regelgebaseerde filter toegepast die herhaalde of ongeldige acties verwijdert tijdens het generatieproces.

C. Complexiteits-Versterkende Versterkende Leer (CBRL)
Om de agent efficiënt te trainen zonder enorme datasets, introduceren de auteurs Complexity-Boosting Reinforcement Learning (CBRL):

Curriculum Learning: In plaats van een statische dataset, wordt de moeilijkheidsgraad van de trainingsdata dynamisch aangepast.
Complexiteitsmeting: De moeilijkheid wordt gemeten aan de hand van het aantal bewijsstappen dat de DDAR-engine nodig heeft.
Iteratief Proces:
1. De agent wordt getraind op data met een bepaalde complexiteit ( $\kappa$ ).
2. Op basis van de beloningen (rewards) wordt de gemiddelde complexiteit van de volgende dataset aangepast.
3. Doel: De complexiteit zo instellen dat de agent een succeskans van ongeveer 50% heeft (niet te makkelijk, niet te moeilijk), wat leidt tot de maximale leerstroom (maximale absolute voordeel).
Data Synthese: Een pipeline genereert automatisch meetkundige problemen met specifieke moeilijkheidsgraden, waardoor slechts 13.000 trainingsvoorbeelden nodig zijn (vergeleken met 300 miljoen bij AlphaGeometry 2).

3. Belangrijkste Bijdragen

Eerste Medalist-Level LLM Agent voor Meetkunde: InternGeometry is de eerste LLM-agent die olympiade-niveau meetkunde oplost zonder afhankelijk te zijn van een enorme synthetische dataset of een gespecialiseerd zoekmodel.
Dynamisch Geheugen voor Lange Horizonten: Het succesvol implementeren van een mechanisme dat meer dan 200 interactiestappen per probleem mogelijk maakt, essentieel voor het vinden van complexe hulpconstructies.
CBRL Framework: Een nieuwe aanpak voor curriculum learning die de moeilijkheidsgraad van synthetische data automatisch optimaliseert voor de huidige prestaties van het model, wat leidt tot snellere convergentie en betere generalisatie.
Creativiteit: De agent is in staat om nieuwe hulpconstructies te bedenken die niet voorkomen in menselijke oplossingen, wat wijst op echte creatieve redeneervermogens in plaats van alleen imitatie.

4. Resultaten

Prestaties op IMO 50: InternGeometry lost 44 van de 50 meetkundige problemen op uit de IMO-periode 2000-2024.
- Dit is een score van 44/50, wat hoger is dan het gemiddelde gouden medaille-score (40,9) en ook hoger dan AlphaGeometry 2 (42) en SeedGeometry (43) (op basis van de rapportage in het paper, waarbij InternGeometry ook IMO 2025 P2 oplost).
Data-efficiëntie: Het model is getraind op slechts 13.000 voorbeelden.
- Dit is 0,004% van de data die AlphaGeometry 2 gebruikt en 0,006% van SeedGeometry.
Ablatie Studies:
- Het verwijderen van "slow thinking" (gedetailleerde redenering) of het dynamische geheugen leidt tot een drastische daling in prestaties (van 44/50 naar 20-35/50).
- Het trainen alleen op makkelijke of alleen op moeilijke data werkt slecht; de CBRL-curve is cruciaal voor succes.
Creatieve Oplossingen: In een casestudie (IMO 2018 P6) loste de agent het probleem op met een elegante meetkundige constructie die afweek van de menselijke oplossing (die vaak trigonometrie of complexe getallen gebruikte).

5. Betekenis en Impact

Paradigmaverschuiving: Het paper toont aan dat LLM-agenten, wanneer ze worden gecombineerd met symbolische engines en goed ontworpen leerstrategieën (zoals CBRL), superieur kunnen zijn aan traditionele expert-modellen voor complexe redeneertaken.
Efficiëntie: Het bewijst dat je geen "brute force" met miljarden data nodig hebt om expert-niveau vaardigheden te bereiken; in plaats daarvan is kwaliteit van interactie en curriculum learning cruciaal.
Toekomstperspectief: De methode opent de deur voor het oplossen van andere complexe wetenschappelijke problemen waar creatieve constructies en lange bewijsketens nodig zijn, en benadrukt de potentie van "test-time scaling" (meer redeneertijd in plaats van meer trainingdata).

Kortom, InternGeometry markeert een doorbraak in het automatiseren van wiskundig redeneren door de combinatie van LLMs, symbolische verificatie en een slimme, adaptieve leerstrategie.

Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning

1. De Agent: Een Detective met een Onuitputtelijk Notitieblok

2. Het geheugen: De "Gouden Notitie"

3. De Leermethode: "Complexiteit-Boosting" (Van Baby tot Olympiër)

4. Het Resultaat: Een Gouden Medaille met een Klap

Samenvattend

Titel: Het bereiken van Olympiade-niveau meetkunde met Large Language Model Agents via Complexiteits-Versterkende Versterkende Leer (CBRL)

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation