Synthesizing Multimodal Geometry Datasets from Scratch and Enabling Visual Alignment via Plotting Code

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een wiskundeleraar bent die een nieuw, super-challengend examen wil maken voor zijn leerlingen. Maar er is een probleem: de huidige "leermachines" (kunstmatige intelligentie) zijn goed in het lezen van tekst, maar ze struikelen over complexe meetkunde. Ze kunnen een tekening zien, maar ze begrijpen niet echt hoe de lijnen en hoeken met elkaar verbonden zijn. Het is alsof ze naar een plattegrond kijken en denken: "Oh, dat is een straat," zonder te begrijpen dat die straat een haakje maakt of dat twee wegen precies evenwijdig lopen.

De auteurs van dit paper, Haobo Lin en zijn team, hebben een oplossing bedacht die ze GeoCode noemen. Laten we uitleggen hoe ze dit hebben gedaan, met een paar leuke vergelijkingen.

1. Het Probleem: De "Gokker" vs. De "Architect"

Huidige AI-modellen proberen meetkunde-opdrachten op te lossen door te gokken op basis van woorden. Ze lezen: "Dit is een driehoek" en "deze lijn is lang," en hopen dat het antwoord klopt. Ze zien de tekening, maar ze "voelen" de structuur er niet echt. Ze missen de diepe connectie tussen wat ze zien (de afbeelding) en wat ze weten (de wiskundige regels).

2. De Oplossing: Bouwen van een "Perfecte Werkplaats"

In plaats van te wachten tot AI-modellen beter worden, hebben de auteurs een fabriek gebouwd om perfecte meetkunde-problemen te maken. Ze doen dit in drie stappen, alsof ze een huis bouwen:

Stap 1: Het Blauwdruk (De Symbolische Zaadjes)
Eerst maken ze een puur wiskundig skelet. Geen cijfers, geen tekeningen, alleen regels. Bijvoorbeeld: "Punt A staat haaks op lijn B." Ze gebruiken slimme software om te checken of deze regels logisch kloppen en of er een oplossing mogelijk is. Het is alsof je eerst de fundering van een huis controleert voordat je ook maar één baksteen legt.
Stap 2: Het Invullen (De Bouwvakkers)
Vervolgens nemen ze dat skelet en vullen het in met echte cijfers en een verhaal. Een AI vertaalt de droge regels naar een vraag die een leerling zou krijgen: "In driehoek ABC is hoek A 90 graden..." Maar hier is de truc: ze laten een andere AI (de "Coder") direct de bouwcode schrijven. Deze code zegt precies: "Teken punt A op coördinaat (0,0), teken een lijn naar (3,4)."
Stap 3: De Controle (De Bouwinspecteur)
Voordat het probleem klaar is, wordt het streng gecontroleerd.
1. De Rekenmachine: De computer voert de code uit en tekent de figuur.
2. De Check: Kijkt de computer: "Klopt de tekening met de tekst? Is de hoek echt 90 graden? Is het antwoord dat de AI berekende, ook echt correct?"
  Als er ook maar één foutje is (bijvoorbeeld als de tekening er anders uitziet dan de tekst zegt), wordt het probleem weggegooid. Zo houden ze alleen de 100% perfecte problemen over.

3. De Grote Innovatie: Leren door "Code" te Voorspellen

Dit is het meest creatieve deel. Normaal gesproken leren AI-modellen door te kijken naar een tekening en het antwoord te raden. De auteurs zeggen: "Nee, laten we ze iets anders laten doen."

Ze laten de AI de bouwcode voorspellen voordat ze het antwoord geven.

De Analogie: Stel je voor dat je een auto ziet. Een normaal model zegt: "Dat is een snelle auto." Het nieuwe model moet eerst zeggen: "Oké, ik zie een wiel op positie X, een wiel op positie Y, en een chassis dat ze verbindt."
Door de AI te dwingen om deze structuurcode (de "plotting code") te schrijven, dwingen ze de machine om de tekening echt te begrijpen. Ze moeten de onderliggende regels zien, niet alleen naar de oppervlakte kijken. Het is alsof je iemand niet alleen laat raden wat er in een gesloten doos zit, maar ze laat de doos eerst openen en de inhoud stap voor stap beschrijven voordat ze het antwoord geven.

4. Het Resultaat: Een Super-Leraar

Ze hebben een dataset gemaakt genaamd GeoCode met 18.000 van deze perfecte, complexe problemen. Toen ze AI-modellen trainden met deze dataset, gebeurde er iets magisch:

De modellen werden niet alleen beter in het beantwoorden van vragen.
Ze werden ook veel beter in het zien van de structuur in de tekeningen.
Ze presteerden beter op andere, bestaande meetkunde-toetsen, zelfs op vragen die ze nog nooit hadden gezien.

Samenvatting in één zin

De auteurs hebben een fabriek gebouwd die meetkunde-problemen maakt waarbij de tekst, de tekening en de wiskundige regels perfect op elkaar aansluiten, en ze hebben AI-modellen getraind door ze te dwingen om de "bouwplaat" van die tekeningen te schrijven, waardoor ze eindelijk echt gaan begrijpen hoe meetkunde werkt in plaats van alleen maar te gokken.

Het is een stap van "gokken op de uitkomst" naar "bouwen aan inzicht".

Synthesizing Multimodal Geometry Datasets from Scratch and Enabling Visual Alignment via Plotting Code

1. Het Probleem: De "Gokker" vs. De "Architect"

2. De Oplossing: Bouwen van een "Perfecte Werkplaats"

3. De Grote Innovatie: Leren door "Code" te Voorspellen

4. Het Resultaat: Een Super-Leraar

Samenvatting in één zin

Probleemstelling

Methodologie

1. Generatiepijplijn (De drie stadia)

2. Plotting Code als Expliciete Uitlijning

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Synthesizing Multimodal Geometry Datasets from Scratch and Enabling Visual Alignment via Plotting Code

1. Het Probleem: De "Gokker" vs. De "Architect"

2. De Oplossing: Bouwen van een "Perfecte Werkplaats"

3. De Grote Innovatie: Leren door "Code" te Voorspellen

4. Het Resultaat: Een Super-Leraar

Samenvatting in één zin

Probleemstelling

Methodologie

1. Generatiepijplijn (De drie stadia)

2. Plotting Code als Expliciete Uitlijning

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems