A Neuro-Symbolic Approach for Reliable Proof Generation with LLMs: A Case Study in Euclidean Geometry

Dit paper introduceert een neuro-symbolische aanpak die grote taalmodellen combineert met analoge probleemoplossing en een formele verificateur om de betrouwbaarheid en nauwkeurigheid van het genereren van wiskundige bewijzen in de euclidische meetkunde aanzienlijk te verbeteren.

Oren Sultan, Eitan Stern, Dafna Shahaf

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, creatieve schrijver hebt die alles over de wereld weet. Hij kan prachtige verhalen vertellen, gedichten schrijven en zelfs complexe ideeën uitleggen. Maar als je hem vraagt om een wiskundig bewijs te schrijven – een strikt logisch stappenplan dat 100% foutloos moet zijn – dan loopt hij vast. Hij begint te gissen, maakt logische fouten en komt met antwoorden die "klinken alsof ze waar zijn", maar die in de wiskunde niet kloppen.

Dit is precies het probleem dat de auteurs van dit paper proberen op te lossen. Ze hebben een slimme manier bedacht om deze "schrijver" (een Large Language Model of LLM) te helpen met wiskunde, door hem te koppelen aan een strenge controleur en een slimme bibliothecaris.

Hier is hoe hun systeem werkt, vertaald naar alledaagse taal:

1. De Probleemstelling: De "Gokker" vs. De "Logica"

Grote taalmodellen (zoals de AI die dit antwoord voor je schrijft) werken op basis van patronen. Ze raden het volgende woord op basis van wat ze eerder hebben gelezen. In een verhaal is dat geweldig. In wiskunde is het gevaarlijk, want daar mag er geen enkele fout zijn. Een bewijs moet logisch waterdicht zijn, niet alleen maar "plausibel" klinken.

2. De Oplossing: Een Neuro-Symbolische "Drie-Handen"

De auteurs hebben een systeem bedacht dat drie krachten combineert:

A. De Slimme Bibliothecaris (Analogieën)

Stel je voor dat je een lastig meetkundig probleem moet oplossen. In plaats van blind te gokken, roept de AI een slimme bibliothecaris aan.

  • Wat doet hij? Hij kijkt naar jouw probleem en zoekt in een enorme bibliotheek naar andere problemen die er structuurtechnisch op lijken.
  • Het voorbeeld: Als jij een probleem hebt over een driehoek met een hoek van 40 graden, zoekt hij een ander probleem met een driehoek en een hoek van 30 graden, maar met exact dezelfde logische opbouw.
  • Het effect: De AI zegt: "Ah! Ik heb dit al eerder gezien! In dat andere geval gebruikten ze deze specifieke regels. Laten we die regels ook hier proberen." Dit helpt de AI om de juiste "startpositie" te kiezen in plaats van te raden.

B. De Strenge Controleur (De Verifier)

Nu heeft de AI een bewijs geschreven. Maar is het goed?

  • De rol: Hier komt een strenge wiskundige controleur (een computerprogramma, geen mens) in beeld. Deze controleur kijkt niet naar de mooie zinnen, maar checkt elke stap als een logische puzzel.
  • Het feedback-loop: Als de AI een fout maakt (bijvoorbeeld: "Ik gebruik deze regel, maar de voorwaarden zijn nog niet bewezen"), zegt de controleur: "Stop! Je bent te snel gegaan. Je hebt stap 2 nog niet bewezen, dus stap 3 mag niet."
  • De cyclus: De AI krijgt dit bericht, past zijn bewijs aan en probeert het opnieuw. Dit gaat door totdat de controleur zegt: "Goed, dit klopt."

C. De "Neuro-Symbolische" Mix

  • Neuro: De creatieve, mensachtige AI die de bewijzen schrijft.
  • Symbolisch: De strenge, logische controleur die de feiten checkt.
    Samen vormen ze een team dat sterker is dan de som der delen.

3. Wat was het resultaat?

De auteurs hebben dit getest op honderden meetkundeproblemen (zoals die je op het SAT-examen in de VS ziet).

  • Zonder hulp: De AI haalde het antwoord vaak niet of maakte veel fouten in de logica.
  • Met hulp: Toen ze de "bibliothecaris" en de "controleur" inschakelden, steeg het succespercentage enorm.
    • Bij de slimste modellen (zoals OpenAI's o1) ging het succes van ongeveer 10% naar 80%.
    • Bij andere modellen zag men vergelijkbare enorme sprongen.

4. Waarom is dit belangrijk?

Stel je voor dat je een AI wilt gebruiken om medicijnen te ontwikkelen, bruggen te ontwerpen of veiligheidssoftware te schrijven. Je kunt het niet hebben dat de AI "misschien" het juiste antwoord geeft. Het moet 100% zeker zijn.

Dit paper laat zien dat we AI's niet hoeven te "herschrijven" om ze slim te maken. We hoeven ze alleen maar te koppelen aan:

  1. Voorbeelden van soortgelijke problemen (om de weg te wijzen).
  2. Een controlemechanisme dat de feiten checkt (om fouten te corrigeren).

Samenvattend in één zin:

Het is alsof je een creatieve student (de AI) laat studeren voor een examen door hem eerst te laten kijken naar de oplossingen van vergelijkbare oude examens (de analogieën), en hem vervolgens elke stap te laten controleren door een strenge leraar (de verifier) totdat het antwoord perfect is.

Dit maakt AI niet alleen slimmer, maar vooral betrouwbaarder voor taken waar fouten geen optie zijn.