GAR: Generative Adversarial Reinforcement Learning for Formal Theorem Proving

Dit paper introduceert GAR, een generatief-adversariaal versterkingsleerframework dat een proeflezer en probleemgenerator gezamenlijk in een adverterende cyclus traint om de trainingsdoeltreffendheid te verhogen en de prestaties bij het formele bewijzen van geavanceerde theorema's te verbeteren.

Ruida Wang, Jiarui Yao, Rui Pan, Shizhe Diao, Tong Zhang

Gepubliceerd 2026-03-03
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een wiskundig genie wilt trainen om complexe theorema's (wiskundige stellingen) te bewijzen. In het verleden deden we dit door het genie duizenden voorbeelden te geven van problemen die al opgelost waren. Maar er was een groot probleem: de problemen bleven altijd even moeilijk. Als het genie al heel goed was, kreeg het nog steeds makkelijke sommen, wat saai en inefficiënt was. Als het nog niet zo ver was, kreeg het onmogelijke problemen en gaf het de moed op.

Deze paper introduceert GAR (Generative Adversarial Reinforcement Learning), een slimme nieuwe manier om wiskundige AI's te trainen. Je kunt het zien als een tandem-trainingssessie tussen een trainer en een atleet, waarbij ze elkaar voortdurend uitdagen.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Vaste Lijst"

Stel je voor dat een atleet traint voor de Olympische Spelen. Als zijn trainer hem elke dag dezelfde 100 meter-loop laat doen, wordt hij nooit sneller. Als de trainer hem direct de marathon laat lopen, valt hij uit.
Bij het bewijzen van wiskundige stellingen (in een taal genaamd Lean) deden AI's het vaak zo: ze kregen een vaste lijst met problemen. Als ze die lijst "uit" hadden, stopte de training. Ze leerden niet om complexere problemen aan te pakken.

2. De Oplossing: GAR (De "Twee-handen" Methode)

GAR introduceert twee spelers die tegen elkaar spelen, maar samen werken:

  • De Oplosser (De Prover): Dit is de AI die de wiskundige problemen moet oplossen.
  • De Trainer (De Statement Fuser): Dit is een andere AI die nieuwe problemen bedenkt.

Hoe werkt de cyclus?

  1. De Trainer maakt een nieuwe uitdaging: De Trainer pakt twee bestaande, oplosbare problemen en "plakt" ze samen tot één nieuw, moeilijker probleem. Het is alsof je een puzzel van 500 stukjes en een puzzel van 500 stukjes neemt en ze samenvoegt tot één grote puzzel van 1000 stukjes.
  2. De Oplosser probeert het op te lossen: De Oplosser krijgt dit nieuwe, zwaardere probleem.
  3. De Beloning (Het Adversariale Spel):
    • Als de Oplosser het probleem oplost, krijgt hij een beloning. De Trainer krijgt een kleine straf (want hij wilde het moeilijk maken).
    • Als de Oplosser het niet oplost, krijgt de Trainer een beloning (want hij slaagde erin het probleem te moeilijk te maken), mits het probleem oplosbaar was.
    • Als het probleem onoplosbaar is, krijgt niemand een beloning.

3. De Magie: Een "Verborgen Leerplan"

Dit systeem creëert wat de auteurs een "impliciet leerplan" noemen.

  • In het begin maakt de Trainer simpele, samengevoegde problemen. De Oplosser slaagt er vaak in.
  • Omdat de Oplosser steeds beter wordt, moet de Trainer steeds moeilijkere problemen bedenken om nog steeds een beloning te krijgen.
  • De Oplosser moet zich dus voortdurend aanpassen en leren.

Het is alsof je een video-game speelt waarbij het spel automatisch het niveau verhoogt zodra jij beter wordt. Je krijgt nooit te makkelijke levels (saai) en nooit onmogelijke levels (frustrerend), maar altijd het perfecte niveau dat net iets boven je huidige vaardigheid ligt.

4. Het Resultaat: Slimmer en Sneller

De paper laat zien dat AI's die met GAR zijn getraind (zoals DeepSeek-Prover en Goedel-Prover) veel beter worden dan hun voorgangers.

  • Ze kunnen moeilijkere theorema's oplossen.
  • Ze verspillen geen tijd aan makkelijke problemen.
  • Ze leren niet alleen oplossen, maar ook nadenken over hoe een probleem gestructureerd moet zijn.

Samenvattend in één zin:

GAR is een slimme trainingssessie waarbij een AI-trainer voortdurend nieuwe, net even te moeilijke puzzels bedenkt voor een AI-oplosser, zodat ze samen groeien tot echte wiskundige meesters, zonder dat iemand de moed opgeeft of saai wordt.

Het is een stap voorwaarts naar AI's die niet alleen rekenen, maar echt redeneren en complexe ideeën kunnen doorgronden.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →