FormalProofBench: Can Models Write Graduate Level Math Proofs That Are Formally Verified?

Dit artikel presenteert FormalProofBench, een privé-benchmark die de prestaties van geavanceerde AI-modellen evalueert bij het genereren van formeel geverifieerde wiskundige bewijzen op afgestudeerdenniveau in Lean 4, waarbij de beste modellen een nauwkeurigheid van 33,5% bereiken.

Nikil Ravi, Kexing Ying, Vasilii Nesterov, Rayan Krishnan, Elif Uskuplu, Bingyu Xia, Janitha Aswedige, Langston Nashold

Gepubliceerd 2026-03-31
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat wiskundigen al eeuwenlang in een enorme bibliotheek werken. Soms schrijven ze een bewijs op een kladblaadje (in gewone taal) en zeggen: "Kijk, dit klopt wel." Maar in die wereld van de geavanceerde wiskunde is "het klinkt wel logisch" niet genoeg. Een klein foutje, een gemiste uitzondering of een onbestaande regel kan het hele bewijs doen instorten.

Tot nu toe moesten mensen die bewijzen handmatig nakijken, wat traag is en fouten kan missen. Maar nu komen er slimme computers (AI) die kunnen "denken". De vraag is: kunnen deze computers niet alleen een verhaal schrijven dat klinkt als een wiskundig bewijs, maar ook een bewijs dat onweerlegbaar klopt volgens de strenge regels van de wiskunde?

Dit is precies wat het nieuwe onderzoek "FormalProofBench" onderzoekt. Hier is een uitleg in simpele taal, met wat creatieve vergelijkingen.

1. De Proef: Een Striktest voor AI

De onderzoekers hebben een speciale test ontwikkeld, een soort "rijbewijstest" voor wiskundige AI's.

  • Het probleem: Ze geven de AI een moeilijke wiskundevraag uit een universitair vak (zoals analyse, algebra of kansrekening).
  • De opdracht: De AI moet het antwoord niet in gewone taal schrijven, maar in een speciale programmeertaal genaamd Lean 4.
  • De scheidsrechter: Er is geen menselijke jury die oordeelt of het "klinkt goed". Er is een computerprogramma (de Lean-kernel) dat als een onverbiddelijke scheidsrechter fungeert. Als het bewijs ook maar één klein foutje bevat, zegt de computer: "FAIL". Als het perfect is, zegt hij: "PASS".

Het is alsof je een architect vraagt om een brug te ontwerpen. Bij de oude manier keek een mens naar de tekening en zei: "Ja, dat ziet er stevig uit." Bij deze nieuwe manier moet de AI de brug in de computer bouwen. Als de brug ook maar één balkje verkeerd staat, stort hij in de simulatie in. Dan is het bewijs niet geldig.

2. De Testomgeving: Een Werkplaats met Hulpmiddelen

De AI's kregen niet alleen de vraag, maar ook een gereedschapskist:

  • Een zoekmachine: Om te kijken of er al bewezen regels zijn die ze kunnen gebruiken (zoals een naslagwerk).
  • Een testbaan: Om stukjes code uit te voeren en te zien of ze werken.
  • 40 rondes: Ze hadden 40 keer de kans om te proberen, te falen, te leren van de fout en het opnieuw te proberen.

3. De Resultaten: De Top is goed, maar de rest hinkt

De onderzoekers lieten de slimste AI's ter wereld (zoals die van Anthropic, OpenAI en Google) deze test doen.

  • De winnaar: De beste AI (Claude Opus 4.5) slaagde voor 33,5% van de vragen. Dat klinkt misschien niet als 100%, maar in de wereld van geformaliseerde wiskunde is dat een enorme prestatie. Het betekent dat de AI al een kwart van de zeer moeilijke universiteitsopgaven volledig foutloos kon oplossen.
  • De val: Na die ene top viel de prestatie van de andere AI's snel af. De meeste haalden minder dan 15%.

De belangrijkste les: De AI's die het beste deden, waren niet degene die het hardst zochten in de boeken. De winnaars waren degene die vaak testten. Ze bouwden een stukje, keken of het crashte, pasten het aan, en bouwden weer. Het was meer "probeer-en-fout" dan "alleen maar nadenken".

4. Waarom is dit belangrijk?

Stel je voor dat wiskundigen in de toekomst een assistent hebben die niet alleen helpt met het bedenken van ideeën, maar ook direct controleert of die ideeën wiskundig waterdicht zijn.

  • Geen meer "schijnbewijzen": Vaak zeggen mensen dat iets waar is, maar blijkt later dat er een gat in zit. Een AI die Lean 4 spreekt, kan die gaten direct zien.
  • Snelheid: Wat nu maanden duurt om te controleren, kan binnen enkele uren gebeuren.
  • Toekomst: Hoewel de AI's nu nog "studenten" zijn die soms struikelen, laat deze test zien dat we dichtbij een punt zitten waar computers echt nuttige hulpmiddelen worden voor de geavanceerde wetenschap.

Samenvattend

Dit onderzoek is als een grote examenwedstrijd voor AI's. Ze kregen de opdracht: "Bouw een brug die perfect staat volgens de wetten van de natuurkunde." De beste AI's konden dat voor een derde van de opdrachten. Het laat zien dat AI's niet alleen kunnen "kletsen" over wiskunde, maar dat ze langzaam maar zeker leren om de taal van de wiskunde echt te spreken en te controleren. Het is een eerste stap naar een toekomst waarin computers onze wiskundige ontdekkingen helpen verifiëren.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →