SorryDB: Can AI Provers Complete Real-World Lean Theorems?

Dit artikel introduceert SorryDB, een dynamisch benchmark voor Lean-formalisaties dat is opgezet om AI-provers te evalueren aan de hand van real-world taken, waarbij blijkt dat huidige benaderingen complementair zijn en geen enkele methode alle andere volledig overtreft.

Austin Letson, Leopoldo Sarra, Auguste Poiroux, Oliver Dressler, Paul Lezeau, Dhyan Aranha, Frederick Pu, Aaron Hill, Miguel Corredera Hidalgo, Julian Berman, George Tsoukalas, Lenny Taelman

Gepubliceerd 2026-03-04
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat wiskundigen een gigantische, complexe bouwplaat aan het samenstellen zijn. Ze gebruiken een speciale taal (Lean) om hun ideeën zo precies mogelijk op te schrijven, zodat een computer kan controleren of er geen foutjes in zitten. Maar vaak laten ze stukken van de bouwplaat nog even open, met een post-it erop waarop staat: "Hier moet ik nog even aan werken" of "Ik weet het nu nog niet, maar ik kom er later op terug." In de programmeertaal van Lean noemen ze deze open plekken "sorry".

Dit paper introduceert SorryDB, een nieuw en slim systeem om te testen hoe goed kunstmatige intelligentie (AI) deze open plekken kan opvullen.

Hier is de uitleg, vertaald naar alledaags taalgebruik:

1. Het Probleem: De "Olympiade" is te makkelijk

Tot nu toe werden AI's getest op wiskundepuzzels die leken op die van de Internationale Wiskunde Olympiade (zoals miniF2F of PutnamBench).

  • De analogie: Dit is alsof je een AI traint door hem alleen maar te laten racen op een perfect geasfalteerde racecircuit. Hij wordt heel snel, maar als je hem daarna de echte wereld in stuurt (met modder, gaten en onverwachte obstakels), faalt hij.
  • Het probleem: Die oude tests zijn "verzadigd". De AI's hebben de antwoorden waarschijnlijk al in hun geheugen opgeslagen (geleerd uit hun trainingsdata). Ze kunnen de puzzels oplossen, maar ze begrijpen niet hoe ze in een echt, chaotisch project moeten werken.

2. De Oplossing: SorryDB (De "Live" Werkplek)

In plaats van oude puzzels te gebruiken, heeft het team SorryDB bedacht.

  • Hoe het werkt: Ze kijken naar 78 echte, levende projecten op GitHub waar wiskundigen momenteel aan werken. Ze zoeken naar alle plekken waar een "sorry" staat.
  • De analogie: In plaats van een AI te laten racen op een circuit, zetten we hem in een actieve bouwput. De AI moet niet een oude, bekende puzzel oplossen, maar een echte, nog onopgeloste klus klaren waar een menselijke bouwvakker net even de tijd voor heeft genomen om later terug te komen.
  • Het voordeel: Omdat deze projecten elke dag veranderen en nieuwe "sorry's" toevoegen, kan de AI het antwoord niet simpelweg "uit het hoofd leren". Het is een levend benchmark: zodra AI's slimmer worden, worden de taken moeilijker, omdat de makkelijkste "sorry's" al zijn opgelost.

3. De Test: Wat kan de AI?

De auteurs hebben verschillende soorten AI's getest om te zien wie de "sorry's" het beste kon opvullen:

  • De "Alleskenners" (Grote Taalmodellen): Modellen zoals Gemini, Claude en GPT. Dit zijn de brede denkers.
  • De "Specialisten": AI's die specifiek zijn getraind op wiskunde (zoals Goedel Prover).
  • De "Agenten": AI's die niet alleen een antwoord geven, maar ook zelf kunnen zoeken in bibliotheken, fouten kunnen zien en het proberen te verbeteren (zoals een mens die "probeer maar eens, oh foutje, probeer het anders").
  • De "Automaten": Simpele, vaste regels (tactics) die alleen heel simpele dingen kunnen.

4. De Resultaten: Samenwerking is de sleutel

De resultaten waren verrassend en leerzaam:

  • Geen enkele winnaar: Er was geen enkele AI die alles kon. De "specialisten" waren goed in specifieke wiskundige puzzels, maar faalden in de echte, rommelige projecten. De "alleskenners" waren beter, maar misten soms de diepte.
  • De kracht van feedback: De winnaars waren de AI's die iteratief werkten. Ze gaven een antwoord, keken of de computer een foutmelding gaf, en probeerden het opnieuw.
    • Analogie: Het is alsof je een auto rijdt. Als je alleen maar naar de kaart kijkt (één keer een antwoord geven), kom je vast te zitten. Maar als je naar de GPS kijkt, ziet dat je een afslag mist, en dan de route opnieuw berekent, kom je wel aan. AI's die dit deden, presteerden veel beter.
  • Complementair: De beste AI's vullen elkaar aan. Wat de ene niet kan, kan de andere wel. Als je ze allemaal samen gebruikt, kun je veel meer "sorry's" oplossen dan met één model.

5. Waarom is dit belangrijk?

Dit paper zegt eigenlijk: "Stop met het testen van AI's op oude, verzadigde puzzels. Laten we ze testen op de echte, moeilijke klussen die wiskundigen nu doen."

  • Voor wiskundigen: Het betekent dat we binnenkort AI-assistenten kunnen krijgen die echt helpen bij het bouwen van nieuwe wiskundige theorieën, in plaats van alleen maar oude examenvragen op te lossen.
  • Voor de toekomst: SorryDB blijft groeien en veranderen. Het is een "bewegend doelwit" dat meegroeit met de technologie. Zodra AI's slimmer worden, wordt de benchmark zwaarder, zodat we altijd weten wat de echte grenzen zijn.

Kortom: SorryDB is de eerste "live test" om te zien of AI's echt kunnen helpen bij het bouwen van de toekomst van de wiskunde, in plaats van alleen maar te racen op een oude racebaan.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →