LeanCat: A Benchmark Suite for Formal Category Theory in Lean (Part I: 1-Categories)

Each language version is independently generated for its own context, not a direct translation.

LeanCat: Een Nieuwe Test voor AI's Wiskundige Brein

Stel je voor dat wiskunde een enorme bibliotheek is vol met boeken. De meeste AI-modellen (zoals de slimme chatbots die we vandaag kennen) zijn getraind om korte, slimme raadsels op te lossen, zoals olympiade-vraagstukken. Ze zijn goed in het vinden van een snelle, slimme truc om een probleem op te lossen. Maar echte wiskundigen werken niet zo. Ze bouwen aan enorme, complexe gebouwen waar elke steen perfect past in een groter, abstract raamwerk.

Dit paper introduceert LeanCat, een nieuwe test die precies kijkt of AI's die grote, abstracte gebouwen kunnen bouwen, in plaats van alleen raadsels op te lossen.

Hier is een eenvoudige uitleg van wat ze hebben gedaan, met behulp van een paar creatieve vergelijkingen:

1. Het Probleem: De "Abstractie-Gap"

Stel je voor dat je een AI vraagt om een huis te bouwen.

De oude tests (zoals miniF2F) vragen: "Hoeveel bakstenen heb je nodig voor een muur van 2 meter?" Dit is een rekensom.
De nieuwe test (LeanCat) vraagt: "Bouw een compleet stelsel van kanalen en afvoeren dat werkt volgens de wetten van de stroming, zonder dat je de blauwdrukken hoeft te tekenen, maar alleen door te verwijzen naar de bestaande bouwvoorschriften in de bibliotheek."

De auteurs ontdekten dat de slimste AI's momenteel vastlopen bij dit soort vragen. Ze kunnen de simpele rekensommen maken, maar zodra het gaat om complexe, abstracte concepten (in dit geval: Categorietheorie, een soort "taal van de taal" in de wiskunde), zakken ze door de vloer.

Op makkelijke vragen scoren ze redelijk goed (55%).
Op moeilijke, abstracte vragen scoren ze 0%.

Dit noemen ze de "Abstractie-Gap". De AI's zijn te goed in het raden van het antwoord, maar te slecht in het begrijpen van de diepe structuur en het gebruik van de juiste gereedschappen uit de bibliotheek.

2. De Oplossing: LeanBridge (De Slimme Boekhouder)

Om dit op te lossen, hebben de onderzoekers een nieuwe manier bedacht om de AI te laten werken, genaamd LeanBridge.

Stel je voor dat de AI niet alleen een slimme student is, maar een onderzoeker met een team.

De oude manier (Statische AI): De student zit alleen in een kamer, mag geen boeken pakken en moet het antwoord uit zijn hoofd raden. Als hij het niet weet, probeert hij het gewoon opnieuw met een ander gokje.
De nieuwe manier (LeanBridge): De onderzoeker mag boeken halen.
1. Zoeken: Hij kijkt eerst in de bibliotheek (de wiskundige software-bibliotheek) om te zien welke definities en regels er al bestaan.
2. Proberen: Hij probeert het probleem op te lossen met die informatie.
3. Controleren: Als het niet lukt, kijkt hij naar de foutmelding (de "rekenmachine" zegt: "Dit klopt niet").
4. Herhalen: Hij zoekt opnieuw, past zijn plan aan en probeert het opnieuw.

Dit noemen ze een "Zoek-Genereer-Verifieer" lus. Het is alsof je een puzzel oplost, maar elke keer als je vastloopt, mag je even in de handleiding kijken in plaats van blindelings te gissen.

3. De Resultaten: Een Groot Sprongje Voorwaarts

De resultaten van deze nieuwe test zijn verbluffend, maar ook een beetje teleurstellend voor de huidige stand van de techniek:

De "Gewone" AI's: Zelfs de allerbeste modellen (zoals GPT-5 of Claude) konden maar 12% van de moeilijke problemen oplossen. Ze bleven steken bij de abstracte concepten.
De "LeanBridge" AI: Door de AI de mogelijkheid te geven om actief in de bibliotheek te zoeken en fouten te analyseren, verdubbelde het succespercentage naar 24%.
Het Grootste Succes: Voor het eerst in de geschiedenis slaagde een AI erin om een moeilijk probleem in deze categorie volledig op te lossen.

4. Waarom is dit belangrijk?

Dit paper laat zien dat we AI's niet alleen slimmer moeten maken door ze meer data te geven (meer "hersenen"), maar dat we ze slimmere hulpmiddelen moeten geven.

Voor de AI-wereld: Het bewijst dat voor complexe taken (zoals wiskundig onderzoek of software-ontwikkeling) het niet genoeg is om alleen te "gokken". De AI moet actief kunnen zoeken, fouten analyseren en zijn kennis updaten.
Voor de Wiskunde: Het helpt wiskundigen te zien waar hun eigen "bibliotheek" (de software die ze gebruiken om wiskunde te bewijzen) nog hiaten heeft. Als de AI vastloopt, is het misschien niet omdat de AI dom is, maar omdat er een belangrijk stukje in de bibliotheek ontbreekt.

Samenvatting in één zin

LeanCat is een nieuwe, zeer moeilijke test die laat zien dat AI's momenteel vastlopen in abstracte wiskunde, maar dat ze een enorme sprong vooruit maken als we ze toestaan om actief in de "bibliotheek" te zoeken en hun fouten te leren analyseren, net als een echte menselijke onderzoeker.

LeanCat: A Benchmark Suite for Formal Category Theory in Lean (Part I: 1-Categories)

1. Het Probleem: De "Abstractie-Gap"

2. De Oplossing: LeanBridge (De Slimme Boekhouder)

3. De Resultaten: Een Groot Sprongje Voorwaarts

4. Waarom is dit belangrijk?

Samenvatting in één zin

Probleemstelling

Methodologie

1. De LeanCat Benchmark

2. Evaluatie-protocollen

Kernbijdragen

Resultaten

Betekenis en Toekomstperspectief

LeanCat: A Benchmark Suite for Formal Category Theory in Lean (Part I: 1-Categories)

1. Het Probleem: De "Abstractie-Gap"

2. De Oplossing: LeanBridge (De Slimme Boekhouder)

3. De Resultaten: Een Groot Sprongje Voorwaarts

4. Waarom is dit belangrijk?

Samenvatting in één zin

Probleemstelling

Methodologie

1. De LeanCat Benchmark

2. Evaluatie-protocollen

Kernbijdragen

Resultaten

Betekenis en Toekomstperspectief

Meer zoals dit

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks