FATE: A Formal Benchmark Series for Frontier Algebra of Multiple Difficulty Levels

Each language version is independently generated for its own context, not a direct translation.

FATE: De "Olympische Spelen" voor Wiskundige AI

Stel je voor dat je een AI hebt die net zo slim is als een wiskundig genie. Die AI kan al heel goed wiskundige puzzels oplossen die je op een middelbare school of in een wiskundewedstrijd tegenkomt, zoals de Internationale Wiskunde Olympiade. Het is alsof die AI de wereldkampioen is in het oplossen van raadsels met een vaste oplossing.

Maar hier komt het probleem: Echte wiskundig onderzoek is geen raadsel. Het is meer als het bouwen van een nieuwe stad op een onbekend eiland. Je moet niet alleen bestaande wegen gebruiken, maar ook nieuwe bruggen bouwen, nieuwe regels bedenken en soms zelfs nieuwe wetten schrijven.

De auteurs van dit paper (FATE) zeggen: "Onze huidige AI's zijn goed in raadsels, maar ze stromen vast als we ze vragen om echt onderzoek te doen." Om dit te bewijzen, hebben ze een nieuwe test ontwikkeld: FATE.

Wat is FATE eigenlijk?

FATE staat voor Formal Algebra Theorem Evaluation. Het is een reeks van drie moeilijkheidsgraden, net als in een videogame:

FATE-M (De Oefeningen): Dit zijn de basisoefeningen uit een collegeboek. Iedereen met een beetje wiskundekennis kan dit.
FATE-H (De Ervaren Speler): Dit zijn problemen die je tegenkomt in een gevorderde masteropleiding of een ere-examen. Hier moet je echt nadenken en verschillende theorieën samenvoegen.
FATE-X (De Meester): Dit is het niveau van een PhD-examen of zelfs daarboven. Hier moet je vaak zelf nieuwe concepten definiëren. Het is alsof je niet alleen een brug bouwt, maar eerst de wetten van de zwaartekracht moet herschrijven om te weten hoe de brug eruit moet zien.

Het unieke aan FATE-X: De problemen zijn zo moeilijk en nieuw dat zelfs de grootste "wiskundige bibliotheek" ter wereld (die de AI gebruikt als naslagwerk, genaamd Mathlib) ze nog niet kent. De AI moet dus echt creëren, niet alleen naspelen.

Wat gebeurde er toen ze de AI's de test lieten doen?

De onderzoekers gaven de slimste AI's ter wereld (zoals DeepSeek, o3, en speciale wiskunde-AI's) deze test. Het resultaat was schokkend:

Op de basisoefeningen (FATE-M): De AI's deden het best redelijk goed.
Op de moeilijke problemen (FATE-H): De beste AI haalde slechts 3% van de problemen goed.
Op de super-moeilijke problemen (FATE-X): Geen enkele AI haalde 1% goed. Het was 0%.

Het was alsof je de wereldkampioen schaak vraagt om een compleet nieuw spel te bedenken en te spelen, en hij dan in paniek raakt en niets doet.

Waarom lukt het niet? De "Talen-Brug"

De onderzoekers keken diep in de hersenen van de AI's en ontdekten een fascinerend geheim. De AI's doen het eigenlijk twee dingen:

Ze denken eerst na in gewoon Nederlands (of Engels): "Oké, ik denk dat als ik dit en dat doe, het werkt."
Ze proberen die gedachte om te zetten in formele code (Lean): "Hier is de exacte code die bewijst dat het werkt."

De verrassing: De AI's waren heel goed in stap 1 (het denken in gewoon taal). Ze hadden vaak het juiste idee! Maar ze faalden volledig in stap 2 (het omzetten in code).

Het is alsof je een meester-architect hebt die een prachtig huis kan tekenen en uitleggen, maar zodra hij de blauwdrukken moet overzetten naar de bouwtekening voor de aannemer, maakt hij zoveel fouten dat het huis instort.

De grootste fouten waren:

Hallucinaties: De AI verzon bestaande wiskunderegels die er niet waren (alsof hij zegt: "Ik heb een brug nodig" en dan een brug uitvindt die niet bestaat in de natuur).
Taalproblemen: Ze kenden de specifieke regels van de programmeertaal (Lean) niet goed genoeg.
Verwarring: Soms dachten ze dat ze het antwoord hadden, maar de code klopte niet met hun eigen gedachtegang.

De "Speciale" vs. "Algemene" AI

Er was nog een interessante ontdekking. Er zijn AI's die specifiek zijn getraind om wiskunde te doen (de "specialisten") en AI's die algemeen slim zijn (de "generalisten").

Je zou denken dat de specialisten beter zijn. Maar nee! De algemene AI's bleken beter te zijn. Waarom? Omdat ze beter kunnen nadenken over hun eigen denken (reflecteren). Als ze een fout maken, kunnen ze zeggen: "Wacht, dat klopt niet, ik ga het opnieuw proberen."

De speciale wiskunde-AI's waren zo gefocust op het snel code schrijven dat ze hun eigen fouten niet meer zagen. Ze bleven maar doorgaan met een verkeerd idee, alsof ze blindelings een muur opbouwen terwijl ze weten dat het scheef staat.

Wat betekent dit voor de toekomst?

De boodschap van dit paper is duidelijk:
Om AI's echt slim te maken in wetenschappelijk onderzoek, moeten we stoppen met ze te dwingen om direct de oplossing te "schrijven". In plaats daarvan moeten we ze eerst laten denken en redeneren in gewoon taal, en pas daarna iemand (of een ander systeem) laten zorgen voor de precieze vertaling naar de code.

Het is alsof we een team moeten maken: één persoon die het idee bedenkt (de filosoof) en één persoon die het technisch perfect uitvoert (de ingenieur). Tot nu toe probeerden we één persoon te zijn die beide dingen tegelijk doet, en dat werkt gewoon niet goed genoeg voor de allerzwaarste taken.

Kortom: AI's zijn slim genoeg om de oplossing te dromen, maar ze zijn nog niet slim genoeg om de oplossing te bouwen. FATE is de meetlat die ons laat zien hoe ver we nog moeten gaan.

FATE: A Formal Benchmark Series for Frontier Algebra of Multiple Difficulty Levels

Wat is FATE eigenlijk?

Wat gebeurde er toen ze de AI's de test lieten doen?

Waarom lukt het niet? De "Talen-Brug"

De "Speciale" vs. "Algemene" AI

Wat betekent dit voor de toekomst?

Titel: FATE: Een Formele Benchmarkreeks voor Grensverleggende Algebra op Verschillende Moeilijkheidsniveaus

1. Het Probleem

2. Methodologie

De FATE Benchmarkreeks

Evaluatie-Setup

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

FATE: A Formal Benchmark Series for Frontier Algebra of Multiple Difficulty Levels

Wat is FATE eigenlijk?

Wat gebeurde er toen ze de AI's de test lieten doen?

Waarom lukt het niet? De "Talen-Brug"

De "Speciale" vs. "Algemene" AI

Wat betekent dit voor de toekomst?

Titel: FATE: Een Formele Benchmarkreeks voor Grensverleggende Algebra op Verschillende Moeilijkheidsniveaus

1. Het Probleem

2. Methodologie

De FATE Benchmarkreeks

Evaluatie-Setup

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models