TaoBench: Do Automated Theorem Prover LLMs Generalize Beyond MathLib?

Dit paper introduceert TaoBench, een nieuw benchmark dat de beperkte generalisatie van geautomatiseerde stellingbewijzers naar niet-standaard wiskundige definities blootlegt, waarbij de prestaties van state-of-the-art modellen gemiddeld met 26% dalen wanneer ze worden getest op een zelfstandig opgebouwd raamwerk uit Terence Tao's Analysis I in plaats van op de gebruikelijke MathLib-bibliotheek.

Alexander K Taylor, Junyi Zhang, Ethan Ji, Vigyan Sahai, Haikang Deng, Yuanzhou Chen, Yifan Yuan, Di Wu, Jia-Chen Gu, Kai-Wei Chang, Nanyun Peng, Amit Sahai, Wei Wang

Gepubliceerd 2026-03-16
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een superintelligente robot hebt die is getraind om wiskundeproblemen op te lossen. Deze robot is een meester geworden in het oplossen van puzzels, maar alleen als die puzzels zijn geschreven in een heel specifiek taalboek: het MathLib-handboek. Dit handboek is de "standaard" voor wiskundigen die werken met computers. De robot kan de moeilijkste opgaven uit dit boek met gemak oplossen.

Maar wat gebeurt er als je de robot een probleem geeft dat is geschreven in een ander handboek? Een handboek dat dezelfde wiskundige ideeën bevat, maar de definities, de namen van de dingen en de regels anders heeft opgeschreven?

Dat is precies wat dit onderzoek, genaamd TAOBENCH, heeft onderzocht.

De Verhaal: Twee Verschillende Dialecten

De onderzoekers hebben gekeken naar een beroemde wiskundige, Terence Tao. Hij heeft een boek geschreven over analyse (een deel van de hogere wiskunde) waarin hij de basisbegrippen, zoals getallen en verzamelingen, vanaf nul uitlegt. Hij doet dit op een heel eigen, specifieke manier, alsof hij zijn eigen dialect van wiskunde creëert.

De robot (de AI) is echter getraind op de standaardversie (MathLib). Het is alsof de robot alleen maar Engels heeft geleerd, en je hem nu een tekst geeft in een heel specifiek dialect van het Engels dat alleen in één dorp wordt gesproken.

Het Experiment: De "Tao-Test"

De onderzoekers hebben 150 wiskundige opgaven uit Tao's boek genomen. Ze hebben deze opgaven op twee manieren aan de robot voorgelegd:

  1. De Tao-versie: De opgave zoals Tao die heeft geschreven (met zijn eigen definities).
  2. De MathLib-versie: Dezelfde opgave, maar vertaald naar de standaardtaal die de robot kent.

Het doel was om te zien of de robot de wiskunde begrijpt, of dat hij alleen maar de woorden uit zijn training kent.

Wat Vonden Ze? (De Verbluffende Resultaten)

Het resultaat was een grote verrassing voor de wetenschap:

  • In de standaardtaal (MathLib): De robot deed het fantastisch. Hij kon ongeveer 70% van de problemen oplossen. Hij was een ster.
  • In de Tao-taal: Zodra ze dezelfde problemen in Tao's eigen dialect gaven, zakte de prestatie van de robot dramatisch in. Hij kon gemiddeld 26% minder problemen oplossen.

De Metafoor:
Stel je voor dat je een auto hebt die perfect rijdt op een asfaltweg (MathLib). Je vraagt de bestuurder: "Kun je ook rijden op een grindweg?" De bestuurder zegt: "Natuurlijk, het is toch ook een weg?" Maar zodra de auto op het grind komt, blijft hij steken.

Het probleem is niet dat de grindweg (de wiskunde) moeilijker is. Het probleem is dat de auto (de AI) niet weet hoe hij moet omgaan met de andere ondergrond. Hij is te gespecialiseerd op de asfaltweg. Hij heeft niet geleerd om wiskunde te doen, maar alleen om MathLib-wiskunde te doen.

Waarom is dit belangrijk?

In de echte wereld van wiskundig onderzoek zijn mensen vaak aan het experimenteren. Ze bouwen nieuwe concepten op en gebruiken definities die nog niet in de grote standaardboeken staan. Ze werken in "proeflaboratoria" met hun eigen regels.

Deze studie laat zien dat de huidige slimste AI's niet flexibel genoeg zijn voor die echte, exploratieve wetenschap. Ze zijn als een student die alleen maar uit het hoofd heeft geleerd hoe je een som oplost in het standaardboek, maar als je de som een beetje anders formuleert, raakt hij in paniek.

De Oplossing: TAOBENCH

De onderzoekers hebben een nieuwe testomgeving gecreëerd, TAOBENCH. Dit is als een "fitnesscentrum" voor AI's, maar dan speciaal ontworpen om te testen of ze kunnen omgaan met nieuwe, onbekende regels.

Ze hebben ook een slimme manier bedacht om automatisch de benodigde "context" (de uitleg van de regels) bij elke opgave te verzamelen, zodat de AI niet in de war raakt door te veel of te weinig informatie.

Conclusie in Eenvoudige Woorden

De boodschap van dit papier is simpel: Onze slimme wiskundige AI's zijn momenteel te star. Ze zijn goed in het herhalen van wat ze hebben geleerd, maar slecht in het aanpassen aan nieuwe manieren van denken.

Als we AI's echt willen gebruiken om de grenzen van de wiskunde te verleggen (zoals echte onderzoekers doen), moeten we ze niet alleen trainen op de standaardboeken, maar ze ook leren om te denken in nieuwe, creatieve dialecten. TAOBENCH is de eerste stap om dat te testen en te verbeteren.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →