BeyondBench: Contamination-Resistant Evaluation of Reasoning in Language Models

Het paper introduceert BeyondBench, een evaluatieframework dat wiskundig onderbouwde, dynamisch gegenereerde algoritmische problemen gebruikt om taalmodellen op een verontreinigingsvrije manier te testen op hun redeneervermogen, waarbij de resultaten aantonen dat prestaties sterk afnemen naarmate de complexiteit toeneemt.

Gaurav Srivastava, Aafiya Hussain, Zhenyu Bi, Swastik Roy, Priya Pitre, Meng Lu, Morteza Ziyadi, Xuan Wang

Gepubliceerd 2026-03-06
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

BEYONDBENCH: De "Onmogelijke" Test voor Slimme Computers

Stel je voor dat je een groep leerlingen wilt testen op hun wiskundekunsten. Je geeft ze een boek met 100 bekende sommen. De slimste leerlingen leren deze sommen niet uit, maar ze leren ze uit het hoofd. Als je ze later weer dezelfde sommen geeft, halen ze een 10. Maar heb je ze nu echt slim gemaakt? Nee, ze hebben gewoon het antwoordboekje gelezen.

Dit is precies wat er gebeurt met de slimste kunstmatige intelligentie (AI) van vandaag. Ze worden getest op oude, statische benchmarks (zoals GSM8K of MATH). Omdat deze AI-modellen getraind zijn op het hele internet, hebben ze die oude vragen al gezien. Ze "herinneren" zich de antwoorden in plaats van echt na te denken. Het is alsof je een speler van een computerspel test op een niveau dat hij al 100 keer heeft gespeeld; hij wint niet omdat hij slim is, maar omdat hij de trucjes kent.

BEYONDBENCH is de oplossing voor dit probleem. Het is een nieuwe manier om AI te testen die onmogelijk te "leren" is.

Hoe werkt het? (De Creatieve Analogie)

Stel je voor dat je in plaats van een boek met vaste vragen, een magische bak met LEGO-blokken hebt.

  1. De Oude Test (Statistisch): Je geeft de AI een foto van een specifieke LEGO-kasteel en vraagt: "Hoeveel blokken zijn er?" Omdat de AI dit kasteel al duizenden keren op het internet heeft gezien, roept hij direct het juiste antwoord. Hij heeft het niet geconstrueerd, hij heeft het herkend.
  2. BEYONDBENCH (Dynamisch): Hier gebeurt het wonder. De AI krijgt geen foto. In plaats daarvan krijgt hij een set instructies: "Bouw een kasteel met precies 123 blokken, waarbij elke toren een priemgetal hoog moet zijn en er mag geen rode blok op een blauwe blok liggen."
    • Omdat er biljoenen (meer dan $10^{15}$) mogelijke kasteelcombinaties zijn, is de kans dat de AI dit specifieke kasteel ooit eerder heeft gezien, statistisch gezien nul.
    • De AI moet nu echt bouwen. Hij moet de regels begrijpen, plannen en de blokken stap voor stap op de juiste plek zetten. Als hij een fout maakt, stort het kasteel in.

De Drie Regels van BEYONDBENCH

De auteurs van het paper (van Virginia Tech en Amazon) hebben drie regels bedacht om ervoor te zorgen dat deze test eerlijk is:

  1. Oneindige Variatie: De vragen worden niet uit een lijst gehaald, maar gegenereerd. Het is alsof je een dobbelsteen gooit om een wiskundig probleem te creëren dat nog nooit bestaat heeft. Je kunt het niet uit het hoofd leren.
  2. Wiskundige Waarheid: Bij elke vraag is er een exact, wiskundig bewijs dat het antwoord klopt. Er is geen "misschien" of "het lijkt wel goed". Of de AI heeft het correct opgelost, of niet.
  3. Token-Budget: De test houdt rekening met hoe "lang" de AI kan denken. Sommige problemen zijn zo complex dat ze meer ruimte nodig hebben dan de AI heeft. De test past de moeilijkheid aan zodat de AI niet faalt omdat hij "op zijn woorden is", maar omdat hij het probleem echt niet kan oplossen.

Wat hebben ze ontdekt? (De Verbluffende Resultaten)

De auteurs hebben 101 verschillende AI-modellen getest, van heel kleine tot de grootste, duurste modellen van bedrijven zoals OpenAI (GPT-5), Google (Gemini) en Meta (Llama).

Hier zijn de belangrijkste bevindingen, vertaald naar alledaags taal:

  • De "Grote" Modellen zijn nog steeds niet perfect: Zelfs de slimste AI's (zoals GPT-5) halen op de makkelijkste vragen bijna 100%, maar op de allerzwaarste puzzels (zoals het oplossen van complexe logica of het bouwen van een toren van Hanoi met veel schijven) zakken ze dramatisch. Ze halen soms maar 50-60%.
  • De "Denk-Modellen" zijn een valstrik: Er zijn modellen die speciaal zijn getraind om "eerst na te denken" voordat ze antwoorden. De onderzoekers ontdekten dat deze modellen vaak niet beter worden. Sterker nog, ze denken soms te veel na, raken de draad kwijt en maken meer fouten dan de simpele modellen. Het is alsof iemand die een puzzel probeert op te lossen door te blijven piekeren, de oplossing vergeet die hij al had gevonden.
  • Gereedschap is de sleutel: De modellen die het beste presteerden, waren niet degene die het beste alleen konden denken. De modellen die gereedschap gebruikten (zoals een rekenmachine of een stukje code schrijven om de som uit te rekenen) scoorden veel hoger.
    • De les: AI's zijn niet per se "slimmer" geworden in het denken, maar ze zijn beter geworden in het herkennen van wanneer ze een hulpmiddel nodig hebben. Net als een mens die een rekenmachine pakt voor een moeilijke som in plaats van het in zijn hoofd te proberen.

Waarom is dit belangrijk?

Voorheen dachten we: "Hoe groter het model, hoe slimmer het is." BEYONDBENCH laat zien dat dit niet helemaal klopt. Als we modellen testen op oude vragen, zien we alleen maar hoe goed ze kunnen herinneren.

Met BEYONDBENCH zien we de echte intelligentie. En de boodschap is duidelijk:

  • AI's zijn nog steeds slecht in het systematisch oplossen van complexe, nieuwe problemen.
  • Het "na-denken" (extended reasoning) helpt niet altijd, en kan zelfs averechts werken.
  • De toekomst van slimme AI ligt niet in het maken van nog grotere hersenen, maar in het bouwen van systemen die weten wanneer ze een tool moeten gebruiken om het werk te doen.

Kortom: BEYONDBENCH is de eerlijke leraar die de AI's dwingt om de sommen zelf uit te rekenen, in plaats van het antwoordboekje na te kijken. En tot nu toe blijken de slimste leerlingen nog steeds veel hulp nodig te hebben van hun rekenmachine.