BeyondBench: Contamination-Resistant Evaluation of Reasoning in Language Models

Each language version is independently generated for its own context, not a direct translation.

BEYONDBENCH: De "Onmogelijke" Test voor Slimme Computers

Stel je voor dat je een groep leerlingen wilt testen op hun wiskundekunsten. Je geeft ze een boek met 100 bekende sommen. De slimste leerlingen leren deze sommen niet uit, maar ze leren ze uit het hoofd. Als je ze later weer dezelfde sommen geeft, halen ze een 10. Maar heb je ze nu echt slim gemaakt? Nee, ze hebben gewoon het antwoordboekje gelezen.

Dit is precies wat er gebeurt met de slimste kunstmatige intelligentie (AI) van vandaag. Ze worden getest op oude, statische benchmarks (zoals GSM8K of MATH). Omdat deze AI-modellen getraind zijn op het hele internet, hebben ze die oude vragen al gezien. Ze "herinneren" zich de antwoorden in plaats van echt na te denken. Het is alsof je een speler van een computerspel test op een niveau dat hij al 100 keer heeft gespeeld; hij wint niet omdat hij slim is, maar omdat hij de trucjes kent.

BEYONDBENCH is de oplossing voor dit probleem. Het is een nieuwe manier om AI te testen die onmogelijk te "leren" is.

Hoe werkt het? (De Creatieve Analogie)

Stel je voor dat je in plaats van een boek met vaste vragen, een magische bak met LEGO-blokken hebt.

De Oude Test (Statistisch): Je geeft de AI een foto van een specifieke LEGO-kasteel en vraagt: "Hoeveel blokken zijn er?" Omdat de AI dit kasteel al duizenden keren op het internet heeft gezien, roept hij direct het juiste antwoord. Hij heeft het niet geconstrueerd, hij heeft het herkend.
BEYONDBENCH (Dynamisch): Hier gebeurt het wonder. De AI krijgt geen foto. In plaats daarvan krijgt hij een set instructies: "Bouw een kasteel met precies 123 blokken, waarbij elke toren een priemgetal hoog moet zijn en er mag geen rode blok op een blauwe blok liggen."
- Omdat er biljoenen (meer dan $10^{15}$) mogelijke kasteelcombinaties zijn, is de kans dat de AI dit specifieke kasteel ooit eerder heeft gezien, statistisch gezien nul.
- De AI moet nu echt bouwen. Hij moet de regels begrijpen, plannen en de blokken stap voor stap op de juiste plek zetten. Als hij een fout maakt, stort het kasteel in.

De Drie Regels van BEYONDBENCH

De auteurs van het paper (van Virginia Tech en Amazon) hebben drie regels bedacht om ervoor te zorgen dat deze test eerlijk is:

Oneindige Variatie: De vragen worden niet uit een lijst gehaald, maar gegenereerd. Het is alsof je een dobbelsteen gooit om een wiskundig probleem te creëren dat nog nooit bestaat heeft. Je kunt het niet uit het hoofd leren.
Wiskundige Waarheid: Bij elke vraag is er een exact, wiskundig bewijs dat het antwoord klopt. Er is geen "misschien" of "het lijkt wel goed". Of de AI heeft het correct opgelost, of niet.
Token-Budget: De test houdt rekening met hoe "lang" de AI kan denken. Sommige problemen zijn zo complex dat ze meer ruimte nodig hebben dan de AI heeft. De test past de moeilijkheid aan zodat de AI niet faalt omdat hij "op zijn woorden is", maar omdat hij het probleem echt niet kan oplossen.

Wat hebben ze ontdekt? (De Verbluffende Resultaten)

De auteurs hebben 101 verschillende AI-modellen getest, van heel kleine tot de grootste, duurste modellen van bedrijven zoals OpenAI (GPT-5), Google (Gemini) en Meta (Llama).

Hier zijn de belangrijkste bevindingen, vertaald naar alledaags taal:

De "Grote" Modellen zijn nog steeds niet perfect: Zelfs de slimste AI's (zoals GPT-5) halen op de makkelijkste vragen bijna 100%, maar op de allerzwaarste puzzels (zoals het oplossen van complexe logica of het bouwen van een toren van Hanoi met veel schijven) zakken ze dramatisch. Ze halen soms maar 50-60%.
De "Denk-Modellen" zijn een valstrik: Er zijn modellen die speciaal zijn getraind om "eerst na te denken" voordat ze antwoorden. De onderzoekers ontdekten dat deze modellen vaak niet beter worden. Sterker nog, ze denken soms te veel na, raken de draad kwijt en maken meer fouten dan de simpele modellen. Het is alsof iemand die een puzzel probeert op te lossen door te blijven piekeren, de oplossing vergeet die hij al had gevonden.
Gereedschap is de sleutel: De modellen die het beste presteerden, waren niet degene die het beste alleen konden denken. De modellen die gereedschap gebruikten (zoals een rekenmachine of een stukje code schrijven om de som uit te rekenen) scoorden veel hoger.
- De les: AI's zijn niet per se "slimmer" geworden in het denken, maar ze zijn beter geworden in het herkennen van wanneer ze een hulpmiddel nodig hebben. Net als een mens die een rekenmachine pakt voor een moeilijke som in plaats van het in zijn hoofd te proberen.

Waarom is dit belangrijk?

Voorheen dachten we: "Hoe groter het model, hoe slimmer het is." BEYONDBENCH laat zien dat dit niet helemaal klopt. Als we modellen testen op oude vragen, zien we alleen maar hoe goed ze kunnen herinneren.

Met BEYONDBENCH zien we de echte intelligentie. En de boodschap is duidelijk:

AI's zijn nog steeds slecht in het systematisch oplossen van complexe, nieuwe problemen.
Het "na-denken" (extended reasoning) helpt niet altijd, en kan zelfs averechts werken.
De toekomst van slimme AI ligt niet in het maken van nog grotere hersenen, maar in het bouwen van systemen die weten wanneer ze een tool moeten gebruiken om het werk te doen.

Kortom: BEYONDBENCH is de eerlijke leraar die de AI's dwingt om de sommen zelf uit te rekenen, in plaats van het antwoordboekje na te kijken. En tot nu toe blijken de slimste leerlingen nog steeds veel hulp nodig te hebben van hun rekenmachine.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "BEYONDBENCH: CONTAMINATION-RESISTANT EVALUATION OF REASONING IN LANGUAGE MODELS", gepubliceerd bij ICLR 2026.

1. Het Probleem: Data Contaminatie en Valse Evaluaties

Huidige evaluaties van Large Language Models (LLMs) op redeneervermogen (zoals GSM8K, MATH, OlympiadBench) lijden onder een fundamenteel probleem: data contaminatie. Omdat trainingscorpora web-schaal bereiken, is de kans dat specifieke testvragen uit statische benchmarks al in de trainingsdata voorkomen, bijna zeker. Dit leidt tot het volgende:

Memorisatie vs. Redeneren: Modellen scoren hoog door specifieke antwoorden te memoriseren in plaats van algemene redeneerpatronen te leren.
Misleidende Prestaties: Empirisch bewijs toont aan dat prestaties drastisch dalen op "gezuiverde" (decontaminated) varianten van bestaande benchmarks.
Beperkingen van Bestaande Dynamische Benchmarks: Bestaande dynamische benchmarks (zoals DyVal of ThinkBench) genereren wel nieuwe vragen, maar bieden geen wiskundige garanties dat elke gegenereerde instantie een unieke of volledig op te sommen oplossing heeft. Dit maakt correcte evaluatie lastig en afhankelijk van heuristieken.

2. Methodologie: Het BEYONDBENCH Framework

BEYONDBENCH is een evaluatieframework dat contaminatie onmogelijk maakt door algoritmische probleemgeneratie te gebruiken. Het framework baseert zich op drie kernprincipes:

A. Wiskundig Onderbouwde Probleemgeneratie

In plaats van statische datasets, genereert BEYONDBENCH problemen on-the-fly vanuit een combinatorische ruimte die groter is dan $10^{15}$ unieke instanties per taak.

Generator: Voor elke taak $\tau$ wordt een generatorfunctie $G_\tau$ gebruikt die parameters (bijv. lijstlengtes, constraint-groottes) en een willekeurige seed omzet in een probleem.
Contaminatieweerstand: De kans op een exacte overlap met een trainingscorpus van praktische grootte ( $<10^{12}$ ) is wiskundig bewezen verwaarloosbaar ( $<10^{-3}$ ).
Validatie: Elk gegenereerd probleem wordt verifieerd door deterministische oplossers (zoals SAT-solvers, CSP-solvers, en Python-constraint libraries). Het framework garandeert dat elke instantie:
1. Een unieke oplossing heeft, OF
2. Een volledig op te sommen verzameling van geldige oplossingen heeft (zodat modellen niet worden gestraft voor niet-canonieke maar correcte antwoorden).

B. Token-Bewuste Evaluatie (Token-Aware)

Het framework past de complexiteit van problemen dynamisch aan aan de token-budgetten van het model.

Scalering: Als de geschatte tokenbehoefte voor een oplossing de contextvensterlimiet van het model overschrijdt, worden de parameters van het probleem (bijv. het aantal schijven in Tower of Hanoi) automatisch verkleind.
Fairness: Dit voorkomt dat modellen oneerlijk worden bestraft voor architecturale beperkingen in plaats van gebrek aan redeneervermogen.

C. Drie Complexiteitsniveaus (Suites)

Het benchmark bevat 44 algoritmische taken met in totaal 117 variaties, verdeeld over drie niveaus:

Easy Suite (29 taken): Polynoom-tijd oplosbare problemen (arithmetic, statistiek, sorteren). Complexiteit: $O(n^k)$ .
Medium Suite (5 taken, 49 variaties): Problemen met exponentiële groeipatronen (Fibonacci, priemgetallen, complexe patronen). Complexiteit: $O(2^n)$ tot $O(n!)$ .
Hard Suite (10 taken, 68 variaties): NP-complete en constraint satisfaction problemen (Tower of Hanoi, N-Queens, Sudoku, Boolean SAT, Graph Coloring). Complexiteit: Exponentieel of NP-compleet.

3. Belangrijkste Bijdragen

BEYONDBENCH Framework: Een open-source Python-pakket dat een onbeperkt aantal nieuwe, wiskundig verifieerbare redeneerproblemen genereert.
Formele Verificatie: Het eerste benchmark dat zowel unieke oplossingen garandeert als meerdere geldige oplossingen correct verwerkt via formele verificatie (CSP/SAT solvers).
Token-Aware Protocol: Een evaluatieprotocol dat rekening houdt met de output-tokenlimieten van modellen om eerlijke vergelijkingen mogelijk te maken.
Grootschalige Empirische Studie: Evaluatie van 101 modellen (85 open-source, 16 gesloten-source), variërend van 0.5B tot 141B parameters, inclusief quantized varianten en "reasoning" modellen.

4. Resultaten en Inzichten

De evaluatie van 101 modellen leverde cruciale inzichten op over de huidige staat van LLM-redenering:

Systeematische Inzinking bij Complexiteit: Modellen vertonen geen geleidelijke achteruitgang, maar een catastrofale inzinking ("cliff") zodra de algoritmische complexiteit een bepaalde drempel overschrijdt.
- Voorbeeld: Modellen presteren goed op 4x4 Sudoku (>80%), maar zakken naar <10% op 9x9 Sudoku.
- Voorbeeld: Tower of Hanoi prestaties dalen van ~80% bij 5 schijven naar bijna 0% bij 8 schijven.
Beperkingen van Schaal: Hoewel grotere modellen beter presteren, volgt de verbetering een logaritmisch patroon met afnemende meeropbrengst. De meeste open-source modellen bereiken een plafond van 30-35% op de Hard Suite, ongeacht de parametergrootte.
"Thinking" Modellen: Modellen die zijn ontworpen voor uitgebreid redeneren (zoals o3, Phi4-reasoning) tonen slechts marginale verbeteringen ten opzichte van hun basisversies. Ze falen vaak laat in het proces door state management-fouten (het verliezen van de context tijdens lange redeneerketens) in plaats van door gebrek aan kennis.
Invloed van Tools: Prestaties dalen drastisch zonder tool-gebruik. Modellen zoals GPT-5 tonen een daling van ~16-44% in nauwkeurigheid zonder toegang tot code-executie of rekenmachines. Dit suggereert dat succes vaak afhangt van het herkennen wanneer een tool nodig is, niet van puur taalgebaseerd redeneren.
Quantization: Aggressieve quantization (FP8, Int4) heeft een verwaarloosbaar effect (<3%) op algoritmisch redeneren, wat suggereert dat redeneren meer afhankelijk is van discrete symbolische operaties dan van fijne numerieke precisie.
Mathematische Fine-tuning: Specifiek wiskundig trainen (bijv. Qwen2.5-math) kan de prestaties op algoritmische taken juist verslechteren, omdat het modellen optimaliseert voor symbolische manipulatie in plaats van algoritmische zoekstrategieën.

5. Betekenis en Conclusie

BEYONDBENCH herdefinieert de evaluatie van redeneervermogen door over te stappen van statische datasets naar dynamische, wiskundig gegarandeerde probleemgeneratie.

Fundamentele Beperking: De studie concludeert dat "raw" taalmodellen een fundamentele bottleneck hebben in algoritmisch redeneren die niet opgelost kan worden door alleen schaalvergroting (meer parameters).
Toekomstpad: De weg naar Artificial General Intelligence (AGI) ligt niet in het trainen van grotere taalmodellen, maar in het ontwikkelen van agente architecturen die taalbegrip combineren met het gebruik van externe tools (rekenmachines, solvers, code-executie).
Validiteit: Het benchmark biedt een robuuste, contaminatie-resistente basis om de ware redeneercapaciteiten van AI-systemen te meten, vrij van de vertekening van memorisatie.

Kortom, BEYONDBENCH toont aan dat huidige LLMs vaak "schijnen" te redeneren door patronen te herkennen, maar falen bij het uitvoeren van systematische, state-gebaseerde algoritmische procedures die essentieel zijn voor echt complexe probleemoplossing.

BeyondBench: Contamination-Resistant Evaluation of Reasoning in Language Models

Hoe werkt het? (De Creatieve Analogie)

De Drie Regels van BEYONDBENCH

Wat hebben ze ontdekt? (De Verbluffende Resultaten)

Waarom is dit belangrijk?

1. Het Probleem: Data Contaminatie en Valse Evaluaties

2. Methodologie: Het BEYONDBENCH Framework

A. Wiskundig Onderbouwde Probleemgeneratie

B. Token-Bewuste Evaluatie (Token-Aware)

C. Drie Complexiteitsniveaus (Suites)

3. Belangrijkste Bijdragen

4. Resultaten en Inzichten

5. Betekenis en Conclusie

Meer zoals dit

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers