Position: Science of AI Evaluation Requires Item-level Benchmark Data

Each language version is independently generated for its own context, not a direct translation.

De Wetenschap van AI-Testen: Waarom we niet alleen naar de eindcijfers mogen kijken

Stel je voor dat je een schoolexamensysteem hebt om te bepalen of een nieuwe generatie studenten (in dit geval: kunstmatige intelligentie of AI) klaar is voor het echte leven. Tot nu toe keken we alleen naar het eindcijfer op het rapport. "Hij heeft een 8,5! Hij is slim!"

Maar deze paper, geschreven door Han Jiang en zijn team, zegt: "Stop! Dat is gevaarlijk."

Ze pleiten ervoor dat we niet alleen naar het eindcijfer kijken, maar naar elk individueel vraagstuk (de "items") in de test. Laten we dit uitleggen met een paar creatieve vergelijkingen.

1. Het probleem: De "Vage" Cijfers

Op dit moment testen we AI-modellen met grote lijsten met vragen (benchmarks). Als een model 90% goed heeft, denken we: "Die is geweldig."

Maar wat als die 90% niet komt omdat het model slim is, maar omdat:

De vragen te makkelijk waren (het model heeft ze allemaal al eerder gezien in zijn training).
De vragen slecht waren gesteld (het model raadt het antwoord op basis van een toeval).
Het model een "valstrik" heeft gevonden om snel punten te scoren zonder echt na te denken.

Dit is alsof je een auto test door alleen te kijken of hij 100 km/u haalt. Maar je ziet niet of de remmen werken, of de banden lek zijn, of dat de bestuurder de weg kent. Je ziet alleen het eindresultaat, niet waarom het zo ging.

2. De Oplossing: De "Bak met Lego-stenen"

De auteurs zeggen dat we de individuele vragen (de Lego-stenen) moeten analyseren, niet alleen het eindgebouw.

In de psychologie (waar ze menselijke intelligentie testen) doen ze dit al jaren. Ze kijken naar elke vraag:

Is deze vraag te makkelijk? (Iedereen haalt hem, dus hij leert ons niets over het verschil tussen een slimme en een gemiddelde persoon).
Is deze vraag te moeilijk? (Niemand haalt hem, dus hij is nutteloos).
Wat zegt deze vraag over de vaardigheid? (Meet hij echt "logisch denken" of meet hij toevallig "hoe goed iemand kan gissen"?).

De paper zegt: AI-testen moet net zo wetenschappelijk worden als menselijke intelligentietesten. We moeten elke vraag in de AI-test openbreken en analyseren.

3. De Analogie: De "Zieke" Test

Stel je voor dat een test bestaat uit 100 vragen.

De huidige manier: De AI krijgt een 95/100. De makers zeggen: "Ziezo, AI is perfect!"
De nieuwe manier (Item-level): We kijken naar de 5 fouten.
- Vraag 1: De AI gaf het juiste antwoord, maar alleen omdat het antwoord "kat" was en de AI altijd "kat" kiest bij dieren. (Dit is een fout in de test, niet in de AI).
- Vraag 2: De AI gaf het verkeerde antwoord, maar de vraag was zo dubbelzinnig dat zelfs mensen het niet wisten.
- Vraag 3: De AI gaf het juiste antwoord, maar het was een vraag die hij al in zijn training had gezien (data contaminatie).

Zonder deze individuele data zien we dit niet. We denken dat de AI slim is, terwijl hij eigenlijk alleen maar goed is in het raden van patronen in de testvragen zelf.

4. Het Nieuwe Instrument: OpenEval

Om dit mogelijk te maken, hebben de auteurs OpenEval bedacht.
Dit is een enorme, openbare bibliotheek. In plaats van dat testmakers alleen het eindresultaat publiceren ("Model X scoort 85%"), moeten ze de hele bak met vragen, de antwoorden van de AI, en de details delen.

Vergelijking: Het is alsof een chef-kok niet alleen zegt "Mijn taart is lekker", maar ook de receptuur, de ingrediënten en de foto's van elke stap deelt, zodat iedereen kan controleren of de taart wel eerlijk was of dat hij er chemicaliën in heeft gestopt.

5. Waarom is dit belangrijk voor jou?

Als we AI gebruiken voor belangrijke dingen (zoals medische diagnoses, juridische adviezen of het besturen van auto's), moeten we zeker weten dat ze het echt begrijpen en niet alleen "leren" om de test te slagen.

Veiligheid: Als we weten welke vragen AI mislukt, kunnen we de AI verbeteren voordat we hem op de weg zetten.
Eerlijkheid: Het voorkomt dat bedrijven AI-modellen "opblazen" door tests te hacken in plaats van de AI echt slimmer te maken.
Transparantie: Iedereen kan meekijken en controleren of de tests eerlijk zijn.

Conclusie

De boodschap van deze paper is simpel: Stop met blind vertrouwen op eindcijfers.

AI-testen moet veranderen van een "scorebord" naar een "diagnostisch laboratorium". We moeten elke individuele vraag analyseren om te begrijpen wat AI echt kan en wat niet. Alleen dan kunnen we AI veilig en betrouwbaar inzetten in onze samenleving.

Kortom: Kijk niet alleen naar het cijfer, maar naar de huiswerkopdrachten zelf.

Each language version is independently generated for its own context, not a direct translation.

Titel: De wetenschap van AI-evaluatie vereist item-niveau benchmarkdata

Auteurs: Han Jiang, Susu Zhang, Xiaoyuan Yi, Xing Xie, Ziang Xiao
Publicatiedatum: April 2026 (Preprint)

1. Het Probleem: Systemische Validiteitsfalen in AI-evaluatie

De huidige paradigma's voor het evalueren van generatieve AI-systemen, die voornamelijk afhankelijk zijn van geaggregeerde benchmark-scores (leaderboards), vertonen ernstige systemische validiteitsproblemen. Deze problemen maken het onmogelijk om betrouwbare conclusies te trekken over modelcapaciteiten, vooral in hoog-risico domeinen.

De kernproblemen zijn:

Gebrek aan transparantie en onderbouwing: Kritieke ontwerpkeuzes (zoals definitie van constructen, content-curatie en metriekselectie) ontberen vaak formele rechtvaardiging.
Validiteitsdegradatie: Benchmarks verouderen snel door verzadiging (modellen worden te goed voor de items), data-contaminatie (modellen zien de testdata tijdens training) en verouderde kennis.
Aggregatie-maskering: Scores op benchmark-niveau verbergen fundamentele vragen over waarom een model presteert. Het is onduidelijk of verbeteringen voortkomen uit echte redeneercapaciteiten of uit artefacten, toevallige correlaties of "shortcuts".
Diagnostische blindheid: Zonder item-niveau data (per-vraag antwoorden en scores) kunnen onderzoekers geen analyse uitvoeren op de kwaliteit van individuele items, de dekking van onderliggende constructen, of verstorende factoren.

De auteurs betogen dat de AI-community de gevestigde praktijken uit de psychometrie en het onderwijs (waar item-niveau data essentieel is voor testvalidatie) negeert, wat leidt tot een gebrek aan wetenschappelijke onderbouwing.

2. Methodologie en Aanpak

Het paper combineert een theoretische analyse met empirische illustraties en de introductie van een nieuwe infrastructuur:

Theoretisch Kader: De auteurs vergelijken de huidige AI-evaluatiepraktijken met de gevestigde methodologieën uit de psychometrie (o.a. Classical Test Theory en Item Response Theory). Ze benadrukken dat validiteit bewezen moet worden via een iteratieve cyclus van kwalitatieve review en empirische pretesting op item-niveau.
Empirische Analyse: Er worden diepgaande analyses uitgevoerd op bestaande datasets (HELM-Classic, HELM-Capabilities, MMLU, MMLU-Pro, BabiQA) met behulp van:
- Classical Test Theory (CTT): Berekening van item-moeilijkheid ( $p_i$ ) en item-discriminatie ( $r_i$ , correlatie met rest-score) om de kwaliteit van individuele vragen te beoordelen.
- Item Factor Analysis (IFA): Toepassing van SVD (Singular Value Decomposition) en GLRM (Generalized Low Rank Models) om de interne structuur van benchmarks te onthullen. Dit onthult of een benchmark daadwerkelijk meet wat het beweert te meten (bijv. redeneren vs. domeinkennis).
Infrastructuur Ontwikkeling: De introductie van OpenEval, een groeiende repository die item-niveau data (vraagtekst, modelantwoord, score, metadata) gestructureerd verzamelt en toegankelijk maakt.

3. Belangrijkste Bijdragen

Position Statement: Een krachtig pleidooi voor een verschuiving van benchmark-level naar item-level data als fundamentele vereiste voor een wetenschappelijk onderbouwde AI-evaluatie.
Diagnostisch Bewijs: Empirisch bewijs dat veel bestaande benchmarks items bevatten met lage discriminatie of die construct-irrelevante variatie meten (bijv. antwoorden die gebaseerd zijn op algemene kennis in plaats van redeneren).
OpenEval Repository: Een open, schaalbaar platform dat de barrière voor toegang tot item-niveau data verlaagt, met momenteel meer dan 225.000 items uit 64 datasets en 8 miljoen item-antwoorden.
Interdisciplinaire Integratie: Het toepassen van psychometrische statistieken (zoals factoranalyse) op LLM-benchmarks om de interne validiteit te testen.

4. Resultaten en Empirische Bevindingen

De auteurs tonen aan dat item-niveau data unieke inzichten biedt die op aggregatieniveau onzichtbaar zijn:

Benchmark Verzadiging: Analyse van MMLU-Pro toont aan dat een aanzienlijk deel van de items voor moderne modellen (post-2024) te makkelijk is geworden (lage moeilijkheid), wat de onderscheidende kracht van de benchmark ondermijnt.
Kwaliteitsverbetering: MMLU-Pro toont inderdaad een betere item-kwaliteit (minder items met negatieve discriminatie) vergeleken met de originele MMLU, wat de beweringen van de ontwerpers bevestigt. Echter, sommige items presteren nog steeds slecht en vereisen verdere inspectie.
Construct Validiteit (BabiQA): Factoranalyse op de BabiQA-dataset onthulde dat clusters van items gedomineerd werden door het antwoord (bijv. "wolf" of "schap") in plaats van het beoogde redeneerproces. Dit suggereert dat modellen soms op basis van "common sense" gokken in plaats van deductief redeneren.
Sub-constructen (MMLU-Pro): In plaats van één algemene "kennis"-score, onthulde de analyse vier distincte dimensies:
1. Formeel, kwantitatief, multi-stap modelleren.
2. Domeinspecifiek herinneren en simpel redeneren.
3. Conceptueel begrip en uitleg.
4. Toegepaste synthese en casus-gebaseerd oordeel.
  Deze dimensies correleren verschillend met externe benchmarks (zoals GPQA en Omni-MATH), wat aantoont dat benchmarks verschillende vaardigheden meten dan vaak wordt aangenomen.

5. Betekenis en Toekomstperspectief

De paper heeft verstrekkende gevolgen voor de toekomst van AI-onderzoek en -governance:

Wetenschappelijke Rigor: Het stelt de basis voor een "wetenschap van AI-evaluatie" waarbij claims over modelcapaciteiten empirisch onderbouwd kunnen worden met gedetailleerde data, vergelijkbaar met psychologische tests.
Transparantie en Governance: Item-niveau data stelt beleidsmakers en auditors in staat om aggregate claims terug te leiden naar concrete voorbeelden, foutpatronen en dekkingstekorten, wat essentieel is voor verantwoorde AI-deployments.
Efficiëntie in Onderzoek: Het maakt het mogelijk om data-contaminatie sneller te detecteren en benchmarks dynamisch bij te werken in plaats van ze volledig te vervangen.
Community Adoptie: Door OpenEval en de oproep tot open data, wordt de weg vrijgemaakt voor reproduceerbaar onderzoek en cross-disciplinair gebruik (bijv. door taalkundigen, juristen en clinici).

Conclusie:
Zonder toegang tot en analyse van item-niveau benchmarkdata blijft AI-evaluatie een "black box" die vatbaar is voor misleidende conclusies. De paper pleit voor een fundamentele verschuiving naar een evidence-centered benadering, waarbij de kwaliteit van individuele testitems en de onderliggende constructen centraal staan, ondersteund door de OpenEval-infrastructuur.

Position: Science of AI Evaluation Requires Item-level Benchmark Data

1. Het probleem: De "Vage" Cijfers

2. De Oplossing: De "Bak met Lego-stenen"

3. De Analogie: De "Zieke" Test

4. Het Nieuwe Instrument: OpenEval

5. Waarom is dit belangrijk voor jou?

Conclusie

Titel: De wetenschap van AI-evaluatie vereist item-niveau benchmarkdata

1. Het Probleem: Systemische Validiteitsfalen in AI-evaluatie

2. Methodologie en Aanpak

3. Belangrijkste Bijdragen

4. Resultaten en Empirische Bevindingen

5. Betekenis en Toekomstperspectief

Meer zoals dit

IC3-Evolve: Proof-/Witness-Gated Offline LLM-Driven Heuristic Evolution for IC3 Hardware Model Checking

Structural Segmentation of the Minimum Set Cover Problem: Exploiting Universe Decomposability for Metaheuristic Optimization

To Throw a Stone with Six Birds: On Agents and Agenthood

Toward Full Autonomous Laboratory Instrumentation Control with Large Language Models

Evaluating Artificial Intelligence Through a Christian Understanding of Human Flourishing