Oorspronkelijke auteurs: David Gringras, Misha Salahshoor

Gepubliceerd 2026-05-07

📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: David Gringras, Misha Salahshoor

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Het Grote Idee: Het "Oude Menu"-Probleem

Stel je voor dat je in 2026 een high-end restaurant binnenloopt. Je vraagt de ober: "Wat kan deze keuken?" De ober geeft je een menu, maar het is een menu uit 2023. Het bevat gerechten gemaakt met ingrediënten die niet meer beschikbaar zijn en kooktechnieken die zijn vervangen door snellere, slimmere methoden.

Wanneer je het menu leest, kun je concluderen: "Dit restaurant kan geen goed eten maken." Maar dat is niet waar. Het restaurant kan goed eten maken; ze hebben gewoon het menu dat je leest niet bijgewerkt.

Dit paper betoogt dat academisch onderzoek naar AI precies dit doet.

Onderzoekers testen AI-modellen die al "oud" zijn (van een jaar of twee geleden) en testen ze op "basis" wijze (zonder gebruik te maken van hun nieuwste, slimste functies). Vervolgens schrijven ze papers waarin ze zeggen: "AI kan X niet." Maar omdat ze de huidige AI niet hebben getest of de huidige instellingen niet hebben gebruikt, is de conclusie misleidend. Het is alsof je een Ferrari uit 2026 beoordeelt door een Ford Pinto uit 2023 te rijden.

De Drie Manieren waarop het "Menu" Verouderd is

De auteurs ontdekten dat de kloof tussen wat AI nu werkelijk kan en wat de papers zeggen dat het kan, enorm is. Ze hebben deze kloof opgesplitst in drie delen:

1. De Tijdslag (Het "Gisteren Nieuws"-Probleem)

De Analogie: Stel je een tech-recensent voor die een nieuwe smartphone test. Maar in plaats van de telefoon te testen die vandaag is uitgebracht, testen ze een model dat 18 maanden geleden is uitgebracht.
De Bevinding: Het mediane paper in deze studie testte een AI-model dat ongeveer één grote generatie achter lag op de beste AI die op dat moment beschikbaar was. Als de beste AI een "Super-brein" is, testten de papers voornamelijk een "Slimme-telefoon" van het voorgaande jaar.

2. De Niveaulag (Het "Budgetversie"-Probleem)

De Analogie: Stel je voor dat een autofabrikant twee auto's uitbrengt: een "Pro"-model met een turbo-motor en een "Mini"-model met een standaardmotor. Een recensent koopt de "Mini" omdat het goedkoper is, rijdt er een rondje mee en schrijft een rapport waarin staat: "Dit automerk is traag." Ze hebben nooit de "Pro" gereden.
De Bevinding: Zelfs wanneer onderzoekers de "juiste" familie van AI gebruikten (zoals GPT of Claude), testten ze vaak de goedkopere, zwakkere versie (zoals "Mini" of "Flash"), terwijl een veel sterkere "Pro" of "Opus"-versie al beschikbaar was.

3. De Configuratielag (Het "Lichten Uit"-Probleem)

De Analogie: Stel je voor dat je een high-tech robot test die kan denken, gereedschap kan gebruiken en puzzels kan oplossen. Maar je test het met de "denk"-schakelaar uitgeschakeld, de "gereedschaps"-kist vergrendeld, en je stelt er slechts één simpele vraag aan zonder hints te geven. Je concludeert vervolgens: "Deze robot is nutteloos."
De Bevinding: Dit is de grootste verrassing. Moderne AI heeft een "redeneringsmodus" (zoals een diep denkproces) en kan gereedschap gebruiken (zoals webzoekopdrachten of code-editors).
- Slechts 3,2% van de papers die deze "denkende" modellen testten, gaf aan of ze de denkmodus aan of uit hadden gezet.
- De meeste papers testten de AI in de "zero-shot"-modus (gewoon één keer een vraag stellen) in plaats van het tijd te geven om na te denken of hulpmiddelen te geven.
- Resultaat: Ze testen de AI met de handen op de rug gebonden, en beweren vervolgens dat het de taak niet kan uitvoeren.

De "Generalisatie"-Valstrik

Het paper vond dat 52,5% van de abstracts (de korte samenvattingen aan het begin van papers) een gevaarlijke fout maakte.

Wat ze deden: Ze testten een specifieke, oudere, zwakkere AI.
Wat ze schreven: Ze concludeerden dat "AI" (als totale categorie) de taak niet kan uitvoeren.
De Analogie: Het is alsof je een specifieke, kapotte fiets test en een kopregel schrijft: "Fietsen zijn gevaarlijk." De kopregel negeert het feit dat ze slechts één kapotte fiets hebben getest, niet alle fietsen.

Omdat deze kopregels worden geciteerd door artsen, advocaten en beleidsmakers, begint de wereld te geloven dat AI slechter is dan het eigenlijk is.

Waarom gebeurt dit? (Het is geen kwaadaardigheid)

De auteurs zijn voorzichtig om te zeggen: De onderzoekers liegen niet. Ze doen hun best met de middelen die ze hebben.

Geld: Het draaien van de nieuwste, slimste AI-modellen is ongelooflijk duur. Academische onderzoekers kunnen zich vaak de "Pro"-versies niet veroorloven, dus ze gebruiken de gratis of goedkope versies.
Tijd: Het duurt jaren om een paper te publiceren. Tegen de tijd dat een paper wordt gedrukt, is de AI-wereld al verder gegaan.
Gewoonte: De regels voor het schrijven van deze papers zijn geschreven voordat AI "denkmodi" of "gereedschapskisten" had. Onderzoekers volgen oude regels die niet passen bij nieuwe technologie.

De Oplossing: Een Nieuw "Etiket"-Systeem

Het paper stelt een simpele oplossing voor genaamd versio-ai. Het is als een nieuw voedingslabel voor AI-papers. Voordat een paper wordt gepubliceerd, moeten de auteurs duidelijk vermelden:

Precies welk model ze gebruikten (bijvoorbeeld "GPT-5.5 Pro", niet alleen "GPT").
Wanneer ze het testten.
Hoe ze het testten (Zetten ze de "denk"-modus aan? Gaven ze het gereedschap?).

Als deze drie dingen ontbreken, moet het paper worden afgewezen. Dit maakt de AI niet slimmer, maar het voorkomt dat we het "oude menu" lezen en denken dat het restaurant is gestopt met koken.

Samenvatting

De academische literatuur toont ons momenteel een schim van wat AI kan, niet het echte ding. Het is een schaduw geworpen door oudere, zwakkere modellen die op basisniveau zijn getest. De kloof tussen deze schaduw en de echte AI wordt elk jaar groter. Het paper betoogt dat, tenzij onderzoekers specifieker worden over precies wat ze hebben getest, de wereld zal blijven onderschatten wat AI in staat is.

Each language version is independently generated for its own context, not a direct translation.

Technische Samenvatting: Frontier Lag: Een Bibliometrische Audit van Capabiliteitsvervaging in Academische AI-Evaluatie

1. Probleemstelling

De toegepaste literatuur die Large Language Models (LLM's) evalueert in domeinen zoals geneeskunde, recht, codering, onderwijs en wetenschappelijk redeneren, vertegenwoordigt systematisch de huidige AI-capaciteiten verkeerd. De audit identificeert een structurele disconnectie tussen de systemen die in academische papers worden getest en de contemporaine "frontier" van AI-capaciteiten.

Deze disconnectie, de publication elicitation gap (publicatie-eliciteringskloof), ontstaat uit drie versterkende factoren:

Temporele Lag: Papers evalueren modellen die maanden of jaren voor de publicatiedatum zijn uitgebracht, waardoor latere generaties worden gemist.
Tier Lag: Papers testen vaak zwakkere tiers van een modelfamilie (bijv. "mini" of "Flash"-versies), terwijl sterkere broers en zussen (bijv. "Pro" of "Opus") al publiek zijn.
Configuratie Onderspecificatie: Methodesecties laten vaak kritieke eliciteringsdetails achterwege (redeneermodus, tool-toegang, scaffolding, samplingparameters), wat leidt tot een "naïeve" evaluatie die het volledige potentieel van het model niet vastlegt.

Het gevolg is dat abstracts en daaropvolgende citaties specifieke, onderspecifieke resultaten generaliseren naar de klasse "AI", waardoor een misleidend verhaal ontstaat voor clinici, beleidsmakers en downstream-consumenten over wat AI momenteel kan.

2. Methodologie

De studie is een vooraf geregistreerde bibliometrische audit uitgevoerd op een corpus van academische literatuur van 1 januari 2022 tot 1 april 2026.

Corpusconstructie

Bron: OpenAlex-snapshot (maart 2026).
Scope: 112.303 records geselecteerd via trefwoorden ("LLM", "GPT", "Claude", enz.) over vijf domeinen: geneeskunde, recht, codering, onderwijs en wetenschappelijk redeneren.
Opname: 18.574 papers voldeden aan de toelatingscriteria (empirische evaluatie van een benoemde LLM op een toegepaste taak, kwantitatieve resultaten, peer-reviewed of frontier-preprint).
Dekkingsaudit: Een gestratificeerde steekproef van een resterende pool schatte de opnamegraad op ~80%, zonder significante bias in de primaire uitkomsten (grootte van de kloof, valentie, framing).

Meetkader

De audit scoort papers tegen drie dimensies:

Capaciteitsdimensie: Gemeten via de Epoch AI Capabilities Index (eci). De primaire uitkomst is de eci_gap, gedefinieerd als het verschil tussen de contemporaine frontier (het model met de hoogste eci dat beschikbaar is op de evaluatiedatum) en het model dat in de paper wordt getest.
- Imputatie: Als de evaluatiedatum niet wordt vermeld, wordt deze geïmputeerd als max(publicatiedatum - 180 dagen, modeluitgavedatum).
- Sensitiviteit: Resultaten worden gevalideerd tegen onafhankelijke schalen: Chatbot Arena Elo en de Artificial Analysis intelligence index.
Elicitatiedimensie: Beoordeelt de openbaarmaking van configuratiedetails (redeneermodus, denkinspanning, toolgebruik, scaffolding, multi-agent architectuur, promptingstrategie).
Interpretatiedimensie: Meet of conclusies generaliseren van het geteste specifieke model naar de klasse "AI" (ai_generic framing) en of menselijke/professionele vergelijkingsgroepen aanwezig zijn.

Extractie en Validatie

Pipeline: Geautomatiseerde extractie met behulp van een frontier LLM (V4F-Max) voor classificatie van opname en veldextractie, gevalideerd tegen een dubbel-menselijke gouden standaard (n=300) en kruis-familie triades (GPT-5, Claude Opus, Gemini).
Validatie: Cohen's $\kappa$ -scores overschreden vooraf geregistreerde drempels (bijv. 0,896 voor het primaire model, 0,767 voor de valentie van de conclusie).
Hypothese-toetsing: Vooraf geregistreerde bevestigende toetsen (H1, H3, H6) gebruiken Holm step-down correctie ( $\alpha=0,05$ ) tegen structurele-nul hypothesen. Beschrijvende groottes (H2, H4, H5) gebruiken gelijktijdige 95% betrouwbaarheidsintervallen (CI's).

3. Belangrijkste Bijdragen

Kwantificering van de Publication Elicitation Gap: De audit biedt de eerste cross-domein, vooraf geregistreerde meting van de afstand tussen academische evaluaties en de frontier, opgesplitst in temporele, tier- en configuratiecomponenten.
Definitie van "Compound Failure": Het operationaliseert een metriek voor papers die tegelijkertijd falen op capaciteit (achterblijven bij de frontier), elicitering (ontbrekende configuratiedetails) en interpretatie (over-generaliserende claims).
versio-ai v1.2 Checklist: Een checklist van 13 items voor rapportage die bestaande kaders (CONSORT-AI, TRIPOD-LLM, enz.) uitbreidt door openbaarmaking van het "elicitation surface" (modelsnapshot, evaluatiedatum, redeneermodus, tool-toegang, enz.) verplicht te stellen.
frontierlag Tool: Een live Python-pakket en webtool waarmee gebruikers een DOI kunnen invoeren en een auditrapport ontvangen dat de afstand van de paper tot de frontier en de openbaarmakingsstatus in detail beschrijft.

4. Belangrijkste Resultaten

Significante en Verbreedende Lag (H1, H2):
- De mediaan paper evalueert een model dat +10,85 eci achterblijft bij de contemporaine frontier. Deze kloof is ongeveer 1,4× de afstand tussen Claude Sonnet 3.7 en Opus 4.5 (een grote tier-sprong).
- De kloof verbreedt met een snelheid van +5,53 eci/jaar, wat aangeeft dat de literatuur sneller achterblijft bij de frontier dan publicatiecycli het corpus kunnen vernieuwen.
Tier Lag (H3):
- Onder papers waarbij een sterkere broer of zus binnen 90 dagen publiek was, is de mediaan tier lag +12,63 eci.
Configuratie Onderspecificatie (H4):
- Slechts 3,2% van de abstracts en 21,2% van de full-text papers vermeldt de redeneermodus-status voor modellen met redeneercapaciteit.
- Evaluatiedata worden slechts in 18,4% van de full-text papers vermeld.
Generalisatie op Class-niveau (Beschrijvend):
- 52,5% van de abstracts formuleert conclusies op het niveau van "AI" in plaats van het geteste specifieke model.
- Deze neiging neemt toe, met een stijging van de odds met OR = 1,23 per jaar.
Compound Failure Rate (H5):
- Onder een conservatieve operationalisatie falen 9,2% van de toelaatbare papers alle drie de audit-dimensies tegelijkertijd.
- Onder een inclusieve sensitiviteitsanalyse stijgt dit percentage naar 38,3%.
Valentie Asymmetrie (H6):
- Er werd geen significante correlatie gevonden tussen de grootte van de lag en de valentie (positief/negatief) van de conclusie van de paper.

5. Betekenis en Claims

De paper stelt dat het academische register, in aggregate, steeds minder in staat is om lezers te vertellen over welke AI het gaat.

Structureel, niet Individueel: De audit stelt expliciet dat het individuele auteurs niet van te kwader trouw beschuldigt. Het patroon is een voorspelbaar evenwicht van peer-reviewcycli, kostenbeperkte API-toegang en rapportage-normen die zijn overgeërfd uit een pre-redeneermodel-tijdperk.
Vervaging versus Waarheid: De audit meet "afstand tot de frontier", niet "afstand tot de waarheid". Het claimt niet dat het opnieuw uitvoeren van deze experimenten op frontier-modellen de resultaten noodzakelijkerwijs zou omkeren, maar wel dat de gepubliceerde claims losstaan van de huidige stand van de techniek.
Downstream Impact: De bevindingen suggereren dat beleidsnotities, klinische inkoopbeslissingen en veiligheidsresearch die deze papers citeren, opereren op verouderde en onderspecifieke data.
Remedie: De paper stelt een gedeelde verantwoordelijkheid voor auteurs, redacteuren en financiers voor:
- Auteurs: Adopteren van de versio-ai-checklist om het configuratieoppervlak openbaar te maken.
- Redacteuren/Recensenten: Handhaving van openbaarmaking van modelsnapsots, evaluatiedata en redeneermodes.
- Financiers: Voorwaarden koppelen aan subsidies voor openbaarmaking en het verstrekken van API-toegangsbudgetten om academische groepen in staat te stellen configuraties nabij de frontier te evalueren in plaats van uitsluitend te vertrouwen op goedkopere, verouderde alternatieven.

De paper concludeert dat hoewel geen enkele paper "zijn eigen vraag verkeerd beantwoordt", de collectieve literatuur een vertekend beeld van AI-capaciteit presenteert dat structurele interventie vereist om het te corrigeren.

Frontier Lag: A Bibliometric Audit of Capability Misrepresentation in Academic AI Evaluation