Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer
Each language version is independently generated for its own context, not a direct translation.
Het Grote Idee: Het "Oude Menu"-Probleem
Stel je voor dat je in 2026 een high-end restaurant binnenloopt. Je vraagt de ober: "Wat kan deze keuken?" De ober geeft je een menu, maar het is een menu uit 2023. Het bevat gerechten gemaakt met ingrediënten die niet meer beschikbaar zijn en kooktechnieken die zijn vervangen door snellere, slimmere methoden.
Wanneer je het menu leest, kun je concluderen: "Dit restaurant kan geen goed eten maken." Maar dat is niet waar. Het restaurant kan goed eten maken; ze hebben gewoon het menu dat je leest niet bijgewerkt.
Dit paper betoogt dat academisch onderzoek naar AI precies dit doet.
Onderzoekers testen AI-modellen die al "oud" zijn (van een jaar of twee geleden) en testen ze op "basis" wijze (zonder gebruik te maken van hun nieuwste, slimste functies). Vervolgens schrijven ze papers waarin ze zeggen: "AI kan X niet." Maar omdat ze de huidige AI niet hebben getest of de huidige instellingen niet hebben gebruikt, is de conclusie misleidend. Het is alsof je een Ferrari uit 2026 beoordeelt door een Ford Pinto uit 2023 te rijden.
De Drie Manieren waarop het "Menu" Verouderd is
De auteurs ontdekten dat de kloof tussen wat AI nu werkelijk kan en wat de papers zeggen dat het kan, enorm is. Ze hebben deze kloof opgesplitst in drie delen:
1. De Tijdslag (Het "Gisteren Nieuws"-Probleem)
- De Analogie: Stel je een tech-recensent voor die een nieuwe smartphone test. Maar in plaats van de telefoon te testen die vandaag is uitgebracht, testen ze een model dat 18 maanden geleden is uitgebracht.
- De Bevinding: Het mediane paper in deze studie testte een AI-model dat ongeveer één grote generatie achter lag op de beste AI die op dat moment beschikbaar was. Als de beste AI een "Super-brein" is, testten de papers voornamelijk een "Slimme-telefoon" van het voorgaande jaar.
2. De Niveaulag (Het "Budgetversie"-Probleem)
- De Analogie: Stel je voor dat een autofabrikant twee auto's uitbrengt: een "Pro"-model met een turbo-motor en een "Mini"-model met een standaardmotor. Een recensent koopt de "Mini" omdat het goedkoper is, rijdt er een rondje mee en schrijft een rapport waarin staat: "Dit automerk is traag." Ze hebben nooit de "Pro" gereden.
- De Bevinding: Zelfs wanneer onderzoekers de "juiste" familie van AI gebruikten (zoals GPT of Claude), testten ze vaak de goedkopere, zwakkere versie (zoals "Mini" of "Flash"), terwijl een veel sterkere "Pro" of "Opus"-versie al beschikbaar was.
3. De Configuratielag (Het "Lichten Uit"-Probleem)
- De Analogie: Stel je voor dat je een high-tech robot test die kan denken, gereedschap kan gebruiken en puzzels kan oplossen. Maar je test het met de "denk"-schakelaar uitgeschakeld, de "gereedschaps"-kist vergrendeld, en je stelt er slechts één simpele vraag aan zonder hints te geven. Je concludeert vervolgens: "Deze robot is nutteloos."
- De Bevinding: Dit is de grootste verrassing. Moderne AI heeft een "redeneringsmodus" (zoals een diep denkproces) en kan gereedschap gebruiken (zoals webzoekopdrachten of code-editors).
- Slechts 3,2% van de papers die deze "denkende" modellen testten, gaf aan of ze de denkmodus aan of uit hadden gezet.
- De meeste papers testten de AI in de "zero-shot"-modus (gewoon één keer een vraag stellen) in plaats van het tijd te geven om na te denken of hulpmiddelen te geven.
- Resultaat: Ze testen de AI met de handen op de rug gebonden, en beweren vervolgens dat het de taak niet kan uitvoeren.
De "Generalisatie"-Valstrik
Het paper vond dat 52,5% van de abstracts (de korte samenvattingen aan het begin van papers) een gevaarlijke fout maakte.
- Wat ze deden: Ze testten een specifieke, oudere, zwakkere AI.
- Wat ze schreven: Ze concludeerden dat "AI" (als totale categorie) de taak niet kan uitvoeren.
- De Analogie: Het is alsof je een specifieke, kapotte fiets test en een kopregel schrijft: "Fietsen zijn gevaarlijk." De kopregel negeert het feit dat ze slechts één kapotte fiets hebben getest, niet alle fietsen.
Omdat deze kopregels worden geciteerd door artsen, advocaten en beleidsmakers, begint de wereld te geloven dat AI slechter is dan het eigenlijk is.
Waarom gebeurt dit? (Het is geen kwaadaardigheid)
De auteurs zijn voorzichtig om te zeggen: De onderzoekers liegen niet. Ze doen hun best met de middelen die ze hebben.
- Geld: Het draaien van de nieuwste, slimste AI-modellen is ongelooflijk duur. Academische onderzoekers kunnen zich vaak de "Pro"-versies niet veroorloven, dus ze gebruiken de gratis of goedkope versies.
- Tijd: Het duurt jaren om een paper te publiceren. Tegen de tijd dat een paper wordt gedrukt, is de AI-wereld al verder gegaan.
- Gewoonte: De regels voor het schrijven van deze papers zijn geschreven voordat AI "denkmodi" of "gereedschapskisten" had. Onderzoekers volgen oude regels die niet passen bij nieuwe technologie.
De Oplossing: Een Nieuw "Etiket"-Systeem
Het paper stelt een simpele oplossing voor genaamd versio-ai. Het is als een nieuw voedingslabel voor AI-papers. Voordat een paper wordt gepubliceerd, moeten de auteurs duidelijk vermelden:
- Precies welk model ze gebruikten (bijvoorbeeld "GPT-5.5 Pro", niet alleen "GPT").
- Wanneer ze het testten.
- Hoe ze het testten (Zetten ze de "denk"-modus aan? Gaven ze het gereedschap?).
Als deze drie dingen ontbreken, moet het paper worden afgewezen. Dit maakt de AI niet slimmer, maar het voorkomt dat we het "oude menu" lezen en denken dat het restaurant is gestopt met koken.
Samenvatting
De academische literatuur toont ons momenteel een schim van wat AI kan, niet het echte ding. Het is een schaduw geworpen door oudere, zwakkere modellen die op basisniveau zijn getest. De kloof tussen deze schaduw en de echte AI wordt elk jaar groter. Het paper betoogt dat, tenzij onderzoekers specifieker worden over precies wat ze hebben getest, de wereld zal blijven onderschatten wat AI in staat is.
Verdrinkt u in papers in uw vakgebied?
Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.