Are Large Language Models Truly Smarter Than Humans?

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groot examen doet, bijvoorbeeld voor een baan als advocaat of arts. Je krijgt een boek met honderden vragen en antwoorden. Als je die vragen een keer leest en ze uit je hoofd leert, haal je misschien een 10. Maar betekent dat nou dat je echt slim bent? Of dat je echt begrijpt hoe de wereld werkt? Nee, het betekent alleen dat je het boek uit je hoofd hebt geleerd.

Dit is precies wat dit nieuwe onderzoek doet met de "slimste" kunstmatige intelligenties (AI) van vandaag, zoals GPT-4 en DeepSeek. De onderzoekers vragen zich af: Zijn deze AI's echt slimmer dan mensen, of hebben ze gewoon het examenboek gelekt?

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De AI's hebben het "antwoordenboekje" gelezen

Vroeger waren examenvragen geheim. Maar nu staan diezelfde vragen (of heel vergelijkbare versies) vaak op het internet, in blogs, in schoolboeken en op forums. Omdat AI's het hele internet hebben gelezen om slim te worden, is de kans groot dat ze de examenvragen al hebben gezien voordat ze de test kregen.

De Analogie: Stel je voor dat een student voor een wiskundetoets het antwoordboekje van de leraar heeft gestolen. Als hij de toets maakt, haalt hij een 10. Maar als je hem een nieuwe vraag stelt die hij nog niet heeft gezien, faalt hij. De AI's doen precies hetzelfde: ze scoren hoog omdat ze de "oude vragen" kennen, niet omdat ze echt kunnen redeneren.

2. De Drie Experimenten: Hoe hebben ze dit ontdekt?

De onderzoekers hebben drie verschillende manieren gebruikt om te checken of de AI's vals spelen.

Experiment 1: De Google-check (Het spoor van de vragen)

Ze hebben gekeken of de vragen van het beroemde examen (MMLU) online te vinden zijn.

Wat vonden ze? Veel vragen staan online. Vooral in vakken als Filosofie (66% van de vragen online!) en STEM (wiskunde, natuurkunde, techniek).
De les: Als een AI een vraag krijgt die 100% identiek is aan iets wat ze al hebben gelezen, is hun "slimme" antwoord eigenlijk gewoon herhaling.

Experiment 2: De Parfumeur-test (Verander de woorden)

Stel je voor dat je een vraag hebt: "Wie was de eerste president van de VS?"
De AI kent het antwoord. Maar wat als je de vraag verandert in: "Wie zat er als eerste op de troon van de nieuwe natie?"

De test: De onderzoekers veranderden de woorden van de vragen, maar hielden de betekenis hetzelfde.
Wat vonden ze? De AI's werden veel minder goed! Bij vragen over Recht en Ethiek daalde hun score met bijna 20%.
De les: De AI's waren niet aan het nadenken; ze waren aan het patroonherkennen. Zodra de "verpakking" van de vraag veranderde, wisten ze het antwoord niet meer. Het was alsof ze de tekst uit hun hoofd hadden geleerd, maar de betekenis niet begrepen.

Experiment 3: De Gedachtenlezer (Wat zit er in hun hoofd?)

Dit was de slimste test. Ze gaven de AI een vraag, maar bedekten een deel van het antwoord met een masker (bijvoorbeeld: "Het antwoord is [MASK]"). Vervolgens vroegen ze de AI om het ontbrekende woord in te vullen.

De test: Als de AI de vraag echt uit zijn hoofd heeft, kan hij het masker vullen, zelfs als het een fout antwoord is dat hij ooit heeft gezien.
Wat vonden ze? Bijna 73% van de vragen triggerde een "herinnering" in de AI. Ze konden de antwoorden (en zelfs de foutieve opties) reconstrueren.
De vreemde uitzondering: De AI genaamd DeepSeek-R1 deed het anders. Hij kon de exacte woorden niet onthouden, maar wel de ideeën van de antwoorden. Hij had de vragen niet letterlijk uit zijn hoofd geleerd, maar had ze "samengevat" in zijn hoofd. Toch faalde hij ook hier op nieuwe vragen.

3. De Grote Conclusie: Wie is er nu echt slim?

De onderzoekers trekken drie belangrijke conclusies:

Het examen is besmet: De scores die we zien op de leaderboards (de ranglijsten van slimste AI's) zijn waarschijnlijk te hoog. Ze meten niet alleen intelligentie, maar ook hoe goed de AI's het internet hebben "gelezen".
Niet alle vakken zijn even besmet: Vakken als Wetenschap en Techniek (STEM) en Recht zijn het ergst besmet. De AI's hebben hier de meeste "antwoordenboeken" online gevonden.
AI's zijn niet zo robuust als we denken: Als je een AI vraagt iets te doen in de echte wereld (waar de vragen niet exact hetzelfde zijn als op het internet), zakken ze vaak door de bodem. Ze zijn goed in het herhalen van wat ze hebben gezien, maar slecht in het toepassen van kennis op nieuwe situaties.

Waarom is dit belangrijk voor jou?

Stel je voor dat je een AI gebruikt om een medisch advies te geven of een juridisch contract te schrijven. Als die AI alleen maar de antwoorden uit zijn "antwoordenboekje" haalt, kan hij gevaarlijke fouten maken als de situatie net iets anders is dan in zijn training.

Kortom: De AI's zijn niet per se "slimmer" dan wij. Ze zijn beter in het uit het hoofd leren van het examen. Net als een student die het antwoordboekje heeft gestolen, scoren ze perfect op de oude vragen, maar falen ze als de leraar een nieuwe, eerlijke toets schrijft.

De boodschap van dit onderzoek is: Wees sceptisch met de hoge scores. Voordat we AI's echt gaan gebruiken voor belangrijke dingen, moeten we ze testen met vragen die ze nog nooit hebben gezien.

Are Large Language Models Truly Smarter Than Humans?

1. Het Probleem: De AI's hebben het "antwoordenboekje" gelezen

2. De Drie Experimenten: Hoe hebben ze dit ontdekt?

Experiment 1: De Google-check (Het spoor van de vragen)

Experiment 2: De Parfumeur-test (Verander de woorden)

Experiment 3: De Gedachtenlezer (Wat zit er in hun hoofd?)

3. De Grote Conclusie: Wie is er nu echt slim?

Waarom is dit belangrijk voor jou?

Titel

1. Het Probleem

2. Methodologie: Een Triangulatie van Drie Experimenten

3. Belangrijkste Resultaten

4. Bijdragen en Significatie

Are Large Language Models Truly Smarter Than Humans?

1. Het Probleem: De AI's hebben het "antwoordenboekje" gelezen

2. De Drie Experimenten: Hoe hebben ze dit ontdekt?

Experiment 1: De Google-check (Het spoor van de vragen)

Experiment 2: De Parfumeur-test (Verander de woorden)

Experiment 3: De Gedachtenlezer (Wat zit er in hun hoofd?)

3. De Grote Conclusie: Wie is er nu echt slim?

Waarom is dit belangrijk voor jou?

Titel

1. Het Probleem

2. Methodologie: Een Triangulatie van Drie Experimenten

3. Belangrijkste Resultaten

4. Bijdragen en Significatie

Meer zoals dit

Exploration and Exploitation Errors Are Measurable for Language Model Agents

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Optimizing Earth Observation Satellite Schedules under Unknown Operational Constraints: An Active Constraint Acquisition Approach

WebXSkill: Skill Learning for Autonomous Web Agents