Are Large Language Models Truly Smarter Than Humans?

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie bereiten sich auf eine große Prüfung vor. Sie lernen fleißig, aber statt die Konzepte wirklich zu verstehen, haben Sie versehentlich die exakten Fragen und Antworten aus dem alten Lehrbuch auswendig gelernt, das auch der Prüfer benutzt. Wenn Sie dann die Prüfung machen, schreiben Sie eine 100, weil Sie die Fragen wiedererkennen. Aber wenn der Prüfer die Fragen nur ein wenig umformuliert oder eine neue, ähnliche Frage stellt, scheitern Sie sofort, weil Sie das Thema nicht wirklich verstanden haben.

Genau dieses Szenario untersucht die vorliegende Studie über die künstlichen Intelligenzen (LLMs) wie GPT-4, DeepSeek oder Llama. Die Forscher fragen: Sind diese KI-Modelle wirklich intelligenter als Menschen, oder haben sie einfach nur „die Prüfung gesehen"?

Hier ist die Erklärung der Studie in einfachen Worten, mit ein paar bildhaften Vergleichen:

1. Das Problem: Der „Leck"-Kuchen

Die KI-Modelle werden mit riesigen Mengen an Daten aus dem Internet trainiert – wie ein Schüler, der die gesamte Bibliothek der Welt gelesen hat. Das Problem ist: Viele der Prüfungsfragen, mit denen wir die KI testen (wie der berühmte MMLU-Test), sind ebenfalls im Internet zu finden.

Die Analogie: Stellen Sie sich vor, Sie geben einem Schüler einen Test, bei dem die Fragen schon in seinem Hausaufgabenheft stehen. Wenn er die Fragen auswendig lernt, besteht er die Prüfung. Aber das bedeutet nicht, dass er Mathe oder Geschichte wirklich versteht.
Was die Studie fand: Die Forscher haben 513 Fragen getestet und herausgefunden, dass 13,8 % davon fast sicher im Internet (und damit im Gedächtnis der KI) waren. In manchen Fächern wie Philosophie war der Anteil sogar extrem hoch (bis zu 66,7 %). Die KI hat also nicht nur gelernt, sie hat die „Spickzettel" auswendig gelernt.

2. Der erste Test: Die „Suchmaschinen"-Methode (Experiment 1)

Die Forscher haben einfach nach den Fragen im Internet gesucht.

Das Ergebnis: Sie fanden viele Fragen, die fast wörtlich im Internet standen. Besonders in MINT-Fächern (Mathematik, Informatik, Naturwissenschaften) war das ein großes Problem.
Die Erkenntnis: Wenn man diese „Spickzettel-Fragen" aus der Bewertung entfernt, sinkt die Leistung der KI drastisch. Sie sieht nicht mehr so genial aus wie auf den öffentlichen Ranglisten.

3. Der zweite Test: Die „Umschreibungs"-Methode (Experiment 2)

Hier wurde es spannender. Die Forscher nahmen die Fragen und schrieben sie komplett um.

Die Analogie: Statt zu fragen: „Wer war der erste Präsident der USA?", fragten sie: „Wer führte die Kolonien im Unabhängigkeitskrieg an und wurde später zum Staatsoberhaupt gewählt?" Die Antwort ist dieselbe, aber die Wörter sind anders.
Das Ergebnis: Als die KI die Fragen in neuer Form sah, wurde sie viel schlechter!
- In Fächern wie Recht und Ethik brach die Leistung um fast 20 % ein.
- Das zeigt: Die KI hat die Wörter der alten Fragen gelernt, nicht aber das Wissen dahinter. Sie ist wie ein Schauspieler, der einen Text auswendig kann, aber nicht versteht, was er sagt.

4. Der dritte Test: Die „Gedächtnis-Scan"-Methode (Experiment 3)

Hier haben die Forscher die KI direkt „gefragt", ob sie sich an Details erinnert, die sie eigentlich nicht kennen sollte. Sie haben Teile der Fragen ausgeblendet und gefragt: „Können Sie das fehlende Wort oder die falsche Antwort, die hier stand, wiederherstellen?"

Das Ergebnis: Bei 72,5 % der Fragen konnte die KI die verdeckten Teile wiederherstellen. Das beweist: Die KI hat die Fragen tatsächlich in ihrem „Gehirn" gespeichert.
Der seltsame Fall DeepSeek-R1: Ein Modell namens DeepSeek-R1 war besonders interessant. Es konnte die exakten Wörter nicht mehr wiedergeben, aber es erinnerte sich an die Idee der falschen Antworten.
- Die Analogie: Es ist wie jemand, der sich nicht an den genauen Wortlaut eines Gedichts erinnert, aber weiß, dass es um Liebe und Verlust ging. Es hat das Wissen „verdichtet" gespeichert, aber es ist immer noch auswendig gelernt und nicht wirklich verstanden. Deshalb war es bei neuen, umformulierten Fragen auch nicht besser als die anderen.

Was bedeutet das für uns?

Die KI ist nicht so schlau, wie sie tut: Die hohen Punktzahlen auf den Leaderboards sind oft nur ein Spiegelbild dessen, wie gut die KI das Internet durchsucht und sich Dinge merkt. Sie ist ein ausgezeichneter Auswendig-Lerner, aber kein garantierter Denker.
Die Gefahr im echten Leben: In der echten Welt (z. B. bei einem Anwalt oder Arzt) gibt es keine exakten Prüfungsfragen. Wenn eine KI nur auf dem „Spickzettel" basiert, wird sie in neuen Situationen halluzinieren (falsche Fakten erfinden) oder versagen.
Ein neuer Standard nötig: Wir können nicht mehr einfach auf die alten Tests vertrauen. Wir brauchen neue Prüfungen, die:
- Nicht im Internet zu finden sind.
- Die Fragen ständig umschreiben, damit die KI nicht auswendig lernen kann.
- Prüfen, ob die KI das Prinzip versteht und nicht nur die Antwort kennt.

Fazit

Die Studie sagt im Grunde: Die KI hat die Prüfung nicht bestanden, weil sie klüger ist, sondern weil sie die Fragen vorher gesehen hat.

Bis wir Tests haben, die diese „Spickzettel"-Probleme ausschließen, sollten wir den Behauptungen, dass KI menschliche Experten übertrifft, mit großer Skepsis begegnen. Es ist, als würde man einem Schüler eine 1 geben, nur weil er die Lösungen der alten Klausur auswendig gelernt hat – aber wir wissen nicht, ob er die Mathematik wirklich versteht.

Are Large Language Models Truly Smarter Than Humans?

1. Das Problem: Der „Leck"-Kuchen

2. Der erste Test: Die „Suchmaschinen"-Methode (Experiment 1)

3. Der zweite Test: Die „Umschreibungs"-Methode (Experiment 2)

4. Der dritte Test: Die „Gedächtnis-Scan"-Methode (Experiment 3)

Was bedeutet das für uns?

Fazit

Titel: Sind Large Language Models wirklich intelligenter als Menschen?

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Implikationen

Are Large Language Models Truly Smarter Than Humans?

1. Das Problem: Der „Leck"-Kuchen

2. Der erste Test: Die „Suchmaschinen"-Methode (Experiment 1)

3. Der zweite Test: Die „Umschreibungs"-Methode (Experiment 2)

4. Der dritte Test: Die „Gedächtnis-Scan"-Methode (Experiment 3)

Was bedeutet das für uns?

Fazit

Titel: Sind Large Language Models wirklich intelligenter als Menschen?

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Implikationen

Mehr davon

Exploration and Exploitation Errors Are Measurable for Language Model Agents

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Optimizing Earth Observation Satellite Schedules under Unknown Operational Constraints: An Active Constraint Acquisition Approach

WebXSkill: Skill Learning for Autonomous Web Agents