Ursprüngliche Autoren: David Gringras, Misha Salahshoor

Veröffentlicht 2026-05-07

📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: David Gringras, Misha Salahshoor

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Die große Idee: Das Problem des „alten Menüs"

Stellen Sie sich vor, Sie betreten 2026 ein gehobenes Restaurant. Sie fragen den Kellner: „Was kann diese Küche?" Der Kellner reicht Ihnen ein Menü, doch es ist ein Menü aus dem Jahr 2023. Es listet Gerichte auf, die mit Zutaten zubereitet wurden, die es nicht mehr gibt, und mit Kochtechniken, die durch schnellere, intelligentere Methoden ersetzt wurden.

Wenn Sie das Menü lesen, könnten Sie zu dem Schluss kommen: „Dieses Restaurant kann kein gutes Essen zubereiten." Doch das ist nicht wahr. Das Restaurant kann gutes Essen zubereiten; sie haben nur das Menü, das Sie lesen, nicht aktualisiert.

Dieses Papier argumentiert, dass die wissenschaftliche Forschung zur KI genau das tut.

Forscher testen KI-Modelle, die bereits „alt" sind (von vor ein oder zwei Jahren), und testen sie auf „einfache" Weise (ohne ihre neuesten, intelligentesten Funktionen). Dann schreiben sie Papiere mit der Aussage: „KI kann X nicht." Doch weil sie nicht die aktuelle KI getestet oder ihre aktuellen Einstellungen verwendet haben, ist die Schlussfolgerung irreführend. Es ist so, als würde man einen Ferrari von 2026 beurteilen, indem man einen Ford Pinto von 2023 fährt.

Die drei Arten, wie das „Menü" veraltet ist

Die Autoren stellten fest, dass die Lücke zwischen dem, was KI jetzt gerade tatsächlich leisten kann, und dem, was die Papiere besagen, riesig ist. Sie unterteilten diese Lücke in drei Teile:

1. Die Zeitverzögerung (Das Problem der „gestrigen Nachrichten")

Die Analogie: Stellen Sie sich einen Technik-Reviewer vor, der ein neues Smartphone testet. Doch statt das heute veröffentlichte Modell zu testen, prüft er ein Modell, das vor 18 Monaten herauskam.
Das Ergebnis: Das Median-Papier in dieser Studie testete ein KI-Modell, das ungefähr eine Hauptgeneration hinter der besten verfügbaren KI zum Zeitpunkt der Studie zurücklag. Wenn die beste KI ein „Super-Gehirn" ist, testeten die Papiere hauptsächlich ein „Smartphone" aus dem Vorjahr.

2. Die Vertriebsverzögerung (Das Problem der „Budget-Version")

Die Analogie: Stellen Sie sich vor, ein Autohersteller bringt zwei Autos heraus: ein „Pro"-Modell mit Turbomotor und ein „Mini"-Modell mit Standardmotor. Ein Reviewer kauft das „Mini", weil es günstiger ist, fährt ein paar Runden um den Block und schreibt einen Bericht mit der Aussage: „Diese Automarke ist langsam." Er hat das „Pro" nie gefahren.
Das Ergebnis: Selbst wenn Forscher die „richtige" KI-Familie verwendeten (wie GPT oder Claude), testeten sie oft die günstigere, schwächere Version (wie „Mini" oder „Flash"), während eine viel stärkere „Pro"- oder „Opus"-Version bereits verfügbar war.

3. Die Konfigurationsverzögerung (Das Problem des „ausgeschalteten Lichts")

Die Analogie: Stellen Sie sich vor, Sie testen einen High-Tech-Roboter, der denken, Werkzeuge benutzen und Rätsel lösen kann. Doch Sie testen ihn mit dem „Denk"-Schalter ausgeschaltet, der Werkzeugkiste verschlossen und stellen ihm nur eine einfache Frage, ohne ihm irgendwelche Hinweise zu geben. Dann schließen Sie: „Dieser Roboter ist nutzlos."
Das Ergebnis: Dies ist die größte Überraschung. Moderne KI verfügt über einen „Schlussfolgerungsmodus" (wie einen tiefen Denkprozess) und kann Werkzeuge nutzen (wie Websuche oder Code-Editoren).
- Nur 3,2 % der Papiere, die diese „denkenden" Modelle testeten, gaben tatsächlich an, ob sie den Denkmodus eingeschaltet oder ausgeschaltet hatten.
- Die meisten Papiere testeten die KI im „Zero-Shot"-Modus (nur eine einmalige Frage), anstatt ihr Zeit zum Nachdenken oder Werkzeuge zur Hilfe zu geben.
- Ergebnis: Sie testen die KI mit gebundenen Händen und behaupten dann, sie könne die Aufgabe nicht erledigen.

Die „Generalisierung"-Falle

Das Papier stellte fest, dass 52,5 % der Abstracts (der kurzen Zusammenfassungen am Anfang von Papieren) einen gefährlichen Fehler machten.

Was sie taten: Sie testeten eine spezifische, ältere, schwächere KI.
Was sie schrieben: Sie folgerten, dass „KI" (als gesamte Kategorie) die Aufgabe nicht bewältigen kann.
Die Analogie: Es ist so, als würde man ein spezifisches, defektes Fahrrad testen und eine Schlagzeile schreiben: „Fahrräder sind gefährlich." Die Schlagzeile ignoriert die Tatsache, dass sie nur ein einziges defektes Fahrrad getestet haben, nicht alle Fahrräder.

Da diese Schlagzeilen von Ärzten, Anwälten und politischen Entscheidungsträgern zitiert werden, beginnt die Welt zu glauben, dass KI schlechter ist, als sie tatsächlich ist.

Warum passiert das? (Es ist keine Bosheit)

Die Autoren betonen sorgfältig: Die Forscher lügen nicht. Sie tun ihr Bestes mit den Werkzeugen, die sie haben.

Geld: Die neuesten, intelligentesten KI-Modelle laufen zu lassen, ist unglaublich teuer. Wissenschaftliche Forscher können sich oft die „Pro"-Versionen nicht leisten, also nutzen sie die kostenlosen oder günstigen Versionen.
Zeit: Es dauert Jahre, ein Papier zu veröffentlichen. Bis ein Papier gedruckt ist, hat sich die Welt der KI weiterentwickelt.
Gewohnheit: Die Regeln für das Schreiben dieser Papiere wurden verfasst, bevor KI „Denkmodi" oder „Werkzeugkästen" hatte. Forscher folgen alten Regeln, die nicht zur neuen Technologie passen.

Die Lösung: Ein neues „Etikett"-System

Das Papier schlägt eine einfache Korrektur namens versio-ai vor. Es ist wie ein neues Nährwertetikett für KI-Papiere. Bevor ein Papier veröffentlicht wird, müssen die Autoren klar angeben:

Genau welches Modell sie verwendeten (z. B. „GPT-5.5 Pro", nicht nur „GPT").
Wann sie es testeten.
Wie sie es testeten (Schalteten sie den „Denk"-Modus ein? Gaben sie ihm Werkzeuge?).

Fehlen diese drei Punkte, sollte das Papier abgelehnt werden. Dies macht die KI nicht intelligenter, aber es verhindert, dass wir das „alte Menü" lesen und denken, das Restaurant habe aufgehört zu kochen.

Zusammenfassung

Die wissenschaftliche Literatur zeigt uns derzeit nur einen Schatten dessen, was KI leisten kann, nicht die Realität. Es ist ein Schatten, der von älteren, schwächeren Modellen geworfen wird, die auf einfache Weise getestet wurden. Die Lücke zwischen diesem Schatten und der echten KI wird jedes Jahr größer. Das Papier argumentiert, dass die Welt die Fähigkeiten der KI weiter unterschätzen wird, es sei denn, Forscher werden spezifischer darüber, was sie genau getestet haben.

Each language version is independently generated for its own context, not a direct translation.

Technische Zusammenfassung: Frontier-Lag: Eine bibliometrische Prüfung der Fehldarstellung von Fähigkeiten in der akademischen KI-Evaluation

1. Problemstellung

Die angewandte Fachliteratur, die Large Language Models (LLMs) in Bereichen wie Medizin, Recht, Programmierung, Bildung und wissenschaftliches Schlussfolgern bewertet, stellt die aktuellen KI-Fähigkeiten systematisch falsch dar. Die Prüfung identifiziert eine strukturelle Diskrepanz zwischen den in wissenschaftlichen Arbeiten getesteten Systemen und der zeitgenössischen „Frontier" (Spitze) der KI-Fähigkeiten.

Diese Diskrepanz, die als Veröffentlichungs-Elicitation-Lücke (publication elicitation gap) bezeichnet wird, ergibt sich aus drei sich verstärkenden Faktoren:

Zeitliche Verzögerung (Temporal Lag): Arbeiten bewerten Modelle, die Monate oder Jahre vor dem Veröffentlichungsdatum herausgegeben wurden, und verpassen damit nachfolgende Generationen.
Tier-Verzögerung (Tier Lag): Arbeiten testen häufig schwächere Stufen einer Modellfamilie (z. B. „mini"- oder „Flash"-Versionen), während stärkere Geschwistermodelle (z. B. „Pro" oder „Opus") bereits öffentlich verfügbar sind.
Underspezifikation der Konfiguration: Methodenteile lassen häufig kritische Elicitation-Details aus (Schlussfolgerungsmodus, Tool-Zugriff, Scaffolding, Sampling-Parameter), was zu einer „naiven" Evaluation führt, die das volle Potenzial des Modells nicht erfasst.

Die Folge ist, dass Abstracts und nachfolgende Zitate spezifische, underspezifizierte Ergebnisse auf die Klasse der „KI" verallgemeinern und so ein irreführendes Narrativ für Kliniker, politische Entscheidungsträger und nachgelagerte Verbraucher darüber schaffen, was KI derzeit leisten kann.

2. Methodik

Die Studie ist eine präregistrierte bibliometrische Prüfung, die an einem Korpus akademischer Literatur vom 1. Januar 2022 bis zum 1. April 2026 durchgeführt wurde.

Korpusaufbau

Quelle: OpenAlex-Snapshot (März 2026).
Umfang: 112.303 Datensätze, die über Schlüsselwörter („LLM", „GPT", „Claude" usw.) in fünf Domänen abgeglichen wurden: Medizin, Recht, Programmierung, Bildung und wissenschaftliches Schlussfolgern.
Einschlusskriterien: 18.574 Arbeiten erfüllten die Zulassungskriterien (empirische Evaluation eines benannten LLM an einer angewandten Aufgabe, quantitative Ergebnisse, peer-reviewed oder Frontier-Preprint).
Erfassungsprüfung: Eine geschichtete Zufallsstichprobe aus einem verbleibenden Pool schätzte die Erfassungsrate auf ca. 80 %, ohne signifikante Verzerrung bei den primären Ergebnissen (Lückengröße, Valenz, Rahmung).

Messrahmen

Die Prüfung bewertet Arbeiten anhand dreier Dimensionen:

Fähigkeitsdimension: Gemessen über den Epoch AI Capabilities Index (eci). Das primäre Ergebnis ist die eci_gap, definiert als die Differenz zwischen der zeitgenössischen Frontier (höchster eci-Modell, der am Evaluationsdatum verfügbar war) und dem in der Arbeit getesteten Modell.
- Imputation: Wenn das Evaluationsdatum nicht offengelegt wird, wird es als max(Veröffentlichungsdatum - 180 Tage, Modellveröffentlichungsdatum) imputiert.
- Sensitivität: Die Ergebnisse werden gegen unabhängige Skalen validiert: Chatbot Arena Elo und der Artificial Analysis Intelligence Index.
Elicitation-Dimension: Bewertet die Offenlegung von Konfigurationsdetails (Schlussfolgerungsmodus, Denkaufwand, Tool-Nutzung, Scaffolding, Multi-Agent-Architektur, Prompting-Strategie).
Interpretationsdimension: Misst, ob Schlussfolgerungen vom spezifischen getesteten Modell auf die Klasse der „KI" verallgemeinert werden (ai_generic-Rahmung) und ob menschliche/professionelle Vergleichsgruppen vorhanden sind.

Extraktion und Validierung

Pipeline: Automatisierte Extraktion mittels eines Frontier-LLMs (V4F-Max) für die Klassifizierung der Zulässigkeit und die Feldextraktion, validiert gegen einen doppelten menschlichen Goldstandard (n=300) und kreuzfamiliäre Triaden (GPT-5, Claude Opus, Gemini).
Validierung: Cohens $\kappa$ -Werte überstiegen die präregistrierten Schwellenwerte (z. B. 0,896 für das primäre Modell, 0,767 für die Valenz der Schlussfolgerung).
Hypothesentests: Präregistrierte konfirmatorische Tests (H1, H3, H6) verwenden die Holm-Schritt-für-Schritt-Korrektur ( $\alpha=0,05$ ) gegen Nullhypothesen struktureller Nullwerte. Deskriptive Größen (H2, H4, H5) verwenden simultane 95 %-Konfidenzintervalle.

3. Hauptbeiträge

Quantifizierung der Veröffentlichungs-Elicitation-Lücke: Die Prüfung liefert die erste domänenübergreifende, präregistrierte Messung der Distanz zwischen akademischen Evaluationen und der Frontier, aufgeteilt in zeitliche, Tier- und Konfigurationskomponenten.
Definition von „Kombiniertem Versagen": Sie operationalisiert eine Metrik für Arbeiten, die gleichzeitig in Bezug auf Fähigkeiten (hinter der Frontier zurückbleibend), Elicitation (fehlende Konfigurationsdetails) und Interpretation (übermäßig verallgemeinernde Behauptungen) versagen.
versio-ai v1.2-Checkliste: Eine 13-Punkte-Berichtcheckliste, die darauf abzielt, bestehende Rahmenwerke (CONSORT-AI, TRIPOD-LLM usw.) zu erweitern, indem sie die Offenlegung der „Elicitation-Oberfläche" (Modell-Snapshot, Evaluationsdatum, Schlussfolgerungsmodus, Tool-Zugriff usw.) vorschreibt.
frontierlag-Tool: Ein Live-Python-Paket und Web-Tool, das Benutzern ermöglicht, eine DOI einzugeben und einen Prüfbericht zu erhalten, der die Distanz der Arbeit zur Frontier und ihren Offenlegungsstatus detailliert darlegt.

4. Hauptergebnisse

Signifikante und sich vergrößernde Verzögerung (H1, H2):
- Die mediane Arbeit bewertet ein Modell mit +10,85 eci hinter der zeitgenössischen Frontier. Diese Lücke entspricht ungefähr dem 1,4-fachen der Distanz zwischen Claude Sonnet 3.7 und Opus 4.5 (ein großer Tier-Sprung).
- Die Lücke vergrößert sich mit einer Rate von +5,53 eci/Jahr, was darauf hindeutet, dass die Literatur schneller hinter die Frontier zurückfällt, als Publikationszyklen das Korpus erneuern können.
Tier-Verzögerung (H3):
- Bei Arbeiten, bei denen innerhalb von 90 Tagen ein stärkeres Geschwistermodell öffentlich war, beträgt die mediane Tier-Verzögerung +12,63 eci.
Underspezifikation der Konfiguration (H4):
- Nur 3,2 % der Abstracts und 21,2 % der Volltexte legen den Schlussfolgerungsmodus für schlussfolgerungsfähige Modelle offen.
- Evaluationsdaten werden nur in 18,4 % der Volltextarbeiten offengelegt.
Verallgemeinerung auf Klassenebene (Deskriptiv):
- 52,5 % der Abstracts rahmen Schlussfolgerungen auf der Ebene der „KI" statt des spezifisch getesteten Modells.
- Diese Tendenz nimmt zu, wobei die Odds um OR = 1,23 pro Jahr steigen.
Rate des kombinierten Versagens (H5):
- Unter einer konservativen Operationalisierung versagen 9,2 % der zulässigen Arbeiten gleichzeitig alle drei Prüfdimensionen.
- Unter einer inklusiven Sensitivitätsanalyse steigt diese Rate auf 38,3 %.
Valenz-Asymmetrie (H6):
- Es wurde keine signifikante Korrelation zwischen der Größe der Verzögerung und der Valenz (positiv/negativ) der Schlussfolgerung der Arbeit gefunden.

5. Bedeutung und Behauptungen

Die Arbeit behauptet, dass die akademische Bilanz im Gesamten den Lesern zunehmend nicht mehr mitteilen kann, über welche KI sie spricht.

Strukturell, nicht individuell: Die Prüfung stellt ausdrücklich fest, dass sie einzelne Autoren nicht des böswilligen Handelns beschuldigt. Das Muster ist ein vorhersehbares Gleichgewicht aus Peer-Review-Zyklen, kostenbeschränktem API-Zugriff und Berichtsstandards, die aus einer Ära vor Schlussfolgerungsmodellen geerbt wurden.
Fehldarstellung vs. Wahrheit: Die Prüfung misst die „Distanz zur Frontier", nicht die „Distanz zur Wahrheit". Sie behauptet nicht, dass das Wiederholen dieser Experimente mit Frontier-Modellen die Ergebnisse notwendigerweise umkehren würde, sondern dass die veröffentlichten Behauptungen vom aktuellen Stand der Technik entkoppelt sind.
Nachgelagerte Auswirkungen: Die Ergebnisse deuten darauf hin, dass Policy-Briefs, klinische Beschaffungsentscheidungen und Sicherheitsforschung, die auf diesen Arbeiten basieren, mit veralteten und underspezifizierten Daten operieren.
Abhilfe: Die Arbeit schlägt eine gemeinsame Verantwortung von Autoren, Herausgebern und Geldgebern vor:
- Autoren: Die versio-ai-Checkliste anwenden, um die Konfigurationsoberfläche offenzulegen.
- Herausgeber/Reviewer: Die Offenlegung von Modell-Snapshots, Evaluationsdaten und Schlussfolgerungsmodulen durchsetzen.
- Geldgeber: Fördermittel an Offenlegung knüpfen und Budgets für API-Zugriff bereitstellen, damit akademische Gruppen Konfigurationen in der Nähe der Frontier evaluieren können, anstatt sich ausschließlich auf günstigere, veraltete Alternativen zu verlassen.

Die Arbeit schließt damit, dass zwar keine einzelne Arbeit „ihre eigene Frage falsch beantwortet", die kollektive Literatur jedoch ein verzerrtes Bild der KI-Fähigkeiten zeichnet, das strukturelle Interventionen zur Korrektur erfordert.

Frontier Lag: A Bibliometric Audit of Capability Misrepresentation in Academic AI Evaluation