Frontier Lag: A Bibliometric Audit of Capability Misrepresentation in Academic AI Evaluation

Diese Arbeit präsentiert eine bibliometrische Prüfung, die zeigt, dass akademische Bewertungen von KI-Fähigkeiten in Bezug auf die Fähigkeiten systematisch um mehr als ein Jahrzehnt hinter dem aktuellen Stand zurückbleiben, wobei diese Lücke aufgrund von Veröffentlichungsverzögerungen wächst und durch eine weit verbreitete Fehlrepräsentation von Modellkonfigurationen sowie durch übergeneralisierte Behauptungen über „KI" anstelle spezifisch bewerteter Systeme verschärft wird.

Ursprüngliche Autoren: David Gringras, Misha Salahshoor

Veröffentlicht 2026-05-07
📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: David Gringras, Misha Salahshoor

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Die große Idee: Das Problem des „alten Menüs"

Stellen Sie sich vor, Sie betreten 2026 ein gehobenes Restaurant. Sie fragen den Kellner: „Was kann diese Küche?" Der Kellner reicht Ihnen ein Menü, doch es ist ein Menü aus dem Jahr 2023. Es listet Gerichte auf, die mit Zutaten zubereitet wurden, die es nicht mehr gibt, und mit Kochtechniken, die durch schnellere, intelligentere Methoden ersetzt wurden.

Wenn Sie das Menü lesen, könnten Sie zu dem Schluss kommen: „Dieses Restaurant kann kein gutes Essen zubereiten." Doch das ist nicht wahr. Das Restaurant kann gutes Essen zubereiten; sie haben nur das Menü, das Sie lesen, nicht aktualisiert.

Dieses Papier argumentiert, dass die wissenschaftliche Forschung zur KI genau das tut.

Forscher testen KI-Modelle, die bereits „alt" sind (von vor ein oder zwei Jahren), und testen sie auf „einfache" Weise (ohne ihre neuesten, intelligentesten Funktionen). Dann schreiben sie Papiere mit der Aussage: „KI kann X nicht." Doch weil sie nicht die aktuelle KI getestet oder ihre aktuellen Einstellungen verwendet haben, ist die Schlussfolgerung irreführend. Es ist so, als würde man einen Ferrari von 2026 beurteilen, indem man einen Ford Pinto von 2023 fährt.

Die drei Arten, wie das „Menü" veraltet ist

Die Autoren stellten fest, dass die Lücke zwischen dem, was KI jetzt gerade tatsächlich leisten kann, und dem, was die Papiere besagen, riesig ist. Sie unterteilten diese Lücke in drei Teile:

1. Die Zeitverzögerung (Das Problem der „gestrigen Nachrichten")

  • Die Analogie: Stellen Sie sich einen Technik-Reviewer vor, der ein neues Smartphone testet. Doch statt das heute veröffentlichte Modell zu testen, prüft er ein Modell, das vor 18 Monaten herauskam.
  • Das Ergebnis: Das Median-Papier in dieser Studie testete ein KI-Modell, das ungefähr eine Hauptgeneration hinter der besten verfügbaren KI zum Zeitpunkt der Studie zurücklag. Wenn die beste KI ein „Super-Gehirn" ist, testeten die Papiere hauptsächlich ein „Smartphone" aus dem Vorjahr.

2. Die Vertriebsverzögerung (Das Problem der „Budget-Version")

  • Die Analogie: Stellen Sie sich vor, ein Autohersteller bringt zwei Autos heraus: ein „Pro"-Modell mit Turbomotor und ein „Mini"-Modell mit Standardmotor. Ein Reviewer kauft das „Mini", weil es günstiger ist, fährt ein paar Runden um den Block und schreibt einen Bericht mit der Aussage: „Diese Automarke ist langsam." Er hat das „Pro" nie gefahren.
  • Das Ergebnis: Selbst wenn Forscher die „richtige" KI-Familie verwendeten (wie GPT oder Claude), testeten sie oft die günstigere, schwächere Version (wie „Mini" oder „Flash"), während eine viel stärkere „Pro"- oder „Opus"-Version bereits verfügbar war.

3. Die Konfigurationsverzögerung (Das Problem des „ausgeschalteten Lichts")

  • Die Analogie: Stellen Sie sich vor, Sie testen einen High-Tech-Roboter, der denken, Werkzeuge benutzen und Rätsel lösen kann. Doch Sie testen ihn mit dem „Denk"-Schalter ausgeschaltet, der Werkzeugkiste verschlossen und stellen ihm nur eine einfache Frage, ohne ihm irgendwelche Hinweise zu geben. Dann schließen Sie: „Dieser Roboter ist nutzlos."
  • Das Ergebnis: Dies ist die größte Überraschung. Moderne KI verfügt über einen „Schlussfolgerungsmodus" (wie einen tiefen Denkprozess) und kann Werkzeuge nutzen (wie Websuche oder Code-Editoren).
    • Nur 3,2 % der Papiere, die diese „denkenden" Modelle testeten, gaben tatsächlich an, ob sie den Denkmodus eingeschaltet oder ausgeschaltet hatten.
    • Die meisten Papiere testeten die KI im „Zero-Shot"-Modus (nur eine einmalige Frage), anstatt ihr Zeit zum Nachdenken oder Werkzeuge zur Hilfe zu geben.
    • Ergebnis: Sie testen die KI mit gebundenen Händen und behaupten dann, sie könne die Aufgabe nicht erledigen.

Die „Generalisierung"-Falle

Das Papier stellte fest, dass 52,5 % der Abstracts (der kurzen Zusammenfassungen am Anfang von Papieren) einen gefährlichen Fehler machten.

  • Was sie taten: Sie testeten eine spezifische, ältere, schwächere KI.
  • Was sie schrieben: Sie folgerten, dass „KI" (als gesamte Kategorie) die Aufgabe nicht bewältigen kann.
  • Die Analogie: Es ist so, als würde man ein spezifisches, defektes Fahrrad testen und eine Schlagzeile schreiben: „Fahrräder sind gefährlich." Die Schlagzeile ignoriert die Tatsache, dass sie nur ein einziges defektes Fahrrad getestet haben, nicht alle Fahrräder.

Da diese Schlagzeilen von Ärzten, Anwälten und politischen Entscheidungsträgern zitiert werden, beginnt die Welt zu glauben, dass KI schlechter ist, als sie tatsächlich ist.

Warum passiert das? (Es ist keine Bosheit)

Die Autoren betonen sorgfältig: Die Forscher lügen nicht. Sie tun ihr Bestes mit den Werkzeugen, die sie haben.

  • Geld: Die neuesten, intelligentesten KI-Modelle laufen zu lassen, ist unglaublich teuer. Wissenschaftliche Forscher können sich oft die „Pro"-Versionen nicht leisten, also nutzen sie die kostenlosen oder günstigen Versionen.
  • Zeit: Es dauert Jahre, ein Papier zu veröffentlichen. Bis ein Papier gedruckt ist, hat sich die Welt der KI weiterentwickelt.
  • Gewohnheit: Die Regeln für das Schreiben dieser Papiere wurden verfasst, bevor KI „Denkmodi" oder „Werkzeugkästen" hatte. Forscher folgen alten Regeln, die nicht zur neuen Technologie passen.

Die Lösung: Ein neues „Etikett"-System

Das Papier schlägt eine einfache Korrektur namens versio-ai vor. Es ist wie ein neues Nährwertetikett für KI-Papiere. Bevor ein Papier veröffentlicht wird, müssen die Autoren klar angeben:

  1. Genau welches Modell sie verwendeten (z. B. „GPT-5.5 Pro", nicht nur „GPT").
  2. Wann sie es testeten.
  3. Wie sie es testeten (Schalteten sie den „Denk"-Modus ein? Gaben sie ihm Werkzeuge?).

Fehlen diese drei Punkte, sollte das Papier abgelehnt werden. Dies macht die KI nicht intelligenter, aber es verhindert, dass wir das „alte Menü" lesen und denken, das Restaurant habe aufgehört zu kochen.

Zusammenfassung

Die wissenschaftliche Literatur zeigt uns derzeit nur einen Schatten dessen, was KI leisten kann, nicht die Realität. Es ist ein Schatten, der von älteren, schwächeren Modellen geworfen wird, die auf einfache Weise getestet wurden. Die Lücke zwischen diesem Schatten und der echten KI wird jedes Jahr größer. Das Papier argumentiert, dass die Welt die Fähigkeiten der KI weiter unterschätzen wird, es sei denn, Forscher werden spezifischer darüber, was sie genau getestet haben.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →