Position: Science of AI Evaluation Requires Item-level Benchmark Data

Dieses Positionspapier argumentiert, dass für eine rigorose Wissenschaft der KI-Evaluation zwingend datenbasierte Analysen auf Item-Ebene erforderlich sind, um systemische Validitätsmängel zu beheben und stellt dafür das Repository „OpenEval" als zentrale Ressource vor.

Han Jiang, Susu Zhang, Xiaoyuan Yi, Xing Xie, Ziang Xiao

Veröffentlicht 2026-04-07
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest herausfinden, wie gut ein neuer, super-intelligenter Roboter (eine Künstliche Intelligenz) ist. Bisher haben wir das gemacht, indem wir ihm einen riesigen, standardisierten Test gegeben haben – ähnlich wie einen Schulabschluss oder einen Führerschein. Am Ende haben wir einfach nur eine Gesamtnote bekommen: „Der Roboter hat 85 % erreicht."

Das Problem? Diese Note sagt uns oft nicht, warum der Roboter gut oder schlecht ist. Ist er wirklich schlau, oder hat er einfach nur die Lösungen auswendig gelernt? Ist der Test fair, oder sind die Fragen zu einfach?

Diese neue Forschungsarbeit von Han Jiang und seinem Team sagt: „Halt! Wir brauchen mehr als nur die Gesamtnote. Wir müssen jeden einzelnen Testpunkt (jede einzelne Frage) genau unter die Lupe nehmen."

Hier ist die Erklärung der wichtigsten Punkte, übersetzt in einfache Sprache mit ein paar Bildern:

1. Das Problem: Der „Blackbox"-Test

Stell dir vor, du kaufst ein Auto und der Händler sagt dir nur: „Es fährt gut." Aber du weißt nicht, ob der Motor stark ist, ob die Bremsen funktionieren oder ob das Lenkrad wackelt.
In der KI-Welt passiert genau das. Wir geben Modellen einen Test (z. B. MMLU), und sie bekommen eine Punktzahl. Aber:

  • Veraltete Fragen: Manche Fragen sind so alt, dass die KI sie einfach aus ihrem Trainingsbuch kennt (wie ein Schüler, der die Lösungen im Internet nachschaut, bevor der Test beginnt).
  • Zu einfach: Die KI hat so viel gelernt, dass die alten Fragen ihr nichts mehr abverlangen. Es ist, als würde man einem Erwachsenen einen Mathe-Test für Grundschüler geben.
  • Versteckte Fehler: Vielleicht hat die KI die richtige Antwort nur geraten, weil die Frage schlecht formuliert war, nicht weil sie das Thema verstanden hat.

Ohne die Details zu jeder einzelnen Frage zu kennen, können wir nicht sagen, ob die KI wirklich intelligent ist oder nur gut im Raten.

2. Die Lösung: Der „Schulheft-Ansatz"

Die Autoren vergleichen die KI-Evaluation mit der Pädagogik und Psychologie. Wenn ein Lehrer einen Schüler bewertet, schaut er nicht nur auf die Endnote. Er schaut in den Heft:

  • Welche Fragen waren schwer?
  • Wo hat der Schüler einen Denkfehler gemacht?
  • Hat der Schüler das Konzept verstanden oder nur die Formel auswendig gelernt?

Die Forscher nennen das Item-Level-Daten (Daten auf der Ebene der einzelnen Testfragen). Sie sagen: „Wir müssen jede einzelne Frage und jede einzelne Antwort der KI speichern und analysieren."

3. Warum ist das so wichtig? (Die Metaphern)

  • Die Lupe statt des Fernglases:
    Bisher haben wir durch ein Fernglas geschaut und nur gesehen: „Da ist ein Berg (hohe Punktzahl)." Mit den Item-Level-Daten nehmen wir eine Lupe. Wir sehen: „Ah, der Berg besteht eigentlich aus Sand. Die KI hat nur die Oberfläche gekratzt, aber nicht die Tiefe verstanden."

  • Die Autowerkstatt:
    Wenn ein Auto kaputt geht, schauen Mechaniker nicht nur auf die Kilometerzahl. Sie nehmen den Motor auseinander. Die Item-Level-Daten sind wie der Werkzeugkasten, der es uns erlaubt, den „Motor" der KI zu zerlegen und zu sehen, welche Teile (Fähigkeiten) funktionieren und welche nicht.

  • Der Kochwettbewerb:
    Stell dir vor, ein Koch gewinnt einen Wettbewerb, weil er eine Suppe gemacht hat, die alle mochten. Aber wir wissen nicht, ob er die Suppe selbst gekocht oder ob er einfach eine fertige Suppe aus der Dose aufgewärmt hat. Wenn wir aber sehen, wie er jeden einzelnen Schritt gemacht hat (die einzelnen Zutaten, die Temperatur, die Zeit), können wir beurteilen, ob er wirklich ein Koch ist. Die Item-Level-Daten zeigen uns die „Zutaten" der KI-Antworten.

4. Was machen die Forscher konkret?

Sie haben eine riesige Bibliothek namens OpenEval gegründet.

  • Das Ziel: Alle Fragen, alle Antworten der KI und alle Details zu speichern.
  • Der Effekt: Jeder kann jetzt selbst nachschauen. Man kann sehen: „Oh, bei Fragen über Physik ist die KI super, aber bei Fragen über Ethik macht sie dumme Fehler." Oder: „Diese eine Frage war so schlecht formuliert, dass alle KIs sie falsch beantwortet haben."

5. Das Fazit für uns alle

Wenn wir KI in wichtigen Bereichen einsetzen wollen (z. B. in der Medizin, bei Gerichten oder in Schulen), dürfen wir nicht blind auf eine Gesamtnote vertrauen. Wir brauchen Transparenz.

Die Botschaft der Arbeit ist einfach: Hören wir auf, nur auf die Note zu starren. Fangen wir an, die Hausaufgaben der KI zu korrigieren. Nur so können wir sicherstellen, dass diese mächtigen Systeme wirklich das tun, was wir von ihnen erwarten, und nicht nur gut darin sind, Tests zu bestehen.

Kurz gesagt: Wir brauchen mehr Details, um die Intelligenz unserer Maschinen wirklich zu verstehen, genau wie ein Lehrer die Leistungen eines Schülers nicht nur an einer einzigen Zahl messen würde.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →