Measuring What AI Systems Might Do: Towards A Measurement Science in AI

Der vorliegende Aufsatz argumentiert, dass KI-Fähigkeiten als dispositionelle Eigenschaften zu verstehen sind, die eine neue, wissenschaftlich fundierte Evaluationsmethodik erfordern, die über die derzeitigen, rein leistungsbezogenen Benchmark-Ansätze hinausgeht.

Konstantinos Voudouris, Mirko Thalmann, Alex Kipnis, José Hernández-Orallo, Eric Schulz

Veröffentlicht 2026-03-03
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Warum wir AI nicht wie ein Schulzeugnis bewerten sollten

(Eine einfache Erklärung des Papers „Measuring What AI Systems Might Do")

Stellen Sie sich vor, Sie wollen wissen, wie stark ein neues Auto ist. Die aktuelle Methode in der KI-Welt wäre so: Man fährt das Auto einmal eine Runde um den Block, schaut, wie schnell es war, und schreibt dann auf der Seite 100 Punkte auf. Das ist unser heutiger „Benchmark".

Die Autoren dieses Papers sagen jedoch: Das ist völlig falsch. Wenn Sie wissen wollen, wie sicher ein Auto ist oder wie gut es im Regen fährt, reicht ein einziger trockener Testlauf nicht. Sie müssen wissen, wie das Auto reagiert, wenn sich die Bedingungen ändern.

Hier ist die Kernbotschaft des Papers, übersetzt in eine einfache Geschichte:

1. Das Problem: Wir verwechseln „Tat" mit „Fähigkeit"

Heute messen wir KI-Systeme (wie Chatbots) so, als wären sie Schüler in einem Test. Wir geben ihnen eine Liste von Matheaufgaben oder Sicherheitsfragen, sie lösen sie, und wir zählen die richtigen Antworten. Das Ergebnis ist eine Zahl: „Die KI ist zu 62 % gut in Mathe."

Das Problem ist: Diese Zahl sagt uns nichts darüber, warum die KI Fehler macht.

  • Ist sie bei schwierigen Zahlen unsicher?
  • Versteht sie die Logik nicht?
  • Oder hat sie die Antwort einfach nur im Internet gelesen?

Die Autoren nennen das einen Fehler. Eine echte Fähigkeit (z. B. Mathe können) ist keine einzelne Tat. Es ist eine Veranlagung.

2. Die Lösung: Die „Glaskugel"-Analogie

Stellen Sie sich ein Glas vor.

  • Die aktuelle Methode: Wir nehmen das Glas, lassen es einmal fallen. Es zerbricht nicht. Wir schreiben auf: „Dieses Glas ist stabil."
  • Die richtige Methode (nach dem Paper): Wir wissen, dass Glas eine Veranlagung (eine Disposition) zum Zerbrechen hat. Um das zu messen, müssen wir nicht nur einmal fallen lassen. Wir müssen das Glas mit unterschiedlicher Wucht werfen: einmal leicht, einmal mittelhart, einmal sehr hart.

Erst wenn wir sehen, bei welcher Wucht das Glas zerbricht, haben wir seine wahre Eigenschaft gemessen.

Genau so ist es mit KI:

  • Fähigkeiten (Capabilities): Wie gut ist die KI bei Mathe? Nicht bei einer Aufgabe, sondern: Wie gut wird sie, wenn die Aufgabe 10 Schritte hat? 100 Schritte? 1000? Wir müssen die Schwierigkeit systematisch erhöhen, um zu sehen, wo die KI versagt.
  • Neigungen (Propensities): Wie wahrscheinlich ist es, dass die KI lügt oder schadet? Nicht, weil wir sie einmal böse gefragt haben, sondern weil wir testen, wie sie reagiert, wenn wir den Druck erhöhen, wenn wir sie trösten, oder wenn wir ihr sagen, es sei für das „Gute der Menschheit".

3. Warum die heutigen Tests versagen

Das Paper kritisiert drei gängige Methoden:

  • Die Benchmark-Liste (Der Schultest): Wir geben der KI 100 Aufgaben und zählen die Treffer. Das ist wie wenn wir sagen: „Dieses Glas ist stabil, weil es beim Fallen auf den Teppich nicht zerbrochen ist." Es sagt uns nichts darüber, wie es sich auf Beton verhält.
  • Das „Red Teaming" (Der Provokations-Test): Hier versuchen Menschen, die KI zu ärgern, damit sie etwas Falsches sagt. Das ist wie wenn wir das Glas nur einmal mit einem Hammer schlagen. Wenn es zerbricht, sagen wir: „Es ist instabil." Wenn nicht: „Es ist stabil." Aber wir wissen nicht, wie viel Kraft genau nötig gewesen wäre.
  • Die „Black Box"-Statistik (IRT): Es gibt komplexe mathematische Modelle, die versuchen, die Schwierigkeit der Aufgaben und die Fähigkeit der KI aus den Daten zu errechnen. Das Paper sagt: Das ist wie wenn wir die Temperatur messen, indem wir 8 verschiedene Thermometer nehmen, aber keines davon wissen, was es eigentlich misst. Wir bekommen eine Zahl, aber keine echte Wissenschaft dahinter.

4. Was wir stattdessen brauchen: Ein neues Mess-Tool

Die Autoren schlagen vor, die KI-Evaluation wie in der Physik zu machen. Wir brauchen eine Wissenschaft der Messung.

Stellen Sie sich vor, wir bauen ein Thermometer für KI-Fähigkeiten.

  1. Wir definieren, was wir messen: Nicht „Wie viel Mathe kann die KI?", sondern „Wie verändert sich die Antwort, wenn wir die Anzahl der Rechenschritte erhöhen?"
  2. Wir bauen die Skala: Wir erstellen Aufgaben, bei denen wir genau wissen, wie schwer sie sind (z. B. „5 Schritte", „10 Schritte", „20 Schritte").
  3. Wir testen systematisch: Wir lassen die KI gegen diese Skala antreten.
  4. Wir zeichnen die Kurve: Am Ende haben wir keine einzelne Zahl (wie 62 %), sondern eine Kurve. Diese Kurve zeigt uns: „Bei 15 Schritten wird die KI ungenau, bei 20 Schritten gibt sie auf."

Das ist viel wertvoller! Denn wenn wir diese Kurve haben, können wir vorhersagen, wie die KI sich verhalten wird, wenn wir sie mit einer Aufgabe konfrontieren, die noch niemand je gelöst hat (z. B. eine neue Art von Cyberangriff oder eine biologische Gefahr), ohne dass wir sie tatsächlich gefährliche Dinge tun lassen müssen.

5. Warum das wichtig ist

Wenn wir nur auf die aktuellen „Schulnoten" der KI schauen, sind wir blind.

  • Wir wissen nicht, ob eine KI sicher ist, bevor sie wirklich gefährlich wird.
  • Wir können nicht vorhersagen, ob eine KI, die heute gut ist, morgen bei einer neuen Aufgabe versagen wird.

Das Fazit in einem Satz:
Wir müssen aufhören, KI wie einen Schüler zu bewerten, der eine einmalige Prüfung schreibt, und anfangen, sie wie ein physikalisches Objekt zu behandeln, dessen Eigenschaften wir durch systematisches Testen unter verschiedenen Bedingungen verstehen müssen. Nur so können wir sicherstellen, dass die KI, die wir bauen, auch wirklich das tut, was wir von ihr erwarten – und nicht das, was sie gerade zufällig kann.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →