Measuring What AI Systems Might Do: Towards A Measurement Science in AI

Each language version is independently generated for its own context, not a direct translation.

Warum wir AI nicht wie ein Schulzeugnis bewerten sollten

(Eine einfache Erklärung des Papers „Measuring What AI Systems Might Do")

Stellen Sie sich vor, Sie wollen wissen, wie stark ein neues Auto ist. Die aktuelle Methode in der KI-Welt wäre so: Man fährt das Auto einmal eine Runde um den Block, schaut, wie schnell es war, und schreibt dann auf der Seite 100 Punkte auf. Das ist unser heutiger „Benchmark".

Die Autoren dieses Papers sagen jedoch: Das ist völlig falsch. Wenn Sie wissen wollen, wie sicher ein Auto ist oder wie gut es im Regen fährt, reicht ein einziger trockener Testlauf nicht. Sie müssen wissen, wie das Auto reagiert, wenn sich die Bedingungen ändern.

Hier ist die Kernbotschaft des Papers, übersetzt in eine einfache Geschichte:

1. Das Problem: Wir verwechseln „Tat" mit „Fähigkeit"

Heute messen wir KI-Systeme (wie Chatbots) so, als wären sie Schüler in einem Test. Wir geben ihnen eine Liste von Matheaufgaben oder Sicherheitsfragen, sie lösen sie, und wir zählen die richtigen Antworten. Das Ergebnis ist eine Zahl: „Die KI ist zu 62 % gut in Mathe."

Das Problem ist: Diese Zahl sagt uns nichts darüber, warum die KI Fehler macht.

Ist sie bei schwierigen Zahlen unsicher?
Versteht sie die Logik nicht?
Oder hat sie die Antwort einfach nur im Internet gelesen?

Die Autoren nennen das einen Fehler. Eine echte Fähigkeit (z. B. Mathe können) ist keine einzelne Tat. Es ist eine Veranlagung.

2. Die Lösung: Die „Glaskugel"-Analogie

Stellen Sie sich ein Glas vor.

Die aktuelle Methode: Wir nehmen das Glas, lassen es einmal fallen. Es zerbricht nicht. Wir schreiben auf: „Dieses Glas ist stabil."
Die richtige Methode (nach dem Paper): Wir wissen, dass Glas eine Veranlagung (eine Disposition) zum Zerbrechen hat. Um das zu messen, müssen wir nicht nur einmal fallen lassen. Wir müssen das Glas mit unterschiedlicher Wucht werfen: einmal leicht, einmal mittelhart, einmal sehr hart.

Erst wenn wir sehen, bei welcher Wucht das Glas zerbricht, haben wir seine wahre Eigenschaft gemessen.

Genau so ist es mit KI:

Fähigkeiten (Capabilities): Wie gut ist die KI bei Mathe? Nicht bei einer Aufgabe, sondern: Wie gut wird sie, wenn die Aufgabe 10 Schritte hat? 100 Schritte? 1000? Wir müssen die Schwierigkeit systematisch erhöhen, um zu sehen, wo die KI versagt.
Neigungen (Propensities): Wie wahrscheinlich ist es, dass die KI lügt oder schadet? Nicht, weil wir sie einmal böse gefragt haben, sondern weil wir testen, wie sie reagiert, wenn wir den Druck erhöhen, wenn wir sie trösten, oder wenn wir ihr sagen, es sei für das „Gute der Menschheit".

3. Warum die heutigen Tests versagen

Das Paper kritisiert drei gängige Methoden:

Die Benchmark-Liste (Der Schultest): Wir geben der KI 100 Aufgaben und zählen die Treffer. Das ist wie wenn wir sagen: „Dieses Glas ist stabil, weil es beim Fallen auf den Teppich nicht zerbrochen ist." Es sagt uns nichts darüber, wie es sich auf Beton verhält.
Das „Red Teaming" (Der Provokations-Test): Hier versuchen Menschen, die KI zu ärgern, damit sie etwas Falsches sagt. Das ist wie wenn wir das Glas nur einmal mit einem Hammer schlagen. Wenn es zerbricht, sagen wir: „Es ist instabil." Wenn nicht: „Es ist stabil." Aber wir wissen nicht, wie viel Kraft genau nötig gewesen wäre.
Die „Black Box"-Statistik (IRT): Es gibt komplexe mathematische Modelle, die versuchen, die Schwierigkeit der Aufgaben und die Fähigkeit der KI aus den Daten zu errechnen. Das Paper sagt: Das ist wie wenn wir die Temperatur messen, indem wir 8 verschiedene Thermometer nehmen, aber keines davon wissen, was es eigentlich misst. Wir bekommen eine Zahl, aber keine echte Wissenschaft dahinter.

4. Was wir stattdessen brauchen: Ein neues Mess-Tool

Die Autoren schlagen vor, die KI-Evaluation wie in der Physik zu machen. Wir brauchen eine Wissenschaft der Messung.

Stellen Sie sich vor, wir bauen ein Thermometer für KI-Fähigkeiten.

Wir definieren, was wir messen: Nicht „Wie viel Mathe kann die KI?", sondern „Wie verändert sich die Antwort, wenn wir die Anzahl der Rechenschritte erhöhen?"
Wir bauen die Skala: Wir erstellen Aufgaben, bei denen wir genau wissen, wie schwer sie sind (z. B. „5 Schritte", „10 Schritte", „20 Schritte").
Wir testen systematisch: Wir lassen die KI gegen diese Skala antreten.
Wir zeichnen die Kurve: Am Ende haben wir keine einzelne Zahl (wie 62 %), sondern eine Kurve. Diese Kurve zeigt uns: „Bei 15 Schritten wird die KI ungenau, bei 20 Schritten gibt sie auf."

Das ist viel wertvoller! Denn wenn wir diese Kurve haben, können wir vorhersagen, wie die KI sich verhalten wird, wenn wir sie mit einer Aufgabe konfrontieren, die noch niemand je gelöst hat (z. B. eine neue Art von Cyberangriff oder eine biologische Gefahr), ohne dass wir sie tatsächlich gefährliche Dinge tun lassen müssen.

5. Warum das wichtig ist

Wenn wir nur auf die aktuellen „Schulnoten" der KI schauen, sind wir blind.

Wir wissen nicht, ob eine KI sicher ist, bevor sie wirklich gefährlich wird.
Wir können nicht vorhersagen, ob eine KI, die heute gut ist, morgen bei einer neuen Aufgabe versagen wird.

Das Fazit in einem Satz:
Wir müssen aufhören, KI wie einen Schüler zu bewerten, der eine einmalige Prüfung schreibt, und anfangen, sie wie ein physikalisches Objekt zu behandeln, dessen Eigenschaften wir durch systematisches Testen unter verschiedenen Bedingungen verstehen müssen. Nur so können wir sicherstellen, dass die KI, die wir bauen, auch wirklich das tut, was wir von ihr erwarten – und nicht das, was sie gerade zufällig kann.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper identifiziert ein fundamentales Defizit in der aktuellen Bewertung (Evaluation) von Künstlicher Intelligenz (KI). Trotz der zentralen Bedeutung von Begriffen wie Fähigkeiten (Capabilities) und Neigungen (Propensities) in technischer, regulatorischer und öffentlicher Debatte werden diese Begriffe oft unscharf verwendet und fälschlicherweise mit beobachteter Leistung (Performance) auf Benchmark-Datensätzen gleichgesetzt.

Konzeptionelle Unschärfe: Begriffe wie Fähigkeiten, Werte oder Fertigkeiten werden synonym verwendet und mit aggregierten Genauigkeitswerten (z. B. auf Mathematik-Benchmarks) vermischt.
Mangelnde Kausalität: Aktuelle Methoden (Benchmarking, Red-Teaming, datengetriebene latente Variablenmodelle wie Item Response Theory) liefern zwar aggregierte Statistiken, erklären aber nicht, warum ein System versagt oder erfolgreich ist. Sie vermischen heterogene Schwierigkeitsquellen zu einer einzigen Kennzahl.
Fehlende Generalisierbarkeit: Die aktuellen Methoden können nicht über den Bereich menschlicher Fähigkeiten hinaus extrapolieren und sind in sicherheitskritischen Domänen (z. B. biologische Waffenentwicklung) unanwendbar, da dort kein direktes Testen ethisch vertretbar ist.
Kernproblem: Es fehlt eine wissenschaftliche Messlehre, die definiert, was gemessen wird. Fähigkeiten und Neigungen sind keine direkten Beobachtungen, sondern dispositionelle Eigenschaften (Dispositionen).

2. Methodologie und Theoretischer Rahmen

Die Autoren entwickeln einen theoretischen Rahmen basierend auf der Philosophie der Wissenschaft, der Messlehre und der Kognitionswissenschaft.

Definition von Dispositionen: Fähigkeiten und Neigungen werden als dispositionelle Eigenschaften definiert. Das sind stabile, intrinsische Merkmale eines Systems, die durch kontrafaktische Beziehungen zwischen Kontextbedingungen und Verhaltensausgängen charakterisiert sind.
- Fähigkeiten (Capabilities): Dispositionen, die mit den Anforderungen oder der Schwierigkeit einer Aufgabe variieren (z. B. wie die Leistung sinkt, wenn die Anzahl der Rechenschritte steigt).
- Neigungen (Propensities): Dispositionen, die mit Anreizen (Incentives) variieren (z. B. wie die Wahrscheinlichkeit schädlichen Verhaltens steigt, wenn der Anreiz zur Täuschung zunimmt).
Messlogik: Eine echte Messung einer Disposition erfordert:
1. Hypothesen über kausal relevante Kontexteigenschaften ( $\pi$ ).
2. Unabhängige Operationalisierung und Messung dieser Eigenschaften.
3. Eine empirische Abbildung, wie die Variation dieser Eigenschaften die Wahrscheinlichkeit des Verhaltens $p(v | \pi, \theta)$ beeinflusst.
Kritik bestehender Methoden:
- Benchmarking: Misst nur eine Stichprobe von Aufgaben, ohne die kausalen Strukturen der Schwierigkeit zu identifizieren.
- Red-Teaming/Elicitation: Liefert nur Anecdoten (Anekdoten) aus adversarischen Kontexten, keine systematische Messung der Neigung.
- Item Response Theory (IRT): Zwar mathematisch elegant, aber in der KI oft rein datengetrieben. Latente Variablen (z. B. „Fähigkeit" $\theta$ ) werden aus den Leistungsdaten abgeleitet, nicht aus unabhängigen theoretischen Konstrukten. Dies führt zu Zirkelschlüssen und verhindert eine Generalisierung.

3. Wichtige Beiträge

Das Paper leistet drei wesentliche Beiträge:

Definition als Dispositionen: Fähigkeiten und Neigungen werden klar als dispositionelle Eigenschaften definiert, die auf kausalen Beziehungen zwischen Systemeigenschaften und Kontext basieren.
Diagnose des Scheiterns: Es wird gezeigt, warum etablierte Praktiken (Benchmarking, Red-Teaming, IRT) scheitern, diese Dispositionen zu messen. Sie vermischen Stichprobenverhalten mit systemimmanenten Eigenschaften, ignorieren die kausale Basis und erfüllen keine Kriterien für wissenschaftliche Validität (Construct Validity).
Rahmenwerk für eine Dispositions-basierte Messwissenschaft: Die Autoren skizzieren ein vierstufiges Framework für eine wissenschaftlich fundierte Evaluation:
- Schritt 1: Definition des Messobjekts: Klare Spezifikation, ob das Basismodell, das bereitgestellte System (mit Filtern) oder der gesamte Stack gemessen wird.
- Schritt 2: Hypothese der kausalen Basis: Identifikation der Kontexteigenschaften, die das Verhalten kausal beeinflussen (z. B. symbolische Komplexität für Fähigkeiten; moralische Rechtfertigung für Neigungen).
- Schritt 3: Operationalisierung: Unabhängige Quantifizierung dieser Kontexteigenschaften (vor der Evaluation des Systems), um Zirkularität zu vermeiden.
- Schritt 4: Empirische Abbildung: Systematische Variation der Kontexte und Messung der Wahrscheinlichkeitsfunktion $p(v | \pi, \theta)$ . Dies erlaubt die Extrapolation in ungetestete Bereiche.

4. Ergebnisse und Illustrationen

Das Paper liefert keine empirischen Daten zu spezifischen KI-Modellen, sondern demonstriert die Anwendbarkeit des Frameworks an zwei „Toy-Beispielen":

Beispiel 1: Rechenfähigkeit (Arithmetic Capability):
- Statt einer einzigen Genauigkeitszahl auf einem festen Datensatz wird eine Antwortfunktion modelliert.
- Kontextvariablen ( $\pi$ ) sind unabhängig definiert: Anzahl der Rechenschritte, Länge der Operanden, Komplexität von Überträgen.
- Das Ergebnis ist eine Kurve, die zeigt, wie die Erfolgswahrscheinlichkeit mit steigender Komplexität abfällt (z. B. Schwellenwerte, nichtlineare Interaktionen). Dies ist aussagekräftiger als ein aggregierter Score.
Beispiel 2: Neigung zur Ehrlichkeit (Propensity for Honesty):
- Hier werden Anreizfaktoren variiert (z. B. moralische Rechtfertigung der Anfrage, Dringlichkeit, Anwesenheit von Aufsichtssignalen).
- Die Messung zeigt, wie die Wahrscheinlichkeit von unzulässigem Verhalten mit diesen Anreizen steigt, selbst wenn das Verhalten im Einsatz nie auftritt.
- Dies ermöglicht die Abschätzung von Risiken in gefährlichen Szenarien durch Extrapolation aus sicheren Testbereichen.

5. Bedeutung und Implikationen

Die Bedeutung des Papers liegt in seinem Aufruf zu einem Paradigmenwechsel in der KI-Evaluation:

Von der Ingenieurskunst zur Wissenschaft: Der Übergang von „Bequemlichkeits-Benchmarks" (Convenience Sampling) zu einer echten Messwissenschaft, die auf Kausalität und Theorie basiert.
Sicherheit und Regulierung: Nur eine solche Messlehre kann zuverlässige Aussagen über das Verhalten von KI-Systemen in sicherheitskritischen Bereichen treffen, die über menschliche Fähigkeiten hinausgehen oder ethisch nicht direkt testbar sind.
Interdisziplinärer Ansatz: Die Lösung erfordert die Integration von Erkenntnissen aus der Kognitionswissenschaft, Psychophysik, Verhaltensökonomie und der Philosophie der Wissenschaft.
Zukunftsfähigkeit: Ohne diese konzeptionelle Klarheit bleiben KI-Evaluationen eine Sammlung von Konventionen, die weder kumulatives wissenschaftliches Verständnis noch eine fundierte politische Regulierung unterstützen können.

Zusammenfassend argumentieren die Autoren, dass wir aufhören müssen, KI-Systeme nur danach zu bewerten, was sie auf einem festen Datensatz tun, und beginnen müssen, zu messen, was sie unter verschiedenen, systematisch variierten Bedingungen tun würden. Dies ist die Voraussetzung für sichere und verlässliche KI-Systeme.

Measuring What AI Systems Might Do: Towards A Measurement Science in AI

Warum wir AI nicht wie ein Schulzeugnis bewerten sollten

1. Das Problem: Wir verwechseln „Tat" mit „Fähigkeit"

2. Die Lösung: Die „Glaskugel"-Analogie

3. Warum die heutigen Tests versagen

4. Was wir stattdessen brauchen: Ein neues Mess-Tool

5. Warum das wichtig ist

1. Problemstellung

2. Methodologie und Theoretischer Rahmen

3. Wichtige Beiträge

4. Ergebnisse und Illustrationen

5. Bedeutung und Implikationen

Mehr davon

Less is More: Data-Efficient Adaptation for Controllable Text-to-Video Generation

Better Understandings and Configurations in MaxSAT Local Search Solvers via Anytime Performance Analysis

Hybrid Agentic AI and Multi-Agent Systems in Smart Manufacturing

ReaMIL: Reasoning- and Evidence-Aware Multiple Instance Learning for Whole-Slide Histopathology

Pramana: Fine-Tuning Large Language Models for Epistemic Reasoning through Navya-Nyaya