Extending Minimal Pairs with Ordinal Surprisal Curves and Entropy Across Applied Domains

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Wie fragen wir KI, was sie wirklich denkt?

Stell dir vor, du möchtest herausfinden, was ein sehr kluger, aber manchmal verschlossener Schüler (die KI) wirklich über die Welt weiß.

Bisher haben Forscher das so gemacht: Sie haben den Schüler gefragt: „Ist das ein Vogel oder ein Flugzeug?" und dann auf die Antwort gewartet.

Das Problem: Der Schüler muss erst lange nachdenken, eine ganze Erklärung schreiben und dann antworten. Das kostet Zeit und Energie. Außerdem kann er sich manchmal etwas „schönreden" (er erfindet eine logische Begründung für eine falsche Antwort), nur um gut dazustehen. Wir wissen dann nicht, ob er es wirklich weiß oder nur gut lügen kann.

Die neue Idee: Der „Überraschungs-Meter"

Der Autor dieses Papers, Andrew Katz, hat eine andere Methode vorgeschlagen. Statt den Schüler zu bitten, etwas zu schreiben, schauen wir uns an, wie sehr er überrascht ist, wenn er eine bestimmte Antwort liest.

Stell dir vor, du hast einen Überraschungs-Meter (im Fachjargon „Surprisal" genannt) an der Stirn der KI.

Wenn die KI etwas liest, das sie erwartet (z. B. „Paris ist die Hauptstadt von Frankreich"), ist ihr Meter auf 0. Keine Überraschung.
Wenn sie etwas liest, das völlig falsch ist (z. B. „Paris ist die Hauptstadt von Deutschland"), springt der Meter auf 100. Riesige Überraschung!

Der Clou: Wir fragen die KI nicht mehr: „Was ist die Hauptstadt?" (was sie schreiben müsste). Stattdessen testen wir: „Wie überrascht bist du, wenn ich sage: Die Hauptstadt ist Paris?" und dann: „Wie überrascht bist du, wenn ich sage: Die Hauptstadt ist Berlin?"

Wir messen einfach, wie stark der Meter ausschlägt. Das geht blitzschnell, kostet kaum Energie und zeigt uns, was in den „Gedanken" der KI wirklich verankert ist, ohne dass sie lügen muss.

Die Erweiterung: Nicht nur Schwarz-Weiß, sondern ein Farbspektrum

Bisher haben Forscher oft nur zwei Möglichkeiten getestet: Richtig oder Falsch (wie ein Ja/Nein-Schalter). Katz sagt: „Das ist zu simpel!"

Er erweitert das Spiel auf eine Skala, wie man sie von Umfragen kennt (z. B. von 1 bis 5 oder 1 bis 9).

Beispiel: Statt nur zu fragen „Ist das ein Kausalzusammenhang? (Ja/Nein)", fragen wir: „Wie stark ist der Zusammenhang?" (1 = gar nicht, 5 = sehr stark).

Die KI muss jetzt nicht nur „Ja" oder „Nein" sagen. Wir messen ihre Überraschung für jede Zahl auf der Skala.

Das Ergebnis: Wir bekommen eine Kurve.
- Ist die Kurve ein scharfer, steiler Berg bei der Zahl 5? Dann ist die KI sich sehr sicher.
- Ist die Kurve ein flacher Hügel in der Mitte? Dann ist die KI unsicher und findet die Frage schwierig.

Das ist wie beim Wetter: Ein steiler Berg sagt „Es wird definitiv regnen". Ein flacher Hügel sagt „Vielleicht regnet es, vielleicht auch nicht – ich bin mir nicht sicher."

Wo haben sie das getestet?

Der Autor hat diese Methode in vier verschiedenen Bereichen ausprobiert, um zu zeigen, dass sie überall funktioniert:

Die „Wort-Verwechslungs"-Test (SETS):
- Szenario: Das Wort „Bug" kann ein Käfer sein oder ein Computerfehler.
- Ergebnis: Wenn der Kontext „Garten" ist, ist die KI bei „Käfer" nicht überrascht (niedriger Meter). Wenn der Kontext „Software" ist, ist sie bei „Computerfehler" nicht überrascht. Die KI versteht also den Kontext, auch wenn das Wort gleich ist.
Ursache und Wirkung:
- Szenario: Ist „Regen macht nass" eine Ursache-Wirkung-Beziehung?
- Ergebnis: Bei klaren Fällen ist die Kurve steil (sicher). Bei verworrenen Fällen (z. B. „Wer mehr lernt, hat bessere Noten" – ist das eine Ursache oder nur ein Zufall?) wird die Kurve flach. Die KI zeigt uns hier: „Hier bin ich mir nicht sicher."
Bildhafte Sprache:
- Szenario: Ist der Satz „Die Worte hingen in der Luft" wörtlich gemeint oder eine Metapher?
- Ergebnis: Die KI merkt sofort den Unterschied, auch wenn die Wörter fast gleich sind. Sie ist bei der Metapher bei „sehr metaphorisch" am wenigsten überrascht.
Qualitative Analyse (Kategorisieren):
- Szenario: Ein Forscher liest Antworten von Lehrern und muss sie in Kategorien einordnen (z. B. „Frustration" oder „Familie").
- Ergebnis: Die KI kann helfen zu sagen, wie gut eine Antwort zu einer Kategorie passt. Und wenn die Kurve flach ist, weiß der menschliche Forscher: „Achtung, hier muss ich selbst nachschauen, die KI ist unsicher."

Was lernen wir daraus? (Die wichtigsten Punkte)

Schneller und ehrlicher: Diese Methode ist viel schneller als das Schreiben von Antworten und zeigt uns die „wahren" Gedanken der KI, ohne dass sie sich etwas ausdenken muss.
Unsicherheit ist gut: Oft denken wir, Unsicherheit ist schlecht. Aber hier ist sie ein nützliches Signal! Wenn die Kurve flach ist, wissen wir: „Hier ist die Aufgabe schwierig oder mehrdeutig." Das hilft Menschen, zu wissen, wann sie selbst eingreifen müssen.
Größe zählt (meistens): Größere KI-Modelle (die mit mehr „Gehirnleistung") waren meist besser und sicherer. Aber manchmal waren sie auch überraschend gut, selbst ohne spezielle Schulung.

Fazit

Stell dir vor, du hast einen Detektiv, der nicht mehr fragt: „Wer war der Täter?" und eine lange Geschichte erfindet. Stattdessen misst er nur, wie sehr der Verdächtige zuckt, wenn ein bestimmter Name fällt.

Diese Forschung zeigt, dass wir KI nicht nur durch Fragen testen müssen, sondern durch das Messen ihrer inneren Überraschung. Das gibt uns einen schnelleren, ehrlicheren und differenzierteren Blick darauf, was diese Maschinen wirklich verstehen und wo sie unsicher sind.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung und Motivation

Große Sprachmodelle (LLMs) werden zunehmend für Klassifizierungs-, Bewertungs- und Entscheidungsaufgaben eingesetzt. Herkömmliche Evaluierungsmethoden basieren oft auf Prompting, bei dem das Modell eine Antwort generieren muss. Diese Ansätze weisen jedoch erhebliche Nachteile auf:

Kosten und Effizienz: Die Textgenerierung ist rechenintensiv und teuer.
Post-hoc-Rationalisierung: Generierte Erklärungen spiegeln oft nicht den tatsächlichen Entscheidungsprozess des Modells wider, sondern sind nachträgliche Rechtfertigungen.
Mangelnde Unsicherheitsquantifizierung: Binäre Ausgaben (Ja/Nein) oder einfache Klassifizierungen liefern keine Informationen darüber, wie „sicher" sich das Modell ist.
Eingeschränkter Anwendungsbereich: Das etablierte Paradigma der Minimal Pairs (Vergleich von Wahrscheinlichkeiten für kontrastierende Satzvollendungen) wurde bisher fast ausschließlich auf binäre grammatikalische Urteile (grammatikalisch vs. ungrammatikalisch) beschränkt.

Es besteht ein Bedarf an einer Methode, die effizient auf die internen Repräsentationen und Unsicherheiten von LLMs zugreift, ohne auf Textgenerierung angewiesen zu sein, und die über binäre Grammatiktests hinausgeht.

2. Methodik: Surprisal-basiertes Evaluierungsframework

Die Arbeit erweitert das Minimal-Pairs-Paradigma durch zwei wesentliche Innovationen:

A. Von Binär zu Ordinal (Surprisal-Kurven)

Statt das Modell zu fragen, ob ein Satz grammatikalisch ist, oder eine binäre Klassifizierung (Wahr/Falsch) vorzunehmen, wird das Modell als „Befragter" in einem ordinalen Skalensystem behandelt (z. B. 1–5 oder 1–9).

Konzept: Anstatt eine Antwort zu generieren, wird für jede Position der Skala (z. B. die Token „1", „2", „3"...) die Surprisal (Überraschung) gemessen.
Surprisal-Definition: Mathematisch ist Surprisal $S(x) = -\log P(x)$ , wobei $P(x)$ die Wahrscheinlichkeit des Tokens gegeben den Kontext ist. Niedrige Surprisal bedeutet hohe Wahrscheinlichkeit (erwartet), hohe Surprisal bedeutet niedrige Wahrscheinlichkeit (unerwartet).
Surprisal-Kurve: Durch Messung der Surprisal für alle Skalenpunkte entsteht eine Kurve. Das Minimum dieser Kurve zeigt die bevorzugte Antwort des Modells an. Die Form der Kurve (steil vs. flach) gibt Aufschluss über die Zuversicht.

B. Unsicherheitsquantifizierung durch Entropie

Ein entscheidender Vorteil ist die Berechnung der Entropie über die normalisierte Wahrscheinlichkeitsverteilung der möglichen Antworten.

Berechnung: Da Modelle Wahrscheinlichkeiten über das gesamte Vokabular ausgeben, werden diese für die relevanten Antwort-Token (z. B. nur die Zahlen 1–5) renormalisiert, um eine gültige Verteilung zu erhalten. Die Entropie $H(X)$ quantifiziert dann die Unsicherheit.
Interpretation:
- Niedrige Entropie: Das Modell ist sich einer Antwort sicher (spitze Verteilung).
- Hohe Entropie: Das Modell ist unsicher oder die Aufgabe ist mehrdeutig (flache Verteilung).
Effizienz: Dies erfordert nur einen einzigen Vorwärtsdurchlauf (Forward Pass) für eine kleine Menge von Token, im Gegensatz zur Generierung langer Textketten.

3. Wichtige Beiträge

Erweiterung des Paradigmas: Der Übergang von binären grammatischen Urteilen zu ordinalen Skalen (1–5, 1–9) für Klassifizierungs- und Bewertungsaufgaben.
Anwendung in angewandten Domänen: Demonstration des Frameworks in vier verschiedenen, nicht-sprachwissenschaftlichen Bereichen:
- Klassifizierung von Entitäten in sozialen-ökologischen-technologischen Systemen (SETS).
- Identifikation kausaler Aussagen (binär und skaliert).
- Erkennung von figurativer Sprache (Metaphern vs. wörtliche Bedeutung).
- Deduktives Kodieren qualitativer Umfragedaten.
Unsicherheitsmetrik: Einführung der Entropie als principled (prinzipiengeleitete) Metrik für die Modellunsicherheit, die keine Kalibrierung oder Selbstauskunft des Modells erfordert.
Robustheitsanalyse: Untersuchung des Einflusses von Kontext, Prompt-Design (Persona, Definitionen) und Modellgröße auf die Surprisal-Muster.

4. Ergebnisse und Experimente

Die Experimente wurden mit vier Modellen der Qwen2.5-Familie (3B, 7B, 14B Instruct und Base) durchgeführt.

SETS-Klassifizierung (Sozial-Ökologisch-Technologisch):
- Größere Modelle (14B) zeigten eine deutlich bessere Genauigkeit (niedrigerer MAE) bei der Unterscheidung von Homonymen (z. B. „Bug" als Insekt vs. Softwarefehler) basierend auf dem Kontext.
- Kleinere Modelle (3B) scheiterten oft an der Kontextabhängigkeit und wiesen konstante, falsche Scores auf.
- Die Surprisal-Kurven zeigten klare Minima bei den erwarteten Skalenpositionen.
Kausale Aussagen:
- Bei eindeutigen kausalen Zusammenhängen zeigten die Modelle steile Surprisal-Kurven mit klaren Minima.
- Bei mehrdeutigen Fällen (z. B. Korrelation vs. Kausalität) zeigten die Kurven flache Verläufe und Minima in der Mitte der Skala, was echte Unsicherheit widerspiegelt.
- Erkenntnis: Mehr Kontext verbesserte die Leistung kleinerer Modelle, hatte aber bei großen Modellen (14B Instruct) kaum Einfluss oder verschlechterte sie sogar leicht, da sie bereits über ausreichendes Vorwissen verfügten.
Figurative Sprache:
- Das Modell konnte Metaphern von wörtlichen Bedeutungen unterscheiden, wobei die Surprisal-Kurven für Metaphern zu hohen Intensitätswerten hin abfielen, während sie für wörtliche Aussagen flach waren oder Minima bei niedrigen Werten hatten.
- Interessanterweise performte das Base-Modell (14B) auf der 5-Punkte-Skala besser (95% Diskriminierung) als das Instruct-Modell (66,7%), was darauf hindeutet, dass Instruction-Tuning die rohe Surprisal-Verteilung verzerren könnte.
Deduktives Kodieren:
- Das Framework konnte erfolgreich Codes auf Textsegmente anwenden.
- Die Entropie diente als Indikator: Hohe Entropie korrelierte mit Fällen, in denen die Zuordnung eines Codes für Menschen ebenfalls schwierig war (mehrdeutige Texte), während niedrige Entropie klare Fälle anzeigte.

Allgemeine Trends:

Die Leistung skalierte generell mit der Modellgröße.
Die Entropie unterschied erfolgreich zwischen echten Mehrdeutigkeiten (hohe Entropie) und falschen, aber selbstbewussten Antworten (niedrige Entropie bei kleinen Modellen).

5. Bedeutung und Fazit

Das Paper zeigt, dass Surprisal-basierte Evaluation eine leistungsfähige Alternative zu generativen Prompting-Methoden ist.

Effizienz: Da keine Textgenerierung nötig ist, ist die Methode deutlich schneller und kostengünstiger.
Tiefe Einsicht: Sie bietet Zugang zu impliziten Modellrepräsentationen, die nicht durch generierte Erklärungen verzerrt werden.
Unsicherheitsmanagement: Die Entropie-Metrik ermöglicht es, Fälle zu identifizieren, die menschliche Überprüfung benötigen (Human-in-the-Loop), indem sie echte Mehrdeutigkeit von Modellverwirrung unterscheidet.
Anwendbarkeit: Das Framework ist nicht auf Linguistik beschränkt, sondern funktioniert robust in angewandten Domänen wie Qualitative Research, Kausalitätsanalyse und Systemklassifizierung.

Einschränkungen:
Die Methode ist abhängig von der Tokenisierung (Formatierung der Antwort-Token ist kritisch) und erfordert Zugriff auf Logits (Wahrscheinlichkeiten), was bei geschlossenen API-Modellen oft nicht möglich ist. Zudem ist die Kalibrierung zwischen Entropie und tatsächlicher Genauigkeit noch Gegenstand weiterer Forschung.

Zusammenfassend stellt das Paper einen wichtigen Schritt dar, um LLMs nicht nur als Textgeneratoren, sondern als Systeme mit messbaren internen Wahrscheinlichkeitsverteilungen und Unsicherheitsprofilen zu evaluieren.