What Is Missing: Interpretable Ratings for Large Language Model Outputs

Each language version is independently generated for its own context, not a direct translation.

Titel: Was fehlt? – Ein neuer Weg, um KI-Modelle besser zu machen

Stell dir vor, du bist ein Koch, der gerade ein neues Rezept für einen perfekten Kuchen entwickelt hat. Du gibst deinen Kuchen einem Kritiker (dem „Richter") und fragst: „Wie gut ist er?"

Das alte Problem: Die Zahlenspielerei
Bisher haben die Richter oft einfach eine Zahl von 1 bis 10 genannt.

„Der Kuchen ist eine 8."
„Der andere Kuchen ist auch eine 8."

Das Problem dabei: Was genau macht einen Kuchen zu einer 8? Ist er zu trocken? Zu süß? Fehlt ihm die Sahne? Wenn zwei Kuchen beide eine 8 bekommen, weiß der Koch nicht, welcher wirklich besser ist oder was er genau verbessern muss. Es ist wie ein Nebel: Die Zahl sagt dir, dass etwas gut ist, aber nicht warum oder wie viel besser. Oft landen viele Kuchen in der gleichen „Grauzone" (z. B. alle bei 7 oder 8), was es für den Koch unmöglich macht, sich zu verbessern.

Die neue Lösung: „Was fehlt?" (WIM)
Die Forscher aus diesem Papier haben eine brillante Idee: Statt einer Zahl soll der Richter sagen, was genau im Kuchen fehlt.

Stell dir vor, der Richter sagt nicht: „Das ist eine 6."
Sondern er sagt: „Es fehlt ein bisschen Zimt im Teig, und die Sahne ist etwas zu flüssig."

Das ist das WIM-System (Was Is Missing / Was fehlt).

Wie funktioniert das magisch?

Der Vergleich: Der Computer nimmt den Kuchen (die Antwort der KI) und den Text des Richters („Es fehlt Zimt...").
Der Übersetzer: Ein spezielles Werkzeug (ein „Embedding-Modell") übersetzt beide Texte in eine Art unsichtbare Landkarte. Auf dieser Karte sind Punkte, die sich sehr ähnlich sind, auch nah beieinander.
Der Maßstab: Der Computer misst den Abstand zwischen dem Kuchen und dem Text des Richters.
- Wenn der Richter sagt „Es fehlt gar nichts" (weil der Kuchen perfekt ist), dann ist der Text des Richters sehr kurz oder leer. Der Abstand ist winzig. Das bedeutet: Perfekte Note!
- Wenn der Richter eine lange Liste mit Fehlern schreibt („Fehlt Zimt, zu viel Mehl, verbrannte Ränder..."), dann ist der Text lang und komplex. Der Abstand zum Kuchen ist groß. Das bedeutet: Viele Fehler, schlechte Note.

Warum ist das so viel besser?

Keine Unentschieden mehr: Bei der alten Methode (1-10) gab es oft Unentschieden (zwei Kuchen beide 8). Bei der neuen Methode sind die „Abstände" fast immer unterschiedlich. Ein Kuchen, dem nur ein Gramm Zimt fehlt, bekommt eine andere Note als einer, dem die ganze Backzeit fehlt. Das gibt dem KI-Koch einen viel klareren Hinweis: „Hey, hier musst du nachbessern!"
Verständlich: Wenn die KI einen Fehler macht, kann man den Text des Richters lesen und genau verstehen, was schiefgelaufen ist. Man muss nicht raten, was eine „schlechte 4" bedeutet.
Flexibel: Es spielt keine Rolle, ob der Richter ein Mensch oder eine andere, stärkere KI ist. Das System funktioniert mit beiden.

Die Analogie des „Spiegelbilds"
Stell dir vor, die KI-Antwort ist ein Spiegelbild.

Bei der alten Methode (Zahlen) wird das Bild einfach als „gut" oder „schlecht" abgestempelt.
Bei der neuen Methode (WIM) hält der Richter einen Spiegel vor das Bild und zeigt genau auf die Stellen, die verzerrt sind. „Hier ist das Ohr zu groß", „Hier fehlt der Hut". Je mehr Verzerrungen der Spiegel zeigt, desto weiter ist das Bild von der Perfektion entfernt.

Das Ergebnis
Die Forscher haben getestet, ob diese Methode die KI tatsächlich besser macht. Das Ergebnis war eindeutig:

Die KI lernte schneller (der „Verlust" sank stärker).
Die KI wurde selbstbewusster (weniger zufälliges Raten).
Sie gewann öfter gegen andere KIs in Tests.

Fazit für den Alltag
Statt uns zu fragen: „Wie gut war das?" (was oft nur zu vagen Zahlen führt), fragen wir jetzt: „Was genau fehlt noch, damit es perfekt ist?"
Diese kleine Änderung im Denken – weg von der abstrakten Zahl hin zum konkreten Mangel – hilft den Computern, menschliche Vorlieben viel besser zu verstehen und sich schneller zu verbessern. Es ist, als würde man einem Schüler nicht nur eine Note geben, sondern ihm den genauen Satz zeigen, den er im Aufsatz verbessern muss.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „What Is Missing (WIM): Interpretable Ratings for Large Language Model Outputs" auf Deutsch.

1. Problemstellung

Die aktuelle Forschung im Bereich des Post-Trainings von Large Language Models (LLMs) stützt sich stark auf Methoden des Preference Learning (z. B. Proximal Policy Optimization - PPO, Direct Preference Optimization - DPO). Diese Methoden benötigen Trainingsdaten, die aus Rankings oder numerischen Bewertungen von Modelloutputs bestehen.

Die Autoren identifizieren zwei Hauptprobleme bei den bestehenden Bewertungsmethoden:

Geringe Interpretierbarkeit: Direkte Rankings oder numerische Scores (z. B. 1–10) sind subjektiv. Es ist für einen Entwickler unmöglich zu verstehen, warum eine bestimmte Bewertung vergeben wurde, was das Debuggen von Präferenzlabels erschwert.
Fehlende Lernsignale durch Ties: Numerische Ratings sind diskret. In pairwise Vergleichen (zwei Antworten A und B) erhalten oft beide Antworten denselben Score (z. B. beide 8/10). Dies führt zu einem Rating-Delta von Null, was bedeutet, dass kein Lernsignal für den Optimierungsalgorithmus generiert werden kann. Die Autoren zeigen empirisch, dass bei herkömmlichen Systemen bis zu 42,78 % der Paare identische Bewertungen erhalten.

2. Methodik: Das „What Is Missing" (WIM) System

Das Paper stellt das WIM-Rating-System vor, das natürliche Sprachfeedback in skalare Bewertungen umwandelt. Der Prozess ist wie folgt aufgebaut:

Generierung von Feedback: Ein Richter (menschlich oder ein anderes LLM) erhält die Ausgabe des Modells ( $s_1$ ) und muss einen Text ( $s_2$ ) generieren, der beschreibt, was in der Antwort fehlt (z. B. fehlende Details, logische Lücken).
Embedding: Sowohl die Modellantwort ( $s_1$ ) als auch das „Missing"-Feedback ( $s_2$ ) werden durch ein Sentence-Embedding-Modell (im Experiment all-mpnet-base-v2) in hochdimensionale Vektoren ( $S_1$ und $S_2$ ) überführt.
Berechnung des Scores: Die Bewertung wird als Kosinus-Ähnlichkeit zwischen $S_1$ $S_{1}$ und $S_2$ $S_{2}$ berechnet:
$\text{WIM} = \frac{S_1 \cdot S_2}{\|S_1\| \|S_2\|}$
- Ein hoher Score (nahe 1) bedeutet, dass die Antwort und das Feedback semantisch ähnlich sind, was impliziert, dass wenig fehlt (da das Feedback „nichts fehlt" beschreibt).
- Ein niedriger Score bedeutet eine große semantische Distanz, also viel fehlende Information.
- Falls kein Feedback generiert wird (nichts fehlt), wird per Design ein perfekter Score von 1 zugewiesen.

Theoretische Grundlage:
Das System nutzt die Idee, dass der Vektor des Feedbacks ( $S_2$ ) in einen parallelen Anteil (Übereinstimmung mit der Antwort) und einen orthogonalen Anteil (das eigentliche „Missingness") zerlegt werden kann. Je größer der orthogonale Anteil im Verhältnis zum parallelen Anteil ist, desto größer ist der Winkel zwischen den Vektoren und desto niedriger die Kosinus-Ähnlichkeit.

Flexibilität:
WIM ist algorithmusagnostisch. Es kann mit beliebigen Preference-Learning-Methoden (DPO, PPO, GRPO) kombiniert werden. Zudem kann es mit anderen Ratingsystemen gemischt werden (z. B. $\text{Reward} = (1-\zeta)R + \zeta \cdot \text{WIM}$ ), was die Integration in bestehende Pipelines erleichtert.

3. Wichtige Beiträge

Interpretierbarkeit: Jeder skalare Score ist direkt mit einem natürlichen Sprachtext verknüpft, der die Begründung liefert. Dies ermöglicht qualitatives Debugging von Präferenzdaten.
Kontinuierliche Verteilung: Da die Bewertung auf semantischer Ähnlichkeit basiert, ist die Verteilung der Scores quasi-kontinuierlich. Dies reduziert die Anzahl von „Ties" (gleichen Bewertungen) drastisch im Vergleich zu diskreten Skalen.
Verbesserte Lernsignale: Durch die Reduktion von Ties entstehen größere Differenzen (Deltas) zwischen Gewinner- und Verlierer-Antworten, was den Gradienten für das Training schärfer macht.
Selbst-Bewertung (Self-Judging): Das System erlaubt es dem Modell, sich selbst zu bewerten (sowohl mit einem festen Referenzmodell als Richter als auch mit dem sich aktualisierenden Modell).

4. Experimentelle Ergebnisse

Die Autoren trainierten ein Meta-Llama-3-8B-Instruct-Modell auf dem ultrafeedback-prompt-Datensatz und verglichen WIM mit einem herkömmlichen numerischen 1–10 Ratingsystem.

Verteilung der Ratings: Während numerische Ratings stark um 7 und 8 clustern, zeigt WIM eine annähernd normale Verteilung mit weniger Häufungen.
Reduktion von Ties:
- Numerisches System: 42,78 % der Paare hatten identische Ratings (kein Lernsignal).
- WIM-System: Nur 2,00 % der Paare hatten identische Ratings.
- Das durchschnittliche Rating-Delta stieg um 47,82 % (von 0,928 auf 1,396).
Trainingsmetriken:
- Verlust (Loss): Das WIM-Verfahren reduzierte den DPO-Verlust um den Faktor 2,95 im Vergleich zum numerischen System über die gleiche Anzahl von Schritten.
- Entropie: Modelle, die mit WIM trainiert wurden (insbesondere mit einem festen Richter), zeigten eine stärkere Reduktion der mittleren Entropie, was auf ein höheres Selbstvertrauen des Modells hindeutet.
- Reward Advantage: Die WIM-Kurven zeigten eine stärkere Dynamik im Reward Advantage im Laufe des Trainings im Vergleich zur fast konstanten numerischen Kurve.
Leistungssteigerung: Auf einem Testset (1.000 Samples) erreichte das mit WIM (fester Richter) trainierte Modell eine 3,79 % höhere Win-Rate gegenüber dem numerisch trainierten Modell (52,0 % vs. 50,1 %).

5. Bedeutung und Ausblick

Das Paper demonstriert, dass die Qualität der Trainingsdaten (insbesondere die Art der Bewertung) einen signifikanten Einfluss auf die Leistung von Preference-Learning-Algorithmen hat, unabhängig vom gewählten Optimierungsalgorithmus.

Praktische Relevanz: WIM bietet eine einfache, aber effektive Methode, um die Effizienz von Post-Training-Pipelines zu steigern, ohne die zugrundeliegenden Algorithmen (wie DPO) ändern zu müssen.
Zukunftsperspektiven: Die Autoren schlagen vor, WIM mit menschlichen Richtern zu testen, in Reasoning-Modellen zu verwenden und in Kombination mit Reinforcement Learning from Verifiable Rewards (RLVR) einzusetzen.
Limitationen: Ein Fallbeispiel zeigt, dass LLM-Richter manchmal fehlschlagen können (z. B. wenn sie die Anweisung nicht befolgen), was zu nicht-sinnvollen Feedback-Texten führt. Dies unterstreicht die Notwendigkeit robuster Prompt-Engineering-Strategien für den Richter.

Zusammenfassend verschiebt WIM den Fokus von der Verbesserung der Optimierungsalgorithmen hin zur Verbesserung der Datenqualität durch interpretierbare, differenziertere Feedback-Mechanismen.

What Is Missing: Interpretable Ratings for Large Language Model Outputs

1. Problemstellung

2. Methodik: Das „What Is Missing" (WIM) System

3. Wichtige Beiträge

4. Experimentelle Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers