Beyond Binary Preferences: A Principled Framework for Reward Modeling with Ordinal Feedback

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein Lehrer, der eine neue Art von KI unterrichtet, damit sie menschliche Wünsche besser versteht. Bisher hat dieser Unterricht nur mit einem sehr einfachen System funktioniert: Ja oder Nein.

Wenn ein Schüler (die KI) zwei Antworten auf eine Frage gibt, sagst du: „Antwort A ist besser als Antwort B." Das war es. Die KI lernte daraus, dass A gut und B schlecht ist. Aber das ist wie ein Koch, der nur weiß, ob ein Essen „essbar" oder „unessbar" ist, aber nicht, ob es „lecker", „sehr lecker" oder „ein Meisterwerk" ist.

Dieses Papier von der ICLR 2026 schlägt vor, dieses einfache Ja/Nein-System durch ein detailliertes Bewertungssystem zu ersetzen. Hier ist die Erklärung in einfachen Worten, mit ein paar kreativen Vergleichen:

1. Das alte Problem: Der „Schwarz-Weiß"-Fotograf

Bisher haben KI-Modelle menschliches Feedback so behandelt, als wären alle Fotos schwarz-weiß.

Die Situation: Ein Mensch bewertet zwei KI-Antworten. Er sagt nicht nur „A ist besser", sondern: „A ist deutlich besser, B ist nur ein bisschen schlechter."
Das alte System: Die KI ignorierte das „deutlich" und das „ein bisschen". Sie sah nur: A = Gut, B = Schlecht.
Der Versuch, es zu reparieren: Andere Forscher haben versucht, das alte System zu retten, indem sie „Klebestreifen" (Heuristiken) auf die Risse geklebt haben. Sie sagten: „Okay, wenn jemand 'deutlich besser' sagt, multiplizieren wir den Fehler einfach mal mit 3." Das funktionierte, war aber willkürlich. Wie ein Architekt, der ein Haus repariert, indem er einfach mehr Zement auf die Risse schmiert, ohne zu wissen, warum die Risse entstanden sind.

2. Die neue Idee: Der „Farbige"-Fotograf (Ordinale Regression)

Die Autoren dieses Papiers sagen: „Hör auf, das Haus mit Klebestreifen zu reparieren. Baue ein neues Fundament!"

Sie nutzen ein mathematisches Werkzeug namens Ordinale Regression. Stell dir das wie eine Farbskala vor, statt nur Schwarz und Weiß.

Anstatt nur „Besser" oder „Schlechter" zu sagen, gibt es eine Skala von -3 (sehr schlecht) bis +3 (sehr gut), mit Null in der Mitte (gleich gut).
Die KI lernt nicht nur, welche Antwort besser ist, sondern wie viel besser.

3. Wie funktioniert das? Die „Türschwellen"-Metapher

Das Herzstück der neuen Methode sind Schwellenwerte (Thresholds). Stell dir vor, die KI lernt eine Art Türschwellen in einem langen Flur.

Der Flur: Der Flur repräsentiert den „Unterschied" zwischen zwei Antworten.
Die Türen: Entlang des Flurs gibt es Türen (Schwellen), die den Flur in Bereiche unterteilen.
- Wenn die Antwort links von Tür 1 liegt, ist sie „schlecht".
- Wenn sie zwischen Tür 1 und Tür 2 liegt, ist sie „etwas besser".
- Wenn sie rechts von Tür 5 liegt, ist sie „ein Meisterwerk".

Der Clou: In den alten Methoden mussten die Menschen diese Türen manuell aufstellen („Hier ist die Tür für 'etwas besser'"). Das war oft falsch.
In dieser neuen Methode lernt die KI die Position der Türen selbst! Sie schaut sich Tausende von Beispielen an und stellt die Türen so hin, dass sie am besten zu den menschlichen Bewertungen passen.

4. Warum ist das so wichtig? (Die Vorteile)

Kein mehr raten: Du musst nicht mehr raten, wie viel „Gewicht" eine starke Bewertung hat. Die KI lernt das aus den Daten. Es ist wie ein Schüler, der selbst merkt, wann eine Note „sehr gut" ist, statt dass der Lehrer ihm eine Liste gibt.
Weniger katastrophale Fehler: Wenn die alte KI einen Fehler machte, war sie oft überzeugt, dass sie recht hat (z. B. sie dachte, eine schlechte Antwort sei die beste). Die neue KI macht Fehler nur dann, wenn sie unsicher ist (die Antwort liegt knapp an einer Türschwelle). Das ist viel sicherer, wenn man die KI später steuert.
Symmetrie: Die Autoren haben entdeckt, dass Menschen oft symmetrisch denken. Wenn jemand sagt „Antwort A ist sehr viel besser als B", dann sagt er auch „B ist sehr viel schlechter als A". Die neue Methode nutzt diese Symmetrie, um effizienter zu lernen.

5. Das Ergebnis: Ein besserer Lehrer

In den Tests haben die neuen Modelle (die die Türschwellen selbst lernen) deutlich besser abgeschnitten als die alten Methoden, die nur mit „Klebestreifen" gearbeitet haben.

Sie haben nicht nur besser erraten, welche Antwort besser ist.
Sie haben auch besser erraten, wie stark der Unterschied war.

Zusammenfassend:
Stell dir vor, du trainierst einen Hund.

Alt: Du sagst nur „Gut" oder „Schlecht". Der Hund lernt, nicht zu beißen, aber er weiß nicht, wie man sehr artig ist.
Neu: Du sagst „Gut", „Sehr gut" oder „Meisterhaft". Der Hund lernt, nicht nur nicht zu beißen, sondern sich auch noch hinzulegen und den Ball zu apportieren.

Dieses Papier liefert die mathematischen Werkzeuge, damit unsere KI-Modelle endlich verstehen, dass menschliche Meinungen nicht nur schwarz oder weiß sind, sondern eine ganze Welt voller Grautöne und Nuancen haben.

Each language version is independently generated for its own context, not a direct translation.

Titel: Beyond Binary Preferences: A Principled Framework for Reward Modeling with Ordinal Feedback

Veröffentlicht auf: ICLR 2026
Autoren: Amirhossein Afsharrad et al. (Stanford, Amazon AGI, EPFL, Qualcomm AI Research, Aktus AI)

1. Problemstellung

Die Ausrichtung von Large Language Models (LLMs) auf menschliche Präferenzen (Alignment) stützt sich derzeit fast ausschließlich auf binäre Präferenzdaten (z. B. Antwort A ist besser als Antwort B), die durch Modelle wie Bradley-Terry (BT) verarbeitet werden.

Die Lücke: Menschliche Annotatoren liefern jedoch oft reichhaltigere Informationen in Form von ordinalen Bewertungen (z. B. Likert-Skalen wie „deutlich besser", „etwas besser", „vernachlässigbar besser").
Der Status Quo: Bestehende Methoden versuchen, diese ordinalen Daten in binäre Frameworks zu integrieren, indem sie ad-hoc Heuristiken verwenden (z. B. manuell festgelegte Margins, Skalierungsfaktoren für den Loss oder Soft-Labels).
Die Nachteile:
1. Fehlendes mathematisches Fundament: Es gibt kein Modell dafür, wie ordinalen Daten generiert werden.
2. Hyperparameter-Abhängigkeit: Margin-Werte oder Skalierungsfaktoren müssen manuell gewählt werden und sind nicht datengetrieben.
3. Fragilität: Änderungen in der Anzahl oder Definition der Präferenzstufen erfordern eine Neujustierung der Parameter.

2. Methodik: Ein prinzipiengeleitetes Framework

Die Autoren reframen das Problem des Reward-Modeling mit ordinalen Daten als diskretes ordinale Regressionsproblem (Discrete Ordinal Regression). Anstatt die Daten in binäre Kategorien zu zwingen, nutzen sie etablierte statistische Frameworks, um die Beziehung zwischen Reward-Differenzen und Präferenzstufen zu lernen.

Kernkonzepte:

Modellierung: Anstatt nur eine binäre Entscheidung zu treffen, wird eine latente kontinuierliche Variable (die Reward-Differenz $s_\phi(x, y, y') = r_\phi(x, y) - r_\phi(x, y')$ ) durch eine Menge von Schwellenwerten (Thresholds) $\zeta$ diskretisiert. Diese Schwellenwerte unterteilen den Raum in Intervalle, die den ordinalen Stufen entsprechen (z. B. $-K, \dots, 0, \dots, K$ ).
Lernbare Parameter: Im Gegensatz zu Heuristiken werden die Schwellenwerte $\zeta$ direkt aus den Daten gelernt, nicht manuell vorgegeben.

Zwei abgeleitete Loss-Funktionen:

Das Paper leitet zwei theoretisch fundierte Loss-Funktionen ab:

Negative Log-Likelihood (NLL) Loss (Probabilistischer Ansatz):
- Basiert auf dem Ordered Logit Model.
- Modelliert die bedingte Wahrscheinlichkeit $P(z|x)$ über kumulative Verteilungsfunktionen.
- Der Loss bestraft das Modell dafür, dass es der beobachteten Präferenzstufe eine geringe Wahrscheinlichkeitsmasse zuweist.
All-Threshold (AT) Loss (Margin-basierter Ansatz):
- Inspiriert von Large-Margin-Methoden.
- Bestraft Verletzungen der ordinalen Struktur direkt, indem er sicherstellt, dass die Reward-Differenz innerhalb des korrekten Intervalls liegt.
- Sammelt Strafen für alle Schwellenwert-Verletzungen, wobei der Fehler umso stärker bestraft wird, je weiter die Vorhersage vom wahren Wert entfernt ist.

Regularisierung und Optimierung:

Theorem 3.1 (Unbeschränkte Lösungen): Die Autoren beweisen, dass ohne Regularisierung das Optimierungsproblem keine endliche Lösung hat, da Reward-Parameter und Schwellenwerte gemeinsam skaliert werden können, um den Loss gegen Null zu treiben.
Lösung: Einführung einer L2-Regularisierung für die Schwellenwerte, um eine stabile Optimierung und konvergente Lösungen zu gewährleisten.
Symmetrie vs. Asymmetrie: Es wird zwischen symmetrischen Modellen ( $\zeta_{-k} = -\zeta_k$ ) und asymmetrischen Modellen unterschieden. Die Theorie (Theorem 3.2) zeigt, dass bei symmetrischen menschlichen Präferenzen auch symmetrische Schwellenwerte resultieren sollten.

Erweiterung auf DPO:

Das Framework wird in Anhang A auch auf Direct Preference Optimization (DPO) erweitert, indem die Reward-Funktion durch eine Pseudo-Reward-Funktion ersetzt wird.

3. Wichtige Beiträge

Erstes prinzipiengeleitetes Framework: Erstmals wird Reward-Modeling mit Likert-Skalen als ordinale Regression formalisiert, anstatt auf ad-hoc Modifikationen von binären Modellen zurückzugreifen.
Theoretische Fundierung: Ableitung von Loss-Funktionen aus probabilistischen und margin-basierten Prinzipien sowie Beweis der Notwendigkeit von Regularisierung zur Vermeidung von Instabilität.
Datengetriebene Parameter: Elimination manueller Hyperparameter (wie Margins) zugunsten von datengetriebenen, lernbaren Schwellenwerten.
Interpretierbarkeit: Die gelernten Schwellenwerte geben Einblick, wie Annotatoren zwischen Präferenzstufen unterscheiden (z. B. wo genau der Übergang von „etwas besser" zu „deutlich besser" liegt).

4. Ergebnisse

Die Methode wurde auf mehreren Benchmarks (RewardBench, RM-Bench) mit verschiedenen Modellen (Llama-3.1-8B, Mistral-7B, Zephyr-7B) und Datensätzen (HelpSteer2, HelpSteer3) evaluiert.

Überlegene Leistung: Die ordinalen Methoden (insbesondere NLL-Symmetric) übertreffen oder erreichen konsistent die Leistung der besten Heuristiken (Margin BT, Scaled BT, Soft Label) über verschiedene Kategorien hinweg (Chat, Mathematik, Code, Sicherheit).
- Beispiel: Auf RewardBench erzielte NLL-Symmetric im Durchschnitt 2–5 % bessere Scores als die Baselines.
Präzision der Stärke: Die Modelle lernen nicht nur die Rangfolge, sondern auch die Stärke der Präferenz.
- Genauigkeit innerhalb einer ordinalen Stufe (Acc@1): ca. 85 % auf Validierungsdaten.
- Exakte Genauigkeit (Acc@0): ca. 55 %.
Fehlerseverität (Error Severity): Dies ist ein entscheidender Vorteil.
- Herkömmliche BT-Modelle machen oft Fehler mit hohen Margins (hohe Sicherheit bei falscher Antwort).
- Das ordinale Modell reduziert die mittlere Fehler-Marge um 87 % (von 3,827 auf 0,501). Fehler treten nur bei echten Unsicherheiten auf, was für RLHF kritisch ist, da falsche, aber hochkonfidente Rewards die Policy-Optimierung stark in die Irre führen können.
Robustheit gegenüber Rauschen:
- Das System ist extrem robust gegenüber systematischen Verschiebungsrauschen (z. B. wenn Annotatoren konsistent eine Stufe zu hoch bewerten), da die gelernten Schwellenwerte diese Verzerrungen absorbieren.
- Bei zufälligem Rauschen zeigt es eine graceful Degradation.
Gemeinsames Training vs. Nachkalibrierung: Das gemeinsame Lernen von Reward-Parametern und Schwellenwerten (Joint Training) ist signifikant besser als das Nachkalibrieren von Schwellenwerten auf einem fertigen binären Modell (Post-Hoc Calibration).

5. Bedeutung und Ausblick

Paradigmenwechsel: Das Paper markiert einen Übergang von heuristischen Patches hin zu einem mathematisch fundierten Framework für die Nutzung feinkörniger menschlicher Rückmeldungen.
Praktische Relevanz: Da zukünftige Datensammlungsschemata zunehmend komplexere Feedback-Formen (Konfidenzscores, Multi-Aspekt-Bewertungen) beinhalten werden, bietet dieses Framework die notwendige mathematische Basis, um diese Informationen effektiv zu nutzen.
Zukunft: Die Autoren schlagen vor, das Framework auf DPO zu erweitern und komplexere Präferenzstrukturen (z. B. Unsicherheitsschätzungen) zu integrieren.

Fazit: Die Arbeit demonstriert, dass die explizite Modellierung der ordinalen Struktur menschlicher Präferenzen nicht nur die Ranking-Genauigkeit verbessert, sondern vor allem die Kalibrierung und Zuverlässigkeit von Reward-Modellen erhöht, was für sichere und effektive RLHF-Pipelines essenziell ist.