Diverging Preferences: When do Annotators Disagree and do Models Know?

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein Koch, der für eine riesige, bunte Menschenmenge kocht. Jeder Gast hat einen anderen Geschmack: Der eine liebt scharfe Currygerichte, der andere mag nur milde Suppen, und wieder ein anderer findet, dass das Essen einfach zu langatmig serviert wird.

Das ist genau das Problem, das diese Forscher untersucht haben. Sie schauen sich an, wie wir Künstliche Intelligenz (KI) trainieren, damit sie uns hilft. Normalerweise fragen wir viele Menschen (die sogenannten „Annotatoren"), welche Antwort einer KI besser ist. Aber was passiert, wenn die Menschen sich nicht einig sind?

Hier ist die einfache Erklärung der Studie, mit ein paar bildhaften Vergleichen:

1. Das Problem: Der Streit im Restaurant

Bisher dachten die KI-Entwickler: „Wenn sich die Menschen bei der Bewertung einer KI-Antwort nicht einig sind, liegt das einfach an Verwirrung oder Fehlern der Menschen. Wir müssen diesen Lärm einfach herausfiltern und die ‚wahre' Meinung finden."

Die Forscher sagen aber: Nein, das ist falsch!
Die meisten Uneinigkeiten sind keine Fehler. Sie sind einfach unterschiedliche Geschmäcker.

Beispiel: Ein Gast will eine kurze, knackige Antwort (wie ein Espresso). Ein anderer will eine lange, detaillierte Erklärung (wie ein ganzer Kaffee mit Milch).
Wenn die KI jetzt lernt, nur die „Mehrheitsmeinung" zu befolgen, verliert sie die Fähigkeit, auf den einzelnen Gast einzugehen. Sie wird zu einem Roboter, der nur eine Art von Antwort kennt, egal ob der Gast das will oder nicht.

Die Forscher haben eine Karte der Streitpunkte erstellt. Die häufigsten Gründe für Uneinigkeit sind:

Die Frage war zu vage: (Wie wenn jemand sagt: „Mach mir was Leckeres" – soll es Pizza oder Sushi sein?)
Der Stil: (Ist eine Antwort zu lang? Zu kurz? Zu formell?)
Sicherheit: (Soll die KI eine gefährliche Frage beantworten oder höflich ablehnen? Hier streiten sich die Leute oft.)

2. Der Fehler der alten Methode: Der „Einheits-Schmecker"

Die aktuellen KI-Modelle (die sogenannten „Belohnungsmodelle") funktionieren wie ein strenger Koch, der nur einen Gewinner pro Gericht sucht.

Wenn die Menschen uneinig sind, sagt das Modell trotzdem: „Aha, Antwort A ist besser als Antwort B!" und gibt Antwort A eine hohe Punktzahl.
Das Ergebnis: Die KI lernt, immer nur eine Art von Antwort zu geben. Sie verliert ihre „Vielfalt". Sie wird nicht mehr in der Lage sein, auf unterschiedliche Persönlichkeiten einzugehen. Sie wird zum „Einheitsbrei".

3. Die neue Lösung: Der „Geschmacks-Verteilungs-Koch"

Die Forscher schlagen eine neue Methode vor. Statt zu fragen: „Welche Antwort ist besser?", fragen sie: „Wie sehr mögen die verschiedenen Leute diese Antwort?"

Stell dir vor, statt nur einen Gewinner zu küren, zeichnet die KI eine Kurve auf:

„Diese Antwort wird von 30% der Leute geliebt, von 40% gemocht und von 30% gehasst."
Das Modell lernt also nicht nur den Durchschnitt, sondern auch die Spannweite (die Varianz).
Der Vorteil: Die KI weiß jetzt: „Aha, hier gibt es keine klare Meinung. Ich sollte vorsichtig sein oder dem Nutzer eine Frage stellen, statt einfach eine Antwort zu geben."

4. Das Problem mit dem „KI-Richter" (LLM-as-Judge)

Oft nutzen wir eine andere KI, um zu bewerten, wie gut eine andere KI ist (wie ein Richter, der über einen anderen Richter urteilt).

Das Problem: Dieser „KI-Richter" ist oft voreingenommen. Er liebt es, wenn die KI eine klare Antwort gibt, auch wenn die Frage eigentlich unklar war. Er bestraft KIs, die sagen: „Entschuldigung, ich verstehe Ihre Frage nicht ganz, könnten Sie das genauer erklären?"
Die Folge: KIs, die höflich nachfragen oder bei unsicheren Fragen ablehnen (weil sie sicher sein wollen), werden vom Richter als „schlecht" bewertet, obwohl sie eigentlich sehr vernünftig gehandelt haben.

5. Was tun die Forscher?

Sie haben einen neuen Trick entwickelt:

Neue Trainings-Modelle: Sie trainieren KIs so, dass sie die „Geschmacksverteilung" verstehen. Sie lernen, dass Uneinigkeit normal ist und kein Fehler.
Saubere Prüfungen: Sie schlagen vor, bei Tests für KIs alle Fragen zu entfernen, bei denen die Menschen sich stark streiten. Warum? Weil man eine KI nicht daran messen sollte, ob sie einen Streit gewinnt, sondern daran, ob sie gute Arbeit leistet, wenn alle sich einig sind.

Zusammenfassung in einem Satz

Diese Studie sagt uns: Menschen sind unterschiedlich, und das ist gut so. Unsere KIs sollten nicht lernen, nur eine einzige „richtige" Antwort zu geben, sondern lernen müssen, dass es viele verschiedene, gültige Wege gibt, eine Frage zu beantworten – und dass es manchmal besser ist, nachzufragen, als einfach zu raten.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper adressiert ein fundamentales Problem im Bereich des Reinforcement Learning from Human Feedback (RLHF) für Large Language Models (LLMs): die Behandlung von divergierenden Präferenzen (Diverging Preferences).

Herausforderung: In Standard-RLHF-Pipelines werden menschliche Annotationen oft als „Wahrheit" behandelt, wobei Meinungsverschiedenheiten zwischen Annotatoren als einfaches Rauschen (Noise) betrachtet und durch Mehrheitsvoting aggregiert werden.
Annahme vs. Realität: Die Autoren hinterfragen die Annahme, dass Uneinigkeit nur auf Fehler zurückzuführen ist. Sie untersuchen, ob diese Divergenzen stattdessen legitime, unterschiedliche Nutzerperspektiven widerspiegeln (z. B. unterschiedliche Vorlieben bezüglich Antwortstil, Komplexität oder ethischer Grenzen).
Folgen für Modelle: Herkömmliche Belohnungsmodelle (Reward Models) lernen oft eine einzige „siegende" Antwort, selbst wenn die menschlichen Präferenzen stark gespalten sind. Dies führt zu einer mangelnden pluralistischen Ausrichtung (pluralistic alignment), bei der das LLM nur eine einzige Nutzerperspektive bedient und andere legitime Sichtweisen ignoriert oder bestraft. Zudem zeigen „LLM-as-Judge"-Verfahren (automatische Evaluierung durch LLMs) ähnliche Verzerrungen und bestrafen Modelle, die bei mehrdeutigen Prompts um Klärung bitten oder aus Sicherheitsgründen ablehnen.

2. Methodik

Datensätze und Taxonomie

Die Autoren analysieren zwei große, menschlich annotierte Datensätze:

MultiPref: 10.000 Präferenzpaare mit je 4 Annotatoren.
HelpSteer2-Disagreements: 12.000 Präferenzpaare mit 3–5 Annotatoren (unter Verwendung aller Einzelannotationen, nicht nur aggregierter Scores).

Daraus entwickeln sie eine Taxonomie der Diskrepanzquellen (10 Kategorien in 4 Hauptklassen):

Aufgaben-Unterspezifikation (Task Underspecification): Der Prompt ist mehrdeutig, und beide Antworten sind valide Interpretationen.
Antwort-Stil (Response Style):
- Wortwahl/Verbosität: Unterschiedliche Vorlieben für Länge und Detailgrad.
- Format: Vorlieben für Listen, Absätze oder Überschriften.
- Ästhetik: Subjektive Geschmacksfragen (z. B. Schreibstil).
- Komplexität: Unterschiedliche Erwartungen an den technischen Tiefgang.
Ablehnungen (Refusals): Uneinigkeit darüber, ob eine Anfrage aus Sicherheits- oder Kapazitätsgründen abgelehnt werden sollte (Comply vs. Refuse oder unterschiedliche Arten von Ablehnungen).
Fehler (Errors): Halluzinationen oder degenerate Ausgaben, die jedoch manchmal schwer zu erkennen sind.

Modellierung von Belohnungen

Die Autoren vergleichen Standardmethoden mit neuen Ansätzen:

Baseline-Methoden:
- Bradley-Terry: Klassisches Modell, das die Wahrscheinlichkeit $P(A > B)$ berechnet.
- MSE-Regression: Vorhersage eines skalaren Scores (1-5 Likert-Skala).
- Aggregation: Labels werden durch Mehrheitsvoting zusammengefasst.
Neuer Ansatz: Verteilte Belohnungsmodelle (Distributional Reward Models):
- Statt eines einzelnen Wertes wird die Belohnung $r_A$ als Normalverteilung $N(\mu_A, \sigma^2_A)$ modelliert.
- Das Modell lernt den Mittelwert $\mu$ (durchschnittliche Präferenz) und die Varianz $\sigma^2$ (Grad der Uneinigkeit/Polarisierung).
- Training: Nutzung von KL-Divergenz-Verlust, um die Verteilung der Annotator-Labels vorherzusagen.
- Ziel: Das Modell soll nicht nur die bevorzugte Antwort erkennen, sondern auch Fälle identifizieren, in denen die Präferenzen stark divergieren (hohe Varianz).

Evaluierung von „LLM-as-Judge"

Die Autoren untersuchen, wie aktuelle Evaluierungsmethoden (z. B. Chatbot Arena, WildBench) mit divergierenden Fällen umgehen. Sie entwickeln eine Methode, um „polarisierende" Prompts in Benchmarks zu identifizieren und zu entfernen, um faire Evaluierungen zu gewährleisten.

3. Wichtige Ergebnisse

Analyse der Diskrepanzen

Häufigkeit: Über 30% der Beispiele in beiden Datensätzen zeigen divergierende Präferenzen.
Ursache: Mehr als 75% der Uneinigkeiten sind auf individuelle Vorlieben (Stil, Komplexität, Interpretation) zurückzuführen, nicht auf Annotator-Fehler.
Schlussfolgerung: Diskrepanzen sind kein Rauschen, sondern ein Signal für pluralistische Bedürfnisse.

Leistung der Belohnungsmodelle

Versagen der Standardmodelle: Herkömmliche Modelle (Bradley-Terry, MSE) unterscheiden nicht zwischen hoch-einvernehmlichen und divergierenden Fällen. Sie weisen auch bei stark gespaltenen Präferenzen oft einen klaren „Gewinner" zu (hohe Reward-Differenz), was zu einer falschen Ausrichtung des LLM führt.
Erfolg verteilter Modelle:
- Die vorgeschlagenen Mean-Var (KL) Modelle erreichen eine signifikant bessere Leistung bei der Identifizierung von divergierenden Fällen (Diverging ID AUROC).
- Sie verbessern den AUROC um 0,16 gegenüber Standardmodellen.
- Sie lernen erfolgreich, hohe Varianz bei polarisierenden Antworten zu modellieren, während sie bei klaren Fällen eine niedrige Varianz vorhersagen.

Bias in „LLM-as-Judge"

Systematisches Fehlverhalten: LLM-as-Judge-Systeme neigen dazu, bei divergierenden Fällen (z. B. Ablehnung vs. Befolgung oder Klärung vs. direkte Antwort) dennoch eine klare „Gewinner"-Antwort zu wählen.
Bestrafung pluralistischer Strategien: Modelle, die bei unsicheren Prompts um Klärung bitten oder aus Sicherheitsgründen ablehnen, werden von diesen Evaluierungen oft fälschlicherweise als schlechter eingestuft, selbst wenn dies eine valide Strategie ist.
Lösung: Durch die Anwendung verteilter Belohnungsmodelle konnten problematische, polarisierende Prompts in Benchmarks (WildBench) identifiziert werden. In diesen Fällen wählten die Judges fast immer die „Comply"-Antwort, obwohl die menschlichen Annotatoren gespalten waren.

4. Hauptbeiträge

Empirische Analyse & Taxonomie: Nachweis, dass Diskrepanzen in Präferenzdaten oft legitime, unterschiedliche Nutzerperspektiven sind, und Entwicklung einer detaillierten Taxonomie der Ursachen.
Neue Modellierungsarchitektur: Einführung von verteilter Belohnungsmodellierung (Distributional Reward Modeling), die Varianz als Maß für Uneinigkeit nutzt und damit pluralistische Ausrichtung ermöglicht.
Kritik an Evaluierung: Aufdeckung von Bias in „LLM-as-Judge"-Methoden, die pluralistisch ausgerichtete Modelle bestrafen.
Praktische Lösung: Ein Framework zur Identifizierung und Entfernung polarisierender Beispiele aus Evaluierungs-Benchmarks, um fairere Vergleiche zu ermöglichen.

5. Bedeutung und Ausblick

Das Paper stellt einen Paradigmenwechsel dar: Von der Annahme, dass menschliche Präferenzen eine einzige „Ground Truth" haben, hin zur Anerkennung von Pluralismus.

Für das Training: Es zeigt, dass RLHF-Modelle so trainiert werden müssen, dass sie Unsicherheit und unterschiedliche Nutzerpräferenzen modellieren können, anstatt sie zu unterdrücken.
Für die Evaluierung: Es warnt davor, Benchmarks zu verwenden, die nicht zwischen klaren und gespaltenen Fällen unterscheiden, da dies die Entwicklung von sicheren und inklusiven LLMs behindert.
Zukunft: Die vorgeschlagenen Methoden bieten einen Weg, LLMs zu entwickeln, die nicht nur für eine „durchschnittliche" Nutzermeinung optimiert sind, sondern in der Lage sind, verschiedene, oft widersprüchliche Nutzerbedürfnisse zu erkennen und angemessen darauf zu reagieren.