Diverging Preferences: When do Annotators Disagree and do Models Know?

Diese Arbeit widerlegt die Annahme, dass Meinungsverschiedenheiten bei Annotatoren lediglich auf Rauschen zurückzuführen sind, indem sie eine Taxonomie von Diskrepanzursachen entwickelt und zeigt, wie sich dies negativ auf das Reward Modeling und die Evaluation von LLMs auswirkt, woraufhin neue Methoden zur Identifizierung und Minderung dieser divergierenden Präferenzen vorgestellt werden.

Michael JQ Zhang, Zhilin Wang, Jena D. Hwang, Yi Dong, Olivier Delalleau, Yejin Choi, Eunsol Choi, Xiang Ren, Valentina Pyatkin

Veröffentlicht 2026-03-04
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein Koch, der für eine riesige, bunte Menschenmenge kocht. Jeder Gast hat einen anderen Geschmack: Der eine liebt scharfe Currygerichte, der andere mag nur milde Suppen, und wieder ein anderer findet, dass das Essen einfach zu langatmig serviert wird.

Das ist genau das Problem, das diese Forscher untersucht haben. Sie schauen sich an, wie wir Künstliche Intelligenz (KI) trainieren, damit sie uns hilft. Normalerweise fragen wir viele Menschen (die sogenannten „Annotatoren"), welche Antwort einer KI besser ist. Aber was passiert, wenn die Menschen sich nicht einig sind?

Hier ist die einfache Erklärung der Studie, mit ein paar bildhaften Vergleichen:

1. Das Problem: Der Streit im Restaurant

Bisher dachten die KI-Entwickler: „Wenn sich die Menschen bei der Bewertung einer KI-Antwort nicht einig sind, liegt das einfach an Verwirrung oder Fehlern der Menschen. Wir müssen diesen Lärm einfach herausfiltern und die ‚wahre' Meinung finden."

Die Forscher sagen aber: Nein, das ist falsch!
Die meisten Uneinigkeiten sind keine Fehler. Sie sind einfach unterschiedliche Geschmäcker.

  • Beispiel: Ein Gast will eine kurze, knackige Antwort (wie ein Espresso). Ein anderer will eine lange, detaillierte Erklärung (wie ein ganzer Kaffee mit Milch).
  • Wenn die KI jetzt lernt, nur die „Mehrheitsmeinung" zu befolgen, verliert sie die Fähigkeit, auf den einzelnen Gast einzugehen. Sie wird zu einem Roboter, der nur eine Art von Antwort kennt, egal ob der Gast das will oder nicht.

Die Forscher haben eine Karte der Streitpunkte erstellt. Die häufigsten Gründe für Uneinigkeit sind:

  • Die Frage war zu vage: (Wie wenn jemand sagt: „Mach mir was Leckeres" – soll es Pizza oder Sushi sein?)
  • Der Stil: (Ist eine Antwort zu lang? Zu kurz? Zu formell?)
  • Sicherheit: (Soll die KI eine gefährliche Frage beantworten oder höflich ablehnen? Hier streiten sich die Leute oft.)

2. Der Fehler der alten Methode: Der „Einheits-Schmecker"

Die aktuellen KI-Modelle (die sogenannten „Belohnungsmodelle") funktionieren wie ein strenger Koch, der nur einen Gewinner pro Gericht sucht.

  • Wenn die Menschen uneinig sind, sagt das Modell trotzdem: „Aha, Antwort A ist besser als Antwort B!" und gibt Antwort A eine hohe Punktzahl.
  • Das Ergebnis: Die KI lernt, immer nur eine Art von Antwort zu geben. Sie verliert ihre „Vielfalt". Sie wird nicht mehr in der Lage sein, auf unterschiedliche Persönlichkeiten einzugehen. Sie wird zum „Einheitsbrei".

3. Die neue Lösung: Der „Geschmacks-Verteilungs-Koch"

Die Forscher schlagen eine neue Methode vor. Statt zu fragen: „Welche Antwort ist besser?", fragen sie: „Wie sehr mögen die verschiedenen Leute diese Antwort?"

Stell dir vor, statt nur einen Gewinner zu küren, zeichnet die KI eine Kurve auf:

  • „Diese Antwort wird von 30% der Leute geliebt, von 40% gemocht und von 30% gehasst."
  • Das Modell lernt also nicht nur den Durchschnitt, sondern auch die Spannweite (die Varianz).
  • Der Vorteil: Die KI weiß jetzt: „Aha, hier gibt es keine klare Meinung. Ich sollte vorsichtig sein oder dem Nutzer eine Frage stellen, statt einfach eine Antwort zu geben."

4. Das Problem mit dem „KI-Richter" (LLM-as-Judge)

Oft nutzen wir eine andere KI, um zu bewerten, wie gut eine andere KI ist (wie ein Richter, der über einen anderen Richter urteilt).

  • Das Problem: Dieser „KI-Richter" ist oft voreingenommen. Er liebt es, wenn die KI eine klare Antwort gibt, auch wenn die Frage eigentlich unklar war. Er bestraft KIs, die sagen: „Entschuldigung, ich verstehe Ihre Frage nicht ganz, könnten Sie das genauer erklären?"
  • Die Folge: KIs, die höflich nachfragen oder bei unsicheren Fragen ablehnen (weil sie sicher sein wollen), werden vom Richter als „schlecht" bewertet, obwohl sie eigentlich sehr vernünftig gehandelt haben.

5. Was tun die Forscher?

Sie haben einen neuen Trick entwickelt:

  1. Neue Trainings-Modelle: Sie trainieren KIs so, dass sie die „Geschmacksverteilung" verstehen. Sie lernen, dass Uneinigkeit normal ist und kein Fehler.
  2. Saubere Prüfungen: Sie schlagen vor, bei Tests für KIs alle Fragen zu entfernen, bei denen die Menschen sich stark streiten. Warum? Weil man eine KI nicht daran messen sollte, ob sie einen Streit gewinnt, sondern daran, ob sie gute Arbeit leistet, wenn alle sich einig sind.

Zusammenfassung in einem Satz

Diese Studie sagt uns: Menschen sind unterschiedlich, und das ist gut so. Unsere KIs sollten nicht lernen, nur eine einzige „richtige" Antwort zu geben, sondern lernen müssen, dass es viele verschiedene, gültige Wege gibt, eine Frage zu beantworten – und dass es manchmal besser ist, nachzufragen, als einfach zu raten.