Reward Models Inherit Value Biases from Pretraining

Die Studie zeigt, dass Belohnungsmodelle (Reward Models) durch ihre Basis-LLMs signifikante Wertebias erben, wobei Llama-Modelle eine Präferenz für „Agency" und Gemma-Modelle für „Communion" aufweisen, was die Notwendigkeit von Sicherheitsmaßnahmen bereits im Pretraining-Phase unterstreicht.

Brian Christian, Jessica A. F. Thompson, Elle Michelle Yang, Vincent Adam, Hannah Rose Kirk, Christopher Summerfield, Tsvetomira Dumbalska

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Der unsichtbare Erbe: Warum KI-Richter ihre Vorurteile von ihren Lehrern erben

Stellen Sie sich vor, Sie wollen einen neuen Richter für ein Gerichtshof namens "Künstliche Intelligenz" einstellen. Dieser Richter hat eine wichtige Aufgabe: Er soll entscheiden, welche Antworten eines KI-Chatbots gut und welche schlecht sind. Er ist der "Schiedsrichter" (im Englischen Reward Model), der sicherstellt, dass die KI sich menschlich und hilfreich verhält.

Normalerweise denkt man: "Der Richter wird neutral sein, denn er wurde speziell dafür trainiert, menschliche Meinungen zu verstehen."

Aber dieses Papier aus dem Jahr 2026 enthüllt ein überraschendes Geheimnis: Der Richter ist gar nicht neutral. Er hat eine unsichtbare "Erbschaft" von seinem Vorgänger, dem eigentlichen KI-Modell, das als Basis diente.

1. Das Problem: Der Richter trägt die "DNA" seines Lehrers

Stellen Sie sich zwei verschiedene Schulen vor, in denen diese Richter ausgebildet werden:

  • Schule A (Llama): Hier wird viel Wert auf Freiheit, Erfolg und individuelle Stärke gelegt.
  • Schule B (Gemma): Hier wird viel Wert auf Liebe, Gemeinschaft und Zusammenhalt gelegt.

Wenn ein Richter von Schule A kommt, neigt er unbewusst dazu, Antworten zu bevorzugen, die über "Freiheit" oder "Erfolg" sprechen. Kommt er von Schule B, mag er Antworten über "Liebe" oder "Familie" lieber.

Das Schlimme daran: Selbst wenn beide Richter exakt dieselben Trainingsdaten bekommen und exakt dieselben Regeln lernen, bleiben diese Vorlieben bestehen. Es ist, als würde man einem Kind, das in einer sehr strengen Familie aufgewachsen ist, eine Woche lang in einer sehr lockeren Familie aufwachsen lassen – die alten Gewohnheiten verschwinden nicht einfach so schnell.

2. Der Experiment: Der "Wort-Test"

Die Forscher haben einen cleveren Test gemacht. Sie fragten die Richter: "Was ist das Größte, das es je gab?"

  • Die Richter von Schule A (Llama) antworteten fast immer mit: "Freiheit".
  • Die Richter von Schule B (Gemma) antworteten fast immer mit: "Liebe".

Das ist wie bei zwei verschiedenen Musikgeschmäckern: Wenn Sie einem Klassik-Fan und einem Rock-Fan denselben Song geben, werden sie unterschiedliche Teile hervorheben. Die KI-Richter haben einen "moralischen Geschmack", der schon vor ihrer eigentlichen Ausbildung festgelegt wurde.

3. Die Ursache: Die "unsichtbare Stimme" (Pretraining)

Warum passiert das? Weil diese Richter nicht bei Null anfangen. Sie werden aus bereits fertigen, riesigen KI-Modellen (den "Lehrern") geboren. Diese Lehrer haben Millionen von Büchern, Artikeln und Internetseiten gelesen (das nennt man Pretraining).

In diesem riesigen Datenmeer haben die Lehrer unbewusst gelernt:

  • Der "Llama-Lehrer" hat gelernt, dass Wörter wie "Freiheit" und "Macht" sehr wichtig sind.
  • Der "Gemma-Lehrer" hat gelernt, dass Wörter wie "Liebe" und "Hilfe" sehr wichtig sind.

Wenn nun ein neuer Richter aus diesen Lehrern gemacht wird, erbt er diese "moralische DNA". Die Forscher haben gezeigt, dass man diese Vorurteile sogar direkt in den mathematischen Zahlen (den "Log-Wahrscheinlichkeiten") der Lehrer finden kann, noch bevor der Richter überhaupt trainiert wurde.

4. Der Versuch, es zu korrigieren: Kann man Vorurteile "wegtrainieren"?

Die Forscher haben gedacht: "Vielleicht hilft es, wenn wir den Richter mit noch mehr Daten trainieren." Sie haben neue Richter mit riesigen Mengen an menschlichen Meinungen trainiert.

Das Ergebnis war gemischt:

  • Mit etwas mehr Daten wurden die Unterschiede kleiner.
  • Aber selbst mit sehr vielen Daten (über 100.000 Beispiele) verschwanden die Unterschiede nie ganz. Die "Erbschaft" war zu stark.
  • Bei manchen Modellen (wie Qwen) blieben die Vorurteile sogar noch stärker bestehen, egal wie viel man trainierte.

Es ist, als würde man versuchen, einen alten Wein mit neuem Wasser zu mischen. Man kann den Geschmack etwas verwässern, aber der ursprüngliche Wein schmeckt immer noch durch.

5. Die große Lehre: Die Wahl der Basis ist eine moralische Entscheidung

Das Wichtigste, was dieses Papier uns sagt, ist: Sicherheit beginnt nicht erst, wenn man die KI trainiert, um "nett" zu sein. Sicherheit beginnt schon beim Lesen der Bücher (Pretraining).

Wenn Entwickler eine KI bauen, müssen sie sich nicht nur fragen: "Welches Modell ist am schnellsten oder intelligentesten?" Sie müssen sich auch fragen: "Welche Werte hat dieses Modell schon in sich?"

Die Wahl der Basis-KI ist wie die Wahl des Grundstücks für ein Haus. Wenn das Grundstück (das Pretraining) schon schief ist, wird das Haus (der Schiedsrichter) auch schief stehen, egal wie gut man es renoviert.

Zusammenfassung in einem Satz

KI-Richter, die menschliche Werte bewerten sollen, erben unbewusst die moralischen Vorlieben ihrer "Lehrer" (der Basis-Modelle), und diese Vorurteile sind so tief verwurzelt, dass sie sich kaum durch einfaches Nachtrainieren ausmerzen lassen.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →