Reward Models Inherit Value Biases from Pretraining

Each language version is independently generated for its own context, not a direct translation.

Der unsichtbare Erbe: Warum KI-Richter ihre Vorurteile von ihren Lehrern erben

Stellen Sie sich vor, Sie wollen einen neuen Richter für ein Gerichtshof namens "Künstliche Intelligenz" einstellen. Dieser Richter hat eine wichtige Aufgabe: Er soll entscheiden, welche Antworten eines KI-Chatbots gut und welche schlecht sind. Er ist der "Schiedsrichter" (im Englischen Reward Model), der sicherstellt, dass die KI sich menschlich und hilfreich verhält.

Normalerweise denkt man: "Der Richter wird neutral sein, denn er wurde speziell dafür trainiert, menschliche Meinungen zu verstehen."

Aber dieses Papier aus dem Jahr 2026 enthüllt ein überraschendes Geheimnis: Der Richter ist gar nicht neutral. Er hat eine unsichtbare "Erbschaft" von seinem Vorgänger, dem eigentlichen KI-Modell, das als Basis diente.

1. Das Problem: Der Richter trägt die "DNA" seines Lehrers

Stellen Sie sich zwei verschiedene Schulen vor, in denen diese Richter ausgebildet werden:

Schule A (Llama): Hier wird viel Wert auf Freiheit, Erfolg und individuelle Stärke gelegt.
Schule B (Gemma): Hier wird viel Wert auf Liebe, Gemeinschaft und Zusammenhalt gelegt.

Wenn ein Richter von Schule A kommt, neigt er unbewusst dazu, Antworten zu bevorzugen, die über "Freiheit" oder "Erfolg" sprechen. Kommt er von Schule B, mag er Antworten über "Liebe" oder "Familie" lieber.

Das Schlimme daran: Selbst wenn beide Richter exakt dieselben Trainingsdaten bekommen und exakt dieselben Regeln lernen, bleiben diese Vorlieben bestehen. Es ist, als würde man einem Kind, das in einer sehr strengen Familie aufgewachsen ist, eine Woche lang in einer sehr lockeren Familie aufwachsen lassen – die alten Gewohnheiten verschwinden nicht einfach so schnell.

2. Der Experiment: Der "Wort-Test"

Die Forscher haben einen cleveren Test gemacht. Sie fragten die Richter: "Was ist das Größte, das es je gab?"

Die Richter von Schule A (Llama) antworteten fast immer mit: "Freiheit".
Die Richter von Schule B (Gemma) antworteten fast immer mit: "Liebe".

Das ist wie bei zwei verschiedenen Musikgeschmäckern: Wenn Sie einem Klassik-Fan und einem Rock-Fan denselben Song geben, werden sie unterschiedliche Teile hervorheben. Die KI-Richter haben einen "moralischen Geschmack", der schon vor ihrer eigentlichen Ausbildung festgelegt wurde.

3. Die Ursache: Die "unsichtbare Stimme" (Pretraining)

Warum passiert das? Weil diese Richter nicht bei Null anfangen. Sie werden aus bereits fertigen, riesigen KI-Modellen (den "Lehrern") geboren. Diese Lehrer haben Millionen von Büchern, Artikeln und Internetseiten gelesen (das nennt man Pretraining).

In diesem riesigen Datenmeer haben die Lehrer unbewusst gelernt:

Der "Llama-Lehrer" hat gelernt, dass Wörter wie "Freiheit" und "Macht" sehr wichtig sind.
Der "Gemma-Lehrer" hat gelernt, dass Wörter wie "Liebe" und "Hilfe" sehr wichtig sind.

Wenn nun ein neuer Richter aus diesen Lehrern gemacht wird, erbt er diese "moralische DNA". Die Forscher haben gezeigt, dass man diese Vorurteile sogar direkt in den mathematischen Zahlen (den "Log-Wahrscheinlichkeiten") der Lehrer finden kann, noch bevor der Richter überhaupt trainiert wurde.

4. Der Versuch, es zu korrigieren: Kann man Vorurteile "wegtrainieren"?

Die Forscher haben gedacht: "Vielleicht hilft es, wenn wir den Richter mit noch mehr Daten trainieren." Sie haben neue Richter mit riesigen Mengen an menschlichen Meinungen trainiert.

Das Ergebnis war gemischt:

Mit etwas mehr Daten wurden die Unterschiede kleiner.
Aber selbst mit sehr vielen Daten (über 100.000 Beispiele) verschwanden die Unterschiede nie ganz. Die "Erbschaft" war zu stark.
Bei manchen Modellen (wie Qwen) blieben die Vorurteile sogar noch stärker bestehen, egal wie viel man trainierte.

Es ist, als würde man versuchen, einen alten Wein mit neuem Wasser zu mischen. Man kann den Geschmack etwas verwässern, aber der ursprüngliche Wein schmeckt immer noch durch.

5. Die große Lehre: Die Wahl der Basis ist eine moralische Entscheidung

Das Wichtigste, was dieses Papier uns sagt, ist: Sicherheit beginnt nicht erst, wenn man die KI trainiert, um "nett" zu sein. Sicherheit beginnt schon beim Lesen der Bücher (Pretraining).

Wenn Entwickler eine KI bauen, müssen sie sich nicht nur fragen: "Welches Modell ist am schnellsten oder intelligentesten?" Sie müssen sich auch fragen: "Welche Werte hat dieses Modell schon in sich?"

Die Wahl der Basis-KI ist wie die Wahl des Grundstücks für ein Haus. Wenn das Grundstück (das Pretraining) schon schief ist, wird das Haus (der Schiedsrichter) auch schief stehen, egal wie gut man es renoviert.

Zusammenfassung in einem Satz

KI-Richter, die menschliche Werte bewerten sollen, erben unbewusst die moralischen Vorlieben ihrer "Lehrer" (der Basis-Modelle), und diese Vorurteile sind so tief verwurzelt, dass sie sich kaum durch einfaches Nachtrainieren ausmerzen lassen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Reward Models Inherit Value Biases from Pretraining

Veröffentlicht bei: ICLR 2026
Autoren: Brian Christian et al. (Universität Oxford, Universitat Pompeu Fabra)

1. Problemstellung

Reward Models (RMs) sind ein zentraler Baustein in der Ausrichtung (Alignment) von Large Language Models (LLMs) an menschliche Werte, insbesondere im Rahmen von Reinforcement Learning from Human Feedback (RLHF). Bisher lag der Fokus der Forschung stark auf den vortrainierten LLMs selbst oder den nachtrainierten Modellen, während RMs weniger untersucht wurden.

Das Kernproblem, das in diesem Paper adressiert wird, ist die Annahme, dass RMs eine „leere Tafel" (blank slate) darstellen, die ausschließlich menschliche Präferenzen lernt. Die Autoren argumentieren, dass RMs, da sie typischerweise aus vortrainierten LLMs initialisiert und dann für Präferenzmodellierung feinabgestimmt (finetuned) werden, die Repräsentationen und damit die Wertebias (Wertevoreingenommenheiten) ihrer Basis-Modelle erben. Es fehlt bisher an systematischem Wissen darüber, inwieweit diese inhärenten Bias aus dem Pretraining-Phase in die RMs übertragen werden und ob sie durch nachfolgende Trainingsdaten vollständig „herausgewaschen" werden können.

2. Methodik

Die Studie kombiniert fortgeschrittene Interpretierbarkeitstechniken mit psycholinguistischen Korpora, um Wertebias zu quantifizieren.

Exhaustive Token Search: Die Autoren nutzen eine Methode, bei der für einen gegebenen Prompt (z. B. „Was ist das Beste aller Zeiten?") jeder Token im Vokabular des Reward Models bewertet wird. Dies ermöglicht die Identifizierung der höchst- und niedrigstbewerteten Antworten (optimal/pessimal tokens).
Psycholinguistische Korpora: Um die Bewertungen zu interpretieren, werden zwei validierte Korpora verwendet:
- The Big Two: Unterscheidet zwischen Agency (Handlungsfähigkeit, Individualität, Erfolg, Freiheit) und Communion (Verbundenheit, Liebe, Familie, Gemeinschaft).
- Moral Foundations Dictionary (MFD2): Untersucht moralische Dimensionen wie Fürsorge, Fairness, Loyalität, Autorität und Heiligkeit.
Implicit Reward Models (MWLR): Um die Bias der Basis-Modelle direkt zu messen, definieren die Autoren eine „implizite Belohnungsfunktion" basierend auf dem Unterschied der Log-Wahrscheinlichkeiten zweier Modelle ( $\pi_1$ und $\pi_2$ ). Sie verwenden eine mixture-weighted log-ratio (MWLR):
$MWLR = \frac{1}{2}(p + q) \cdot (\log q - \log p)$
Diese Metrik gewichtet die Log-Differenz mit der Wahrscheinlichkeit des Tokens, um Rauschen durch extrem unwahrscheinliche Tokens zu vermeiden.
Kontrollierte Trainings-Experimente: Die Autoren trainierten eigene RMs von Grund auf auf verschiedenen Basis-Modellen (Llama 3.2 vs. Gemma 2) unter Verwendung identischer Hyperparameter und verschiedener Datensätze (Skywork, Unified Feedback) mit unterschiedlichen Größen (bis zu 106k Präferenzpaare), um die Persistenz der Bias zu testen.

3. Wichtige Beiträge

Neue Interpretierbarkeit: Entwicklung einer Methode zur Quantifizierung von Wertebias in RMs mittels psycholinguistischer Korpora und exhaustiver Token-Suche.
Systematische Bias-Nachweise: Nachweis, dass RMs in der Wildnis (z. B. auf RewardBench) systematische Wertunterschiede aufweisen, die direkt vom Basis-Modell abhängen.
Rückverfolgung zur Quelle: Identifikation, dass diese Bias bereits in den Log-Wahrscheinlichkeiten der pretrained und instruction-tuned Basis-Modelle vorhanden sind.
Implizite Reward Models: Formulierung des Unterschieds zwischen zwei LLMs als implizites Reward Model und Demonstration, dass dieses die gleichen Bias-Muster aufweist wie die expliziten RMs.
Reproduzierbarkeit und Persistenz: Experimenteller Nachweis, dass diese Bias auch bei kontrolliertem Training mit identischen Daten und verschiedenen Datenmengen bestehen bleiben.

4. Ergebnisse

A. Bias in existierenden RMs (Wild)

Llama-basierte RMs zeigen eine starke Präferenz für Agency-Wörter (z. B. „Freedom", „Success", „Ability").
Gemma-basierte RMs zeigen eine starke Präferenz für Communion-Wörter (z. B. „Love", „Family", „Harmony").
Dieser Effekt ist robust, unabhängig davon, ob die Prompts positiv („das Beste") oder negativ („das Schlimmste") formuliert sind, und bleibt auch bei unterschiedlichen Prompt-Variationen bestehen.
Die Analyse der Top-10-Tokens zeigt, dass Gemma-RMs im Durchschnitt 5 der Top-10-Tokens als Communion-Tokens bewerten, während Llama-RMs fast keine Communion-Tokens in den Top-10 haben, dafür aber Agency-Tokens.

B. Ursprung im Pretraining

Die gleiche Agency/Communion-Spaltung wurde in den instruction-tuned und sogar in den pretrained Versionen von Llama und Gemma gefunden.
Die impliziten Reward Scores (MWLR), berechnet aus dem Unterschied der Log-Wahrscheinlichkeiten zwischen Llama und Gemma, zeigen exakt das gleiche Muster: „Freedom" ist der optimalste Token für Llama, „Love" der pessimalste (und umgekehrt für Gemma).
Dieser Effekt skaliert mit der Modellgröße (von 1B bis 70B Parameter) und ist über verschiedene Minor-Releases hinweg konsistent.

C. Dynamik während des RM-Trainings

Initialisierung: Zu Beginn des Trainings (Checkpoint 1000) sind die Bias der Basis-Modelle am stärksten ausgeprägt.
Verlauf: Während des Trainings mit Präferenzdaten (z. B. Skywork oder Unified Feedback) nähern sich die Modelle an, aber der Gap schließt sich nicht vollständig.
Datenmenge: Selbst mit bis zu 106k Präferenzpaaren bleibt ein signifikanter Unterschied zwischen Llama- und Gemma-basierten RMs bestehen.
Qwen-Erweiterung: In explorativen Tests mit Qwen-basierten RMs zeigte sich eine noch stärkere Communion-Bias, die sich über den gesamten Trainingsverlauf nicht verringerte, sondern sogar leicht vergrößerte.
Generalizable Reward Models (GRM): Auch bei RMs, die Regularisierungstechniken verwenden, um die generativen Fähigkeiten zu erhalten, bleibt die Bias bestehen, selbst nach Training mit über 630k Präferenzpaaren.

5. Bedeutung und Schlussfolgerung

Das Paper liefert starke empirische Belege dafür, dass Reward Models keine neutralen Vermittler menschlicher Werte sind, sondern tiefgreifende Wertebias aus ihrer Pretraining-Phase erben.

Kritik am aktuellen Alignment-Paradigma: Die Ergebnisse zeigen, dass RLHF und nachfolgende Feinabstimmung allein nicht ausreichen, um fundamentale Wertebias zu korrigieren, die in den Basis-Modellen verankert sind. Die Menge der Präferenzdaten (oft um Größenordnungen kleiner als die Pretraining-Daten) reicht nicht aus, um diese tiefen Repräsentationen vollständig zu überschreiben.
Implikationen für die Entwicklung: Die Wahl des Basis-Modells (Base Model) durch Open-Source-Entwickler ist nicht nur eine Frage der Leistung (Performance), sondern eine entscheidende ethische und wertebasierte Entscheidung.
Zukünftige Arbeit: Es wird gefordert, dass Sicherheits- und Alignment-Maßnahmen bereits in der Pretraining-Phase beginnen müssen (z. B. durch Filterung der Trainingsdaten). Zudem müssen neue Strategien entwickelt werden, um inhärente Bias in RMs zu mitigieren, da diese sonst die nachfolgenden LLMs systematisch in eine bestimmte Wertedirection lenken.

Zusammenfassend unterstreicht die Arbeit, dass das „Rückgrat" (Backbone) eines Modells – also das Basis-Modell – dessen moralische Intuitionen und Werteprioritäten maßgeblich prägt und dass diese Prägung schwer zu überwinden ist.