Reward Models Inherit Value Biases from Pretraining

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous voulez construire un robot très intelligent capable de discuter avec les humains et de faire des choix moraux. Pour que ce robot soit "gentil" et utile, vous devez lui apprendre ce que les humains préfèrent.

Dans le monde de l'intelligence artificielle, on utilise souvent un modèle de récompense (Reward Model). C'est un peu comme un juge ou un professeur qui note les réponses du robot. Si le robot dit quelque chose de bien, le juge donne un point. S'il dit quelque chose de mal, il enlève un point.

Le problème découvert par cette recherche est le suivant : ce "juge" n'est pas une page blanche.

L'Analogie du Juge Héritier

Imaginez que vous engagez un juge pour noter des essais d'élèves. Mais avant de commencer son travail, vous lui donnez un livre de contes de fées à lire pendant des années (c'est ce qu'on appelle le "pré-entraînement").

Si vous lui donnez un livre rempli d'histoires de chevaliers, de conquêtes et de liberté, il va devenir un juge qui adore l'action, l'individualité et la force (ce qu'on appelle l'"Agence").
Si vous lui donnez un livre rempli d'histoires de famille, d'amour et de communauté, il va devenir un juge qui préfère l'harmonie, l'empathie et le lien social (ce qu'on appelle la "Communion").

La découverte choquante de ce papier est que même si vous donnez exactement les mêmes notes au juge pour les mêmes réponses, son style de notation reste influencé par le livre qu'il a lu au début.

Ce que les chercheurs ont trouvé

Les auteurs ont étudié deux familles de modèles d'intelligence artificielle très populaires : Llama (développé par Meta) et Gemma (développé par Google).

Llama est le "Chevalier" : Les modèles basés sur Llama ont tendance à préférer les mots liés à la liberté, au succès, à la capacité et à l'individu. Pour eux, la "meilleure chose au monde" est souvent la Liberté.
Gemma est le "Communitaire" : Les modèles basés sur Gemma préfèrent les mots liés à l'amour, à la famille, aux amis et à la connexion. Pour eux, la "meilleure chose au monde" est souvent l'Amour.

Ce qui est fascinant, c'est que ces différences ne viennent pas des données d'entraînement spécifiques utilisées pour les entraîner à être de bons juges. Elles viennent de la "mémoire" du modèle de base, celle acquise lors de sa phase de lecture massive sur internet avant même d'être un juge.

Le Problème du "Nettoyage"

Les chercheurs se sont demandé : "Si on entraîne ces juges avec beaucoup, beaucoup de données, peut-on effacer cette préférence initiale ?"

C'est comme essayer de laver une tache de vin rouge sur un tissu blanc avec de l'eau.

Résultat : Avec un peu d'eau (un peu de données), la tache s'estompe un peu.
Mais : Même avec beaucoup d'eau (des centaines de milliers de données), la tache ne disparaît jamais complètement. Le tissu garde toujours une légère teinte de l'original.

Même après un entraînement intensif, le juge "Llama" continuera à donner un petit avantage à la liberté, et le juge "Gemma" à l'amour.

Pourquoi est-ce important ?

Jusqu'à présent, les développeurs pensaient que le choix du modèle de base (Llama vs Gemma) n'était qu'une question de performance (qui est le plus rapide ? qui est le plus intelligent ?).

Ce papier nous dit : Non, c'est aussi une question de valeurs.

Choisir un modèle de base, c'est comme choisir les valeurs morales de votre juge. Si vous voulez un robot qui valorise l'individualisme, choisissez Llama. Si vous voulez un robot qui valorise la communauté, choisissez Gemma. Et attention : même si vous essayez de corriger ces biais plus tard, il est très difficile de les effacer complètement.

En résumé

Ce papier nous apprend que l'intelligence artificielle n'est pas neutre. Ses "juges" héritent des valeurs de leur enfance (leur pré-entraînement). Pour créer une IA vraiment alignée avec nos valeurs humaines, nous ne pouvons pas nous contenter de la corriger à la fin ; nous devons faire attention à ce qu'elle lit dès le début.

C'est un rappel puissant : l'âme d'un robot se forge avant même qu'il ne commence à apprendre à parler.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de récompense (Reward Models ou RMs) sont des composants essentiels de l'alignement des grands modèles de langage (LLM) avec les valeurs humaines, notamment via des techniques comme l'apprentissage par renforcement à partir de feedback humain (RLHF). Cependant, la recherche s'est principalement concentrée sur les LLM pré-entraînés ou post-entraînés, négligeant souvent les RMs eux-mêmes.

Le problème central identifié par les auteurs est le suivant : les RMs héritent-ils des biais de valeurs de leurs modèles de base (base models) ?
Les RMs sont généralement initialisés à partir de LLM pré-entraînés ou instruction-tuned, puis affinés (fine-tuned) sur des données de préférence humaine. Les auteurs postulent que les représentations apprises lors de la phase de pré-entraînement, qui façonnent le comportement du modèle, sont transférées au RM et influencent ses préférences, même après un affinage intensif sur des données de préférence. Cette "mémoire" du pré-entraînement pourrait compromettre l'alignement réel avec les valeurs humaines, car le RM ne serait pas une "table rase" mais porterait les biais intrinsèques de son architecture de base.

2. Méthodologie

L'étude combine des techniques d'interprétabilité de modèles et des outils de psycholinguistique pour quantifier et tracer l'origine de ces biais.

Recherche Exhaustive de Tokens (Exhaustive Token Search) :
Au lieu de générer des réponses aléatoires, les auteurs évaluent chaque token du vocabulaire d'un RM face à des prompts chargés de valeurs (ex: "Quelle est la meilleure chose au monde ?"). Cela permet d'identifier les tokens les mieux notés (optimaux) et les moins bien notés (pessimaux) pour chaque modèle.
Corpus Psycholinguistiques Validés :
Pour quantifier les biais, les auteurs utilisent deux corpus :
1. Le "Big Two" : Une dichotomie psychologique mesurant l'Agence (autonomie, réussite, liberté, compétences) et la Communion (relations, amour, famille, solidarité).
2. Le Moral Foundations Dictionary 2 (MFD2) : Mesurant cinq fondements moraux (Autorité, Soins, Équité, Loyauté, Pureté).
Analyse des Probabilités Logarithmiques (Log-Probabilities) :
Les auteurs comparent directement les log-probabilités des modèles instruction-tuned et pré-entraînés (Gemma et Llama) pour voir si les biais existent avant même l'entraînement du RM.
Modèles de Récompense Implicites (Implicit Reward Models) :
En s'appuyant sur la théorie du RLHF, ils définissent un modèle de récompense implicite comme la différence de log-probabilités entre deux modèles ( $\log \pi_2 - \log \pi_1$ ). Ils introduisent une métrique pondérée appelée MWLR (Mixture-Weighted Log-Ratio) pour éviter les artefacts liés aux tokens à très faible probabilité, permettant de cartographier les différences de valeurs entre les familles de modèles.
Expériences d'Abattage (Ablation Studies) :
Les auteurs entraînent leurs propres RMs à partir de bases Llama et Gemma en utilisant :
- Des sources de données de préférence différentes (Skywork, Unified Feedback).
- Des quantités de données variables (de 13k à 106k paires).
- Des hyperparamètres identiques.
  Cela permet d'isoler l'effet du modèle de base par rapport à l'effet des données d'entraînement.

3. Contributions Clés

Nouvelle méthode d'interprétabilité : Développement d'une approche combinant la recherche exhaustive de tokens et la psycholinguistique pour révéler les biais de valeurs des RMs.
Preuve de l'héritage des biais : Démonstration que les RMs "sauvages" (open-source) présentent des différences systématiques de valeurs (Agence vs Communion) selon qu'ils sont basés sur Llama ou Gemma.
Traçage de l'origine : Identification que ces biais proviennent directement des log-probabilités des modèles pré-entraînés et instruction-tuned, et non uniquement de l'entraînement sur les préférences.
Modélisation implicite : Formulation des différences de log-probabilités comme des modèles de récompense implicites fonctionnels, confirmant que les écarts de valeurs sont intrinsèques aux modèles de base.
Robustesse et durabilité : Preuve expérimentale que ces biais sont reproductibles et résistent partiellement à l'entraînement sur de grandes quantités de données de préférence.

4. Résultats Principaux

Biais Systématiques (Llama vs Gemma) :
- Les RMs basés sur Llama montrent une préférence robuste pour les concepts liés à l'Agence (ex: "Freedom", "Success", "Opportunity").
- Les RMs basés sur Gemma montrent une préférence robuste pour les concepts liés à la Communion (ex: "Love", "Family", "Harmony").
- Ce phénomène est observé même lorsque les données de préférence et le processus d'entraînement sont strictement identiques.
Origine Pré-entraînement :
L'analyse des log-probabilités des modèles de base (avant tout fine-tuning de RM) révèle le même schéma : Llama favorise l'Agence et Gemma la Communion. Cela confirme que le biais est ancré dans la phase de pré-entraînement.
Modèles Implicites :
En utilisant la métrique MWLR pour comparer Llama et Gemma, le token "optimal" (le plus préféré par Llama par rapport à Gemma) est "Freedom", tandis que le token "pessimal" (le moins préféré) est "Love". Cet écart s'aggrave avec la taille du modèle (de 1B à 70B).
Dynamique de l'entraînement (Ablations) :
- Lors de l'entraînement de RMs sur des données de préférence, l'écart entre Llama et Gemma diminue légèrement au début mais ne disparaît jamais complètement.
- Même avec des quantités massives de données (jusqu'à 106k paires), une différence significative persiste.
- Des expériences préliminaires avec des modèles Qwen montrent un biais de Communion encore plus fort, qui ne se résout pas non plus avec l'entraînement, suggérant que ce phénomène est généralisable à d'autres familles de modèles.
Impact sur le comportement :
Les tokens les mieux notés par les RMs (qui guideront le comportement du LLM final) reflètent ces biais. Par exemple, un LLM optimisé par un RM basé sur Gemma sera plus enclin à générer des réponses axées sur la communauté, tandis qu'un LLM basé sur Llama privilégiera l'autonomie.

5. Signification et Implications

L'alignement ne commence pas au RLHF : Ce travail démontre que l'alignement des valeurs ne peut pas être entièrement résolu lors de la phase de post-entraînement (RLHF). Les choix effectués lors du pré-entraînement (filtrage des données, architecture, modèle de base) façonnent les "intuitions morales" du modèle de manière durable.
Choix du Modèle de Base comme Choix de Valeurs : Pour les développeurs open-source, le choix du modèle de base (Llama, Gemma, Qwen, etc.) n'est pas seulement une question de performance technique, mais un choix de valeurs. Un développeur souhaitant un système axé sur la communauté ne devrait pas utiliser un modèle de base Llama sans s'attendre à des biais résiduels.
Limites du Fine-tuning : Il existe une limite à la capacité des données de préférence à "laver" (wash out) les biais profonds du pré-entraînement. Des stratégies de mitigation plus ciblées (filtrage des données de pré-entraînement, rééquilibrage, augmentation de données) sont nécessaires.
Sécurité et Alignement : La sécurité des systèmes d'IA doit commencer dès la phase de pré-entraînement. Ignorer ces biais hérités risque de créer des systèmes qui, bien que conformes aux instructions de sécurité, promeuvent involontairement des valeurs spécifiques (ex: individualisme vs collectivisme) non désirées par les utilisateurs finaux.

En conclusion, l'article établit que les modèles de récompense ne sont pas des entités neutres, mais qu'ils portent l'empreinte morale de leurs fondations pré-entraînées, rendant crucial le contrôle des valeurs dès les premières étapes du cycle de vie du modèle.

Reward Models Inherit Value Biases from Pretraining

L'Analogie du Juge Héritier

Ce que les chercheurs ont trouvé

Le Problème du "Nettoyage"

Pourquoi est-ce important ?

En résumé

1. Problématique

2. Méthodologie

3. Contributions Clés

4. Résultats Principaux

5. Signification et Implications

Articles similaires

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá

Enabling Intrinsic Reasoning over Dense Geospatial Embeddings with DFR-Gemma