Diverging Preferences: When do Annotators Disagree and do Models Know?

Each language version is independently generated for its own context, not a direct translation.

🌍 Le Problème : Quand tout le monde n'est pas d'accord

Imaginez que vous commandez un plat dans un restaurant très populaire. Vous demandez à trois amis (les "annotateurs") quel plat est le meilleur.

L'un dit : "Le plat A est parfait !"
L'autre dit : "Non, le plat B est bien meilleur."
Le troisième dit : "En fait, je préfère le plat A, mais seulement si on enlève les oignons."

Dans le monde de l'Intelligence Artificielle (IA), on utilise souvent des humains pour dire à l'IA quelle réponse est la "meilleure". Jusqu'à présent, les chercheurs pensaient que quand les humains ne s'accordaient pas, c'était simplement parce qu'ils avaient fait une erreur ou qu'ils étaient confus (du "bruit"). Ils pensaient qu'il suffisait de prendre l'avis de la majorité pour avoir la vérité.

Ce papier dit : "Attendez une minute !"

Les auteurs ont découvert que la plupart du temps, les désaccords ne sont pas des erreurs. C'est juste que les gens ont des goûts différents.

Certains aiment les réponses longues et détaillées (comme un roman).
D'autres préfèrent les réponses courtes et directes (comme un tweet).
Certains trouvent qu'une réponse est "sûre" et polie, tandis que d'autres la trouvent trop timide.

C'est comme si l'IA essayait de plaire à tout le monde en choisissant un seul style de réponse, alors que les humains sont tous différents.

🛠️ La Solution : Une nouvelle façon d'enseigner à l'IA

L'IA actuelle (les modèles de "récompense") fonctionne comme un professeur qui donne une seule note sur 10 à chaque réponse. Si les humains ne sont pas d'accord, le professeur force une décision : "La réponse A gagne, point final."

Les auteurs proposent une nouvelle méthode : la récompense en "nuage de points" (distributionnelle).

Au lieu de donner une seule note, imaginez que le professeur dessine un nuage de points autour de la réponse :

Si tout le monde est d'accord, le nuage est petit et serré (tout le monde pense que c'est génial).
Si les gens sont divisés, le nuage est grand et étalé (certains adorent, d'autres détestent).

En apprenant à voir ce "nuage", l'IA comprend : "Ah, cette réponse plaît à un certain type de personne, mais pas à un autre." Elle apprend ainsi à ne pas être aveugle aux différences d'opinion.

⚖️ Le Piège des "Juges IA"

Le papier pointe aussi un problème avec les méthodes actuelles pour évaluer les IA (appelées "LLM-as-Judge", où une IA juge une autre IA).

Ces juges IA ont tendance à être très sévères avec les réponses qui font des choix de sécurité ou qui demandent des précisions.

Exemple : Si un utilisateur demande quelque chose de dangereux, une IA prudente dira : "Je ne peux pas faire ça."
Le problème : Le juge IA, qui cherche souvent à être "utile" et "direct", va dire : "Non, cette réponse est mauvaise, elle refuse de répondre !" et pénalisera l'IA prudente.

C'est comme si un juge de cuisine disait à un chef : "Tu as refusé de servir du poison, donc tu as perdu le concours !" alors que le but était d'être sûr et responsable.

🚀 Ce que les auteurs proposent

Arrêter de traiter les désaccords comme des erreurs : Reconnaître que les humains ont des préférences légitimes et différentes.
Utiliser des modèles de "nuage de points" : Entraîner les IA à comprendre la diversité des goûts humains, pas juste la moyenne.
Nettoyer les bancs d'essai : Quand on teste les IA, il faut retirer les questions où les humains ne sont pas d'accord. Sinon, on punit injustement les IA qui essaient d'être polies, sûres ou qui demandent des clarifications.

En résumé

Ce papier nous dit que pour créer une IA vraiment intelligente et utile pour tout le monde, il faut arrêter de forcer tout le monde à penser pareil. Il faut apprendre à l'IA à dire : "Je vois que vous aimez les réponses courtes, mais que vous, vous préférez les longues. Je vais essayer de m'adapter à vous, plutôt que de choisir une seule réponse pour tout le monde."

C'est un pas vers une IA qui respecte la diversité des opinions humaines, au lieu de simplement suivre la voix de la majorité.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'alignement des grands modèles de langage (LLM) repose souvent sur l'apprentissage par renforcement à partir de retours humains (RLHF), qui utilise des jeux de données de préférences annotées par des humains. Une hypothèse fondamentale sous-jacente aux méthodes actuelles de modélisation de la récompense (Reward Modeling) est que les désaccords entre annotateurs sont principalement dus à du bruit (erreurs d'annotation) et doivent être éliminés pour obtenir un signal de récompense unique et décisif.

Cependant, les auteurs soulignent que cette approche néglige la réalité des préférences divergentes, où les utilisateurs ont des opinions légitimes et opposées sur la qualité d'une réponse. Les modèles actuels, en traitant ces désaccords comme du bruit, risquent d'apprendre à satisfaire une seule perspective majoritaire, compromettant ainsi l'alignement pluriel (la capacité du modèle à servir équitablement des utilisateurs aux préférences variées). De plus, les méthodes d'évaluation actuelles (LLM-as-Judge) pourraient pénaliser injustement les modèles qui adoptent des politiques cohérentes (comme le refus ou la demande de clarification) dans des situations ambiguës.

2. Méthodologie

A. Analyse des Données et Taxonomie

Les auteurs ont analysé deux jeux de données de préférences humaines existants, en accédant aux annotations individuelles (et non agrégées) :

MultiPref : 10 000 paires de préférences, annotées par 4 annotateurs chacune.
HelpSteer2 : 12 000 paires de préférences, annotées par 3 à 5 annotateurs.

Ils ont identifié que plus de 30% des exemples dans ces ensembles de données présentaent des préférences divergentes. À partir d'une analyse manuelle, ils ont développé une taxonomie des causes de désaccord regroupée en quatre classes principales :

Spécification de la tâche (Task Underspecification) : L'instruction est ambiguë, permettant des interprétations valides mais différentes.
Style de réponse :
- Verbosité : Préférence pour des réponses détaillées vs concises.
- Format : Préférence pour les listes, les titres ou les paragraphes.
- Complexité : Niveau d'expertise technique requis.
- Goût esthétique : Préférences subjectives (ex: style d'écriture créative).
Refus (Refusals) : Désaccords sur la sécurité (safety) ou les capacités du modèle, y compris les variations entre refus "durs" et "mous".
Erreurs : Hallucinations ou sorties dégénérées (bien que cela représente une minorité des désaccords).

B. Modélisation de la Récompense Distribuée

Pour répondre à l'incapacité des modèles standards à gérer ces divergences, les auteurs proposent une nouvelle approche de modélisation de la récompense :

Modèles de Récompense Distribuée (Distributional Reward Models) : Au lieu de prédire une valeur scalaire unique $r$ $r$ , le modèle prédit une distribution (généralement une loi normale $N(\mu, \sigma^2)$ $N (μ, σ^{2})$ ) pour chaque réponse.
- $\mu$ (Moyenne) : Représente la préférence moyenne des annotateurs.
- $\sigma^2$ (Variance) : Représente le degré de divergence ou de controverse autour de cette réponse.
Entraînement : Ils utilisent une perte de Divergence de Kullback-Leibler (KL) pour entraîner ces modèles sur toutes les annotations individuelles, permettant au modèle d'apprendre non seulement quelle réponse est préférée, mais aussi à quel point les annotateurs sont divisés.
Méthodes de comparaison : Ils comparent leurs modèles (Mean-Var KL, Classification KL) avec les méthodes standards : Bradley-Terry (vote majoritaire) et Régression MSE (sur les scores Likert).

C. Évaluation et Détection de Biais

LLM-as-Judge : Ils évaluent comment les juges LLM (comme Chatbot Arena) se comportent face aux désaccords. Ils constatent que ces juges tendent à désigner un "gagnant" même lorsque les annotateurs humains sont en désaccord, favorisant souvent les réponses conformistes ou celles qui évitent le refus.
Détection de cas divisifs : Ils proposent d'utiliser leurs modèles de récompense distribuée pour identifier et filtrer les exemples "divisifs" (où la variance est élevée) dans les benchmarks d'évaluation, afin de ne pas pénaliser les modèles pluriels.

3. Résultats Clés

Nature des désaccords : Plus de 75% des désaccords ne sont pas dus à des erreurs, mais à des préférences individuelles (style, complexité, goût). Traiter cela comme du bruit est une erreur fondamentale.
Échec des modèles standards : Les modèles de récompense standards (Bradley-Terry, MSE) échouent à distinguer les préférences à fort accord des préférences divergentes. Ils attribuent des récompenses décisives (un grand écart entre la réponse choisie et rejetée) même lorsque les annotateurs sont divisés. Cela conduit à un alignement non pluriel.
Performance des modèles distribués :
- Les modèles distribués (Mean-Var KL) surpassent les modèles standards sur la métrique Diverging ID AUROC (capacité à identifier les cas de désaccord).
- Ils obtiennent une amélioration de 0,16 en AUROC par rapport aux modèles standards, tout en maintenant une précision de préférence (Preference Accuracy) comparable.
- Ils apprennent correctement à prédire une forte variance pour les réponses controversées (ex: refus de sécurité) et une faible variance pour les réponses unanimement préférées.
Biais des LLM-as-Judge : Les juges LLM pénalisent systématiquement les stratégies de réponse légitimes mais minoritaires. Par exemple, dans les cas de "Refus vs Conformité", le juge LLM favorise presque toujours la conformité (100% dans leur échantillon), et dans les cas d'ambiguïté, il favorise les réponses directes (Overton) plutôt que les demandes de clarification, même si les deux sont valides.

4. Contributions Principales

Analyse empirique et Taxonomie : Première étude détaillée sur les causes de désaccord dans les données de préférences réelles, démontrant que la majorité des désaccords sont des préférences plurielles et non du bruit.
Nouvelle Architecture de Modélisation : Introduction de modèles de récompense distribués capables de quantifier l'incertitude et la divergence des préférences, offrant une alternative supérieure aux méthodes scalaires classiques.
Critique des Benchmarks d'Évaluation : Démonstration que les méthodes actuelles d'évaluation (LLM-as-Judge) introduisent des biais systémiques contre les modèles alignés de manière plurielle.
Solution Pratique : Proposition d'une méthode pour identifier et nettoyer les exemples "divisifs" des benchmarks d'évaluation, permettant une évaluation plus juste des capacités générales des modèles sans biais de style ou de politique de refus.

5. Signification et Impact

Ce travail remet en question le paradigme dominant du RLHF qui cherche à optimiser une seule fonction de récompense unique. Il démontre que pour développer des LLM véritablement alignés avec une diversité d'utilisateurs (alignement pluriel), il est crucial de modéliser explicitement la variance des préférences plutôt que de la supprimer.

Les implications sont majeures pour :

L'entraînement : Permettre aux modèles d'apprendre à reconnaître quand une question est ambiguë ou sujette à débat, et d'adapter leur réponse (ex: proposer plusieurs options ou demander des clarifications) plutôt que de deviner une seule réponse "optimale".
L'évaluation : Fournir des outils pour déboguer les benchmarks d'évaluation, évitant de pénaliser les modèles qui respectent des protocoles de sécurité stricts ou qui gèrent l'ambiguïté avec prudence.
La sécurité et l'éthique : Reconnaître que la sécurité et l'acceptabilité sociale sont souvent subjectives et dépendent du contexte culturel ou individuel, nécessitant une approche nuancée plutôt que binaire.

En résumé, l'article plaide pour une transition vers des systèmes capables de comprendre et de gérer la diversité des opinions humaines comme une caractéristique intrinsèque, et non comme un défaut à corriger.