Beyond Binary Preferences: A Principled Framework for Reward Modeling with Ordinal Feedback

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un chef cuisinier (l'intelligence artificielle) et que vous voulez apprendre à faire des plats que vos clients adorent. Pour cela, vous avez besoin de leurs retours.

Dans le passé, les clients ne pouvaient dire que deux choses : « C'est bon » ou « C'est mauvais ». C'est ce qu'on appelle une préférence binaire. Les chercheurs utilisaient une recette mathématique (le modèle Bradley-Terry) pour apprendre au chef à distinguer le bon du mauvais.

Mais dans la vraie vie, les clients sont plus nuancés. Ils ne disent pas juste « C'est bon ». Ils disent :

« C'est légèrement meilleur que l'autre. »
« C'est beaucoup mieux ! »
« C'est énormément meilleur, c'est un chef-d'œuvre ! »

C'est ce qu'on appelle une échelle ordonnée (comme une échelle de 1 à 5 étoiles, ou une échelle de Likert).

Le problème, c'est que les anciennes méthodes de l'IA étaient comme des chefs qui ignoraient ces nuances. Pour utiliser ces retours détaillés, ils ajoutaient des « bricolages » (des astuces arbitraires) à leur recette mathématique, comme dire : « Si le client dit "beaucoup mieux", on multiplie la note par 3 ». Mais personne ne savait vraiment pourquoi multiplier par 3 et pas par 2,5. C'était du « on fait comme ça parce que ça a l'air bien ».

La nouvelle approche : Une boussole mathématique

Cette nouvelle recherche propose une méthode beaucoup plus intelligente et logique, qu'ils appellent un cadre d'apprentissage ordinaire.

Voici l'analogie pour comprendre leur idée :

1. Le problème des « bricolages » (Les anciennes méthodes)

Imaginez que vous essayez de dessiner une ligne droite pour séparer les « bons » plats des « mauvais » sur un tableau.

L'ancienne méthode : Vous mettez des poids sur le tableau pour forcer la ligne à bouger. Si un client dit « beaucoup mieux », vous ajoutez un gros poids. Mais vous ne savez pas exactement où placer ce poids. Vous devez deviner et ajuster manuellement. Si vous changez les règles (par exemple, passer de 3 niveaux de préférence à 5), vous devez tout recalculer à la main. C'est fragile et imprécis.

2. La solution : Les « Portes » (La nouvelle méthode)

Les auteurs de ce papier disent : « Au lieu de pousser la ligne avec des poids, créons des portes (ou des seuils) dans le sol. »

Imaginez un couloir avec plusieurs portes ouvertes :

La porte 1 sépare « À peu près égal » de « Légèrement meilleur ».
La porte 2 sépare « Légèrement meilleur » de « Beaucoup mieux ».
La porte 3 sépare « Beaucoup mieux » de « Énormément meilleur ».

Au lieu de deviner où mettre ces portes, l'IA apprend où elles doivent être en regardant les données des clients.

Si beaucoup de clients disent « Légèrement meilleur » pour un plat qui a un score de 5, l'IA comprend : « Ah, la porte entre "égal" et "légèrement meilleur" doit être autour du score 5. »
Si un client dit « Énormément meilleur » pour un score de 9, l'IA déplace la dernière porte vers 9.

L'IA apprend toutes les portes en même temps qu'elle apprend à cuisiner. Elle ne devine plus rien ; elle observe la réalité et ajuste ses portes mathématiquement pour qu'elles correspondent parfaitement aux retours humains.

Pourquoi c'est génial ?

Pas de devinettes : Plus besoin de dire « Multiplions par 3 ». L'IA trouve elle-même la bonne distance entre « un peu mieux » et « beaucoup mieux ».
Moins d'erreurs graves : Avec les anciennes méthodes, l'IA pouvait se tromper lourdement. Par exemple, elle pouvait penser qu'un plat « médiocre » était « génial » avec une grande confiance. Avec la nouvelle méthode, si l'IA se trompe, c'est généralement une petite erreur (elle confond « un peu mieux » avec « beaucoup mieux »), mais elle ne se trompe jamais de façon catastrophique. C'est comme si un chef hésitait un peu avant de servir un plat douteux, au lieu de le servir avec assurance alors qu'il est brûlé.
Symétrie naturelle : Les auteurs ont découvert que les humains sont souvent symétriques dans leurs jugements. Si quelqu'un trouve qu'un plat est « 3 fois meilleur », il trouvera probablement l'autre plat « 3 fois pire ». Leur méthode apprend cette symétrie automatiquement, ce qui rend l'IA plus stable et plus rapide à entraîner.

En résumé

Cette recherche remplace les « astuces de cuisine » (les heuristiques) par une boussole mathématique rigoureuse.

Au lieu de forcer l'IA à comprendre les nuances humaines avec des règles arbitraires, ils lui donnent un outil (la régression ordinaire) qui lui permet de voir ces nuances comme une carte claire. Résultat : l'IA devient beaucoup plus fine, plus précise et fait moins d'erreurs stupides quand elle essaie de comprendre ce que les humains aiment vraiment.

C'est comme passer d'un chef qui devine les goûts de ses clients à un chef qui lit vraiment les cartes de satisfaction avec une loupe, ajustant chaque ingrédient avec une précision chirurgicale.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'alignement des modèles de langage (LLM) avec les préférences humaines repose actuellement sur des méthodes comme le RLHF (Reinforcement Learning from Human Feedback) et DPO (Direct Preference Optimization). Ces approches s'appuient fondamentalement sur le modèle de Bradley-Terry, qui traite les préférences comme binaires (une réponse est soit préférée, soit non préférée).

Cependant, les données de préférences réelles contiennent souvent des informations plus riches : les annotateurs humains utilisent fréquemment des échelles ordinales (type Likert) pour indiquer non seulement quelle réponse est meilleure, mais aussi de combien (ex: "légèrement mieux", "beaucoup mieux", "significativement mieux").
Les méthodes actuelles tentent d'exploiter ces données ordinales via des heuristiques ad hoc (ajout de marges fixes, pondération des pertes, étiquettes probabilistes douces). Ces approches présentent deux défauts majeurs :

Elles manquent de fondement mathématique sur la génération des préférences ordinales.
Elles nécessitent un réglage manuel de paramètres (marges, facteurs d'échelle) qui n'ont pas d'interprétation claire et doivent être réajustés pour chaque jeu de données.

2. Méthodologie

Les auteurs proposent de reformuler le problème de modélisation de la récompense (Reward Modeling) avec des feedbacks ordinaux comme un problème de régression ordinaire discrète (discrete ordinal regression), un cadre statistique bien établi.

A. Cadre Formel

Au lieu d'apprendre simplement un classifieur binaire, le modèle apprend une fonction de récompense $r_\phi(x, y)$ et un ensemble de seuils appris ( $\zeta$ ) qui partitionnent l'espace des différences de récompense en intervalles correspondant aux niveaux de préférence.
Pour une différence de récompense $s = r_\phi(x, y) - r_\phi(x, y')$ , le niveau de préférence ordinal $z \in \{-K, \dots, K\}$ est déterminé par la position de $s$ par rapport aux seuils $\zeta$ .

B. Fonctions de Perte Principales

L'article dérive deux fonctions de perte théoriquement fondées, évitant les heuristiques manuelles :

Approche Probabiliste (NLL - Negative Log-Likelihood) :
Basée sur le modèle logit ordonné (Ordered Logit). Elle modélise la probabilité conditionnelle $P(z|x)$ en utilisant une fonction de répartition cumulative (sigmoid). La perte pénalise le modèle pour avoir attribué une faible probabilité au niveau de préférence observé.
$L_{NLL} = -\log P(z | x)$
Approche par Marge (All-Threshold Loss - AT) :
Inspirée des méthodes à grande marge (comme le SVM). Elle pénalise directement les violations des seuils. Contrairement à la perte "Immediate-Threshold" (IT), la perte AT accumule les pénalités pour tous les seuils violés, rendant le modèle plus sensible aux erreurs de grande ampleur (mauvaise prédiction du degré de préférence).
$L_{AT} = \sum_{l} -\log \sigma(\nu(l; z) \cdot (\zeta_l - s))$

C. Régularisation et Symétrie

Régularisation : Les auteurs prouvent théoriquement (Théorème 3.1) que sans régularisation, le problème d'optimisation admet des solutions non bornées (les seuils et les récompenses peuvent diverger vers l'infini tout en réduisant la perte). Ils introduisent donc un terme de régularisation $L_2$ sur les seuils pour garantir l'existence d'une solution optimale finie.
Modèles Symétriques vs Asymétriques :
- Symétrique : Impose $\zeta_{-k} = -\zeta_k$ . Théoriquement justifié si les préférences humaines sont symétriques (Théorème 3.2). Réduit le nombre de paramètres et améliore la généralisation.
- Asymétrique : Apprend tous les seuils indépendamment pour capturer des biais cognitifs potentiels (ex: aversion aux pertes).

D. Extension à DPO

Le cadre est également étendu à l'optimisation directe des politiques (DPO) en remplaçant la fonction de récompense par une "pseudo-récompense" dérivée de la politique, permettant d'appliquer les mêmes pertes ordinales directement à l'entraînement de la politique.

3. Contributions Clés

Premier cadre mathématique principiel : C'est la première approche qui traite formellement la modélisation de récompense avec des échelles Likert comme un problème de régression ordinaire, remplaçant les heuristiques par des modèles probabilistes ou à marge dérivés de la théorie.
Apprentissage des paramètres : Contrairement aux méthodes existantes qui nécessitent de fixer manuellement les marges ou les poids, cette méthode apprend les seuils directement à partir des données.
Preuves théoriques : Démonstration de la nécessité de la régularisation pour éviter les solutions non bornées et preuve que la symétrie des seuils découle naturellement de la symétrie des préférences humaines.
Analyse de la calibration : Démonstration que les modèles ordinaux ne se contentent pas de mieux classer, mais produisent des récompenses mieux calibrées (moins d'erreurs de grande ampleur).

4. Résultats Expérimentaux

Les expériences ont été menées sur les jeux de données HelpSteer2 et HelpSteer3 (avec des annotations à 7 niveaux) et évaluées sur RewardBench et RM-Bench avec des modèles de base (Llama-3.1-8B, Mistral-7B, Zephyr-7B).

Performance Globale : La méthode NLL-Symétrique surpasse systématiquement les heuristiques de base (Margin BT, Scaled BT, Soft Label) sur la plupart des catégories (Chat, Raisonnement, Sécurité, Code). Les gains moyens se situent entre 2 % et 5 %.
Précision Ordinale : Le modèle atteint environ 55 % de précision exacte et 85 % de précision à un niveau ordinal près sur les données de validation, prouvant qu'il apprend la structure fine des préférences et pas seulement l'ordre binaire.
Réduction de la sévérité des erreurs : L'analyse des marges d'erreur montre une réduction de 87 % de la magnitude moyenne des erreurs par rapport au modèle Bradley-Terry standard. Le modèle ordinal commet moins d'erreurs et, lorsqu'il se trompe, c'est avec une faible confiance (marges faibles), ce qui est crucial pour la sécurité en RL.
Robustesse au bruit : Le modèle est très robuste aux erreurs systématiques de calibration (décalage de niveau), maintenant des performances stables même avec 100 % de bruit systématique. La dégradation est plus progressive avec un bruit aléatoire.
Entraînement conjoint vs Calibration a posteriori : L'entraînement conjoint des seuils et des paramètres de récompense est nettement supérieur à l'ajustement des seuils après l'entraînement d'un modèle binaire (réduction de 38 % de l'erreur absolue moyenne sur le test).

5. Signification et Impact

Ce travail marque un changement de paradigme dans l'alignement des LLM. Il démontre que forcer des données ordinales riches dans des modèles binaires via des "patchs" heuristiques est sous-optimal. En adoptant un cadre de régression ordinaire principiel :

On élimine le besoin de réglage manuel fastidieux des hyperparamètres.
On obtient des modèles de récompense mieux calibrés, réduisant le risque d'optimisation de politiques basées sur des récompenses erronées et confiantes.
On ouvre la voie à l'intégration de formes de feedback encore plus complexes (scores de confiance, évaluations multi-aspects) dans le futur.

En résumé, cette recherche fournit les fondations mathématiques nécessaires pour exploiter pleinement la richesse des feedbacks humains dans l'entraînement des modèles de langage, dépassant les limitations des approches binaires traditionnelles.