DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un chef cuisinier très talentueux (c'est le modèle de langage, comme nous). Vous préparez un plat (une réponse à une question) et vous le proposez à un jury de dégustation (les humains qui évaluent).

Le problème, c'est que le jury n'est pas d'accord entre eux. Certains adorent le plat, d'autres le trouvent trop salé, et d'autres encore pensent qu'il manque d'épices.

Le problème actuel : La moyenne est trompeuse

Jusqu'à présent, la méthode standard pour choisir le meilleur plat était simple : prendre la moyenne des notes.

Si 50% des gens donnent 10/10 et 50% donnent 0/10, la moyenne est de 5/10.
Si tout le monde donne 5/10, la moyenne est aussi de 5/10.

Le problème ? Dans le premier cas, le plat est extrêmement risqué (c'est un "tout ou rien"). Si vous servez ce plat à un client qui déteste le sel, il va détester votre restaurant. La méthode actuelle ignore ce risque et se contente de la moyenne, ce qui peut mener à des réponses qui plaisent à personne ou qui fâchent une partie du public. C'est comme essayer de plaire à tout le monde en faisant un plat "moyen" qui ne plaît à personne, ou pire, un plat polarisant qui divise le public.

La solution : DARC (L'Art de la Prudence)

Les auteurs de cette paper proposent une nouvelle méthode appelée DARC. Au lieu de simplement chercher la note la plus élevée en moyenne, DARC demande : "Quel est le pire scénario possible pour ce plat, et sommes-nous prêts à le servir ?"

Voici comment cela fonctionne, avec des analogies simples :

1. Le Détecteur de "Tensions" (Le Risque de Désaccord)

Imaginez que vous avez un détecteur de fumée spécial. Ce détecteur ne mesure pas la chaleur (la note moyenne), mais il mesure l'agitation dans la salle.

Si les gens sont tous d'accord pour dire "C'est bon", le détecteur reste calme.
Si les gens se disputent ("C'est trop sucré !" vs "C'est parfait !"), le détecteur s'emballe.

DARC utilise ce détecteur pour repérer les réponses qui créent de la confusion ou de la colère.

2. Le "Parachute de Sécurité" (La Décodage Contraint)

DARC ne choisit pas simplement la réponse avec la meilleure note. Il applique une règle de prudence :

La règle : "Je vais choisir la réponse qui a une bonne note, MAIS seulement si elle ne provoque pas trop de disputes."
Si une réponse a une note moyenne de 8/10 mais que la moitié des gens la détestent (désaccord élevé), DARC la rejettera.
Il préférera une réponse avec une note moyenne de 7/10, mais où tout le monde est d'accord pour dire que c'est "correct et poli".

C'est comme choisir un itinéraire pour un voyage :

L'itinéraire A (méthode ancienne) est le plus court, mais traverse une zone de guerre (risque élevé de désaccord).
L'itinéraire B (méthode DARC) est un tout petit peu plus long, mais il est sûr, calme et tout le monde arrive à l'heure sans se battre.

3. Pourquoi c'est génial ? (L'Analogie du Capitaine de Navire)

Imaginez un capitaine de navire (l'IA) qui doit traverser une mer orageuse (les préférences humaines complexes).

Les anciennes méthodes regardaient seulement la vitesse moyenne du vent pour avancer vite, même si cela risquait de faire chavirer le bateau sur une vague imprévue.
DARC, c'est le capitaine prudent qui regarde aussi la météo. Il dit : "Même si je peux aller plus vite, je vais ralentir et prendre une route plus sûre pour éviter de heurter un iceberg (une réponse qui fâche tout le monde)."

En résumé

DARC est une nouvelle façon de choisir les réponses d'une intelligence artificielle qui dit :

"Ne cherche pas seulement à avoir la note la plus haute. Cherche la réponse qui est solide, sûre et qui ne va pas créer de disputes inutiles entre les gens."

C'est une méthode qui ne demande pas de réapprendre l'IA (pas de réentraînement coûteux), mais qui agit comme un filtre intelligent au moment où la réponse est générée. Elle permet d'avoir des réponses plus stables, plus polies et plus fiables, surtout sur des sujets sensibles où les humains ne sont pas d'accord entre eux.

Le résultat ? Moins de réponses "toxiques" ou polarisantes, et plus de réponses qui satisfont tout le monde de manière cohérente.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les méthodes d'alignement basées sur les préférences humaines (comme RLHF, DPO, ORPO) optimisent généralement un objectif scalaire unique, implicitement une moyenne des préférences humaines. Cette approche repose sur l'hypothèse que les préférences sont des observations bruitées d'une utilité latente unique.

Cependant, en pratique, les préférences humaines sont hétérogènes et systématiquement en désaccord (disagreement). Les annotateurs ne s'accordent pas pour des raisons structurelles, et non seulement à cause d'un bruit aléatoire.

Limites actuelles : Maximiser la récompense moyenne ( $\hat{\mu}$ ) devient fragile face à cette hétérogénéité. Cela peut mener à une sur-optimisation de proxies imparfaits (reward hacking) et à une dégradation de la qualité réelle, en particulier sur les prompts où le désaccord est élevé.
Le besoin : Il manque une règle de sélection de réponse à l'inférence (inference-time) qui soit explicitement contrainte par le risque et capable de gérer l'incertitude liée aux préférences multiples sans nécessiter de réentraînement du modèle.

2. Méthodologie : DARC

Les auteurs proposent DARC, une méthode d'alignement à l'inférence, sans réentraînement, qui reformule la sélection de réponse comme un problème de prise de décision robuste et sensible au risque.

A. Fondements Théoriques

DARC repose sur deux piliers théoriques liés :

Borne Inférieure de Confiance (LCB) : La sélection est vue comme la maximisation d'une borne inférieure de confiance sur la satisfaction attendue. Pour un candidat $y$ $y$ , au lieu de choisir celui qui a le meilleur score moyen $\hat{\mu}$ $\overset{μ}{^}$ , on pénalise les candidats avec une forte variance (désaccord) $\hat{\sigma}$ $\overset{σ}{^}$ .
- Formule simplifiée : $\text{Score} \approx \hat{\mu} - \lambda \hat{\sigma}$ .
Optimisation Robuste Distributionnelle (DRO) : La sélection est interprétée comme la maximisation du pire cas de satisfaction attendue dans un voisinage de divergence KL (Kullback-Leibler) autour de la distribution empirique des préférences.
- Cela conduit à une valeur entropique (KL-robuste) :
  $V_\beta(s, y) = -\frac{1}{\beta} \log \mathbb{E}[\exp(-\beta R(s, y))]$
- Cette valeur intègre naturellement une prime de risque (risk premium) : $RP_\beta = \mu - V_\beta$ .

B. Algorithmes de Décodage

DARC propose plusieurs règles de réordonnancement (reranking) des candidats générés :

Décodage Entropique (Principal) : Sélectionne le candidat maximisant la valeur entropique $V_\beta$ .
Décodage Contraint (Budget de risque) : Sélectionne le candidat maximisant $V_\beta$ sous la contrainte que la prime de risque $RP_\beta$ ne dépasse pas un seuil $\tau$ .
$y^* = \arg\max V_\beta(s, y) \quad \text{s.t.} \quad RP_\beta(s, y) \le \tau$
Décodage Pénalisé (Lagrangien) : Maximise $V_\beta - \lambda RP_\beta$ .
Règle de départage ( $\epsilon$ -tie breaking) : Parmi les candidats dont la valeur robuste est proche du maximum (dans un seuil $\epsilon$ ), on sélectionne celui qui a le plus faible désaccord (le plus petit $\hat{\sigma}$ ). Cela favorise les réponses consensuelles sans sacrifier excessivement la qualité moyenne.

C. Gestion des Proxies et Multi-Scorers

Puisque l'accès à des scores humains multiples en temps réel est coûteux, DARC utilise des proxies de désaccord :

Perturbations de style : On génère des variantes de la réponse (paraphrases, changements de format) et on mesure la variance des scores d'un modèle de récompense (Reward Model) sur ces variantes.
Robustesse aux Scorers : Pour contrer les biais d'un modèle de récompense unique, DARC agrège les scores de plusieurs modèles (ensembles) via un opérateur "soft worst-case" (minimax régularisé par KL), garantissant la robustesse même si un des modèles est défaillant.

3. Contributions Clés

Formulation du problème : L'alignement à l'inférence est formulé comme une prise de décision contrainte par le risque sous des préférences hétérogènes, où le risque est induit par l'incertitude des préférences et le désaccord des annotateurs.
Théorie unifiée : Lien établi entre les règles pessimistes basées sur les bornes de confiance (LCB) et l'optimisation robuste distributionnelle (DRO) via la divergence KL. Cela fournit une justification théorique solide pour les heuristiques de pénalisation de la variance.
Méthode sans réentraînement : DARC est une méthode plug-and-play qui s'adapte à n'importe quel générateur de langage (LM) et estimateur de préférences, ne modifiant que la phase de sélection des candidats.
Validation empirique : Démonstration que le contrôle du risque améliore la robustesse (tail risk) et réduit le désaccord, tout en maintenant une qualité moyenne compétitive.

4. Résultats Expérimentaux

Les expériences ont été menées sur des benchmarks standards (MT-Bench, AlpacaEval 2.0) avec des modèles de base (Llama-3.1-8B, Qwen2.5-7B/14B).

Performance Globale : Les variantes de DARC surpassent les méthodes de base (Best-of-K) et d'autres approches d'inférence (comme HedgeTune, Caution, MC-Dropout) sur le score de compromis Risque-Récompense (Tradeoff).
Réduction du Désaccord : DARC réduit significativement la variance des scores humains ( $\hat{\sigma}$ ), ce qui indique une plus grande stabilité des réponses face à l'hétérogénéité des préférences.
Robustesse aux queues de distribution (Tail Risk) : Sur les prompts à fort désaccord (top 20%), DARC améliore considérablement le CVaR (Conditional Value at Risk) de 10%, prouvant qu'il évite les réponses catastrophiques pour certains groupes d'utilisateurs.
Études de cas :
- Politique : DARC évite les réponses polarisantes et forceuses, préférant des explications institutionnelles neutres, réduisant ainsi la dispersion des scores.
- Mathématiques/Code : DARC sélectionne des réponses concises et factuelles plutôt que des réponses verbeuses ou hallucinées qui divisent les annotateurs.
Efficacité : L'ajout de l'estimation du désaccord (via perturbations) n'augmente la latence d'inférence que de ~1.5% à 3%, car la génération des candidats reste l'étape dominante.

5. Signification et Impact

Ce travail marque un changement de paradigme dans l'alignement des LLM :

Au-delà de la moyenne : Il démontre que maximiser la moyenne des récompenses est insuffisant et parfois dangereux dans un monde aux préférences plurielles.
Gestion du risque explicite : DARC introduit des "budgets de risque" contrôlables à l'inférence, permettant aux développeurs de choisir le niveau de conservatisme souhaité (plus sûr vs plus performant en moyenne).
Robustesse opérationnelle : En utilisant des proxies de désaccord scalables, DARC offre une solution pratique pour déployer des modèles plus robustes sans le coût prohibitif du réentraînement massif ou de l'annotation humaine massive en temps réel.

En résumé, DARC transforme le désaccord annotateur d'un problème de bruit à éliminer en un signal de risque à gérer, permettant une sélection de réponses plus sûre, plus consensuelle et plus fiable pour des utilisateurs divers.