Diverging Preferences: When do Annotators Disagree and do Models Know?

Cette étude remet en question l'hypothèse selon laquelle les désaccords entre annotateurs sont de simples bruits, propose une taxonomie détaillée de leurs causes (comme le manque de spécification de la tâche ou le style de réponse) et démontre l'inefficacité des méthodes actuelles de modélisation de récompense et d'évaluation par LLM face à ces divergences, tout en proposant de nouvelles méthodes pour les identifier et les atténuer.

Michael JQ Zhang, Zhilin Wang, Jena D. Hwang, Yi Dong, Olivier Delalleau, Yejin Choi, Eunsol Choi, Xiang Ren, Valentina Pyatkin

Publié 2026-03-04
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🌍 Le Problème : Quand tout le monde n'est pas d'accord

Imaginez que vous commandez un plat dans un restaurant très populaire. Vous demandez à trois amis (les "annotateurs") quel plat est le meilleur.

  • L'un dit : "Le plat A est parfait !"
  • L'autre dit : "Non, le plat B est bien meilleur."
  • Le troisième dit : "En fait, je préfère le plat A, mais seulement si on enlève les oignons."

Dans le monde de l'Intelligence Artificielle (IA), on utilise souvent des humains pour dire à l'IA quelle réponse est la "meilleure". Jusqu'à présent, les chercheurs pensaient que quand les humains ne s'accordaient pas, c'était simplement parce qu'ils avaient fait une erreur ou qu'ils étaient confus (du "bruit"). Ils pensaient qu'il suffisait de prendre l'avis de la majorité pour avoir la vérité.

Ce papier dit : "Attendez une minute !"

Les auteurs ont découvert que la plupart du temps, les désaccords ne sont pas des erreurs. C'est juste que les gens ont des goûts différents.

  • Certains aiment les réponses longues et détaillées (comme un roman).
  • D'autres préfèrent les réponses courtes et directes (comme un tweet).
  • Certains trouvent qu'une réponse est "sûre" et polie, tandis que d'autres la trouvent trop timide.

C'est comme si l'IA essayait de plaire à tout le monde en choisissant un seul style de réponse, alors que les humains sont tous différents.

🛠️ La Solution : Une nouvelle façon d'enseigner à l'IA

L'IA actuelle (les modèles de "récompense") fonctionne comme un professeur qui donne une seule note sur 10 à chaque réponse. Si les humains ne sont pas d'accord, le professeur force une décision : "La réponse A gagne, point final."

Les auteurs proposent une nouvelle méthode : la récompense en "nuage de points" (distributionnelle).

Au lieu de donner une seule note, imaginez que le professeur dessine un nuage de points autour de la réponse :

  • Si tout le monde est d'accord, le nuage est petit et serré (tout le monde pense que c'est génial).
  • Si les gens sont divisés, le nuage est grand et étalé (certains adorent, d'autres détestent).

En apprenant à voir ce "nuage", l'IA comprend : "Ah, cette réponse plaît à un certain type de personne, mais pas à un autre." Elle apprend ainsi à ne pas être aveugle aux différences d'opinion.

⚖️ Le Piège des "Juges IA"

Le papier pointe aussi un problème avec les méthodes actuelles pour évaluer les IA (appelées "LLM-as-Judge", où une IA juge une autre IA).

Ces juges IA ont tendance à être très sévères avec les réponses qui font des choix de sécurité ou qui demandent des précisions.

  • Exemple : Si un utilisateur demande quelque chose de dangereux, une IA prudente dira : "Je ne peux pas faire ça."
  • Le problème : Le juge IA, qui cherche souvent à être "utile" et "direct", va dire : "Non, cette réponse est mauvaise, elle refuse de répondre !" et pénalisera l'IA prudente.

C'est comme si un juge de cuisine disait à un chef : "Tu as refusé de servir du poison, donc tu as perdu le concours !" alors que le but était d'être sûr et responsable.

🚀 Ce que les auteurs proposent

  1. Arrêter de traiter les désaccords comme des erreurs : Reconnaître que les humains ont des préférences légitimes et différentes.
  2. Utiliser des modèles de "nuage de points" : Entraîner les IA à comprendre la diversité des goûts humains, pas juste la moyenne.
  3. Nettoyer les bancs d'essai : Quand on teste les IA, il faut retirer les questions où les humains ne sont pas d'accord. Sinon, on punit injustement les IA qui essaient d'être polies, sûres ou qui demandent des clarifications.

En résumé

Ce papier nous dit que pour créer une IA vraiment intelligente et utile pour tout le monde, il faut arrêter de forcer tout le monde à penser pareil. Il faut apprendre à l'IA à dire : "Je vois que vous aimez les réponses courtes, mais que vous, vous préférez les longues. Je vais essayer de m'adapter à vous, plutôt que de choisir une seule réponse pour tout le monde."

C'est un pas vers une IA qui respecte la diversité des opinions humaines, au lieu de simplement suivre la voix de la majorité.