Diverging Preferences: When do Annotators Disagree and do Models Know?

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que este paper es como una investigación sobre por qué a veces nos peleamos por qué película es mejor y cómo los "jueces" de inteligencia artificial (IA) a veces toman decisiones injustas en esas peleas.

Aquí tienes la explicación, traducida a un lenguaje sencillo y con algunas analogías divertidas:

🎬 La Gran Pelea: ¿Quién tiene la razón?

Imagina que pides a dos amigos que escriban una historia sobre un dragón.

Amigo A escribe una historia corta, directa y con mucha acción.
Amigo B escribe una historia larga, poética y llena de descripciones.

Si les preguntas a 10 personas cuál les gusta más, nadie se pondrá de acuerdo. A unos les encantará la acción (Amigo A), a otros la poesía (Amigo B).

El problema: En el mundo de la Inteligencia Artificial, cuando entrenamos a una IA para que sea "buena", le mostramos estas historias y le decimos: "Elige la mejor". Pero, ¿qué pasa si los humanos no se ponen de acuerdo?

Los investigadores de este paper descubrieron algo muy importante: La mayoría de las veces, la gente no está "equivocada" al elegir una historia sobre la otra. Simplemente tienen gustos diferentes.

A veces es porque la pregunta era confusa (como pedir "dame un pastel" sin decir si es de chocolate o de fresa).
A veces es porque a uno le gusta que le hablen mucho y a otro le gusta que sea breve.
A veces es simplemente un tema de "estilo" o "buen gusto".

🤖 El Juez Ciego: La IA que no entiende la diversidad

Aquí es donde entra el problema. Las IAs actuales (como los modelos que usan para evaluar respuestas) funcionan como un juez de concurso de belleza muy estricto.

El Juez Ciego: Cuando la IA ve una pelea entre dos respuestas (como la del dragón), intenta forzar una decisión. Dice: "¡Ganó el Amigo A! ¡El Amigo B perdió!".
El Error: La IA asume que si hay desacuerdo, es porque hay "ruido" o error. Pero en realidad, el desacuerdo es legítimo. Hay personas que prefieren la acción y otras la poesía. Ambas son válidas.
La Consecuencia: Al entrenar a la IA con estas reglas, la IA aprende a ser aburrida y unilateral. Aprende a decir siempre lo que le gusta a la mayoría (o a la mayoría de los jueces), ignorando a las personas que tienen gustos diferentes. Se convierte en un robot que no entiende que el mundo es diverso.

🛠️ La Solución: Un Juez con "Gafas de Realidad Aumentada"

Los autores proponen dos cosas geniales para arreglar esto:

1. El "Termómetro de Disenso" (Modelos de Recompensa Distribuidos)

En lugar de que la IA diga "Esta respuesta vale 8 puntos y la otra 2", les proponen que la IA diga:

"Esta respuesta vale 8 puntos PARA los amantes de la acción, pero solo 2 puntos PARA los amantes de la poesía. ¡Y hay mucha variación en lo que la gente piensa!"

Imagina que en lugar de un solo número, la IA tiene un termómetro que mide no solo la temperatura, sino también cuánto varía la temperatura en diferentes lugares.

Si la gente está de acuerdo (todos dicen "está caliente"), el termómetro es estable.
Si la gente está dividida (unos dicen "caliente", otros "frío"), el termómetro muestra una gran variación.

Esto permite que la IA sepa: "Oye, aquí hay un tema polémico. No debo elegir un solo ganador, debo entender que hay diferentes opiniones válidas".

2. Limpiar la Arena de los Jueces (Eliminar los casos polémicos)

Los investigadores también miraron cómo se evalúan las IAs hoy en día (usando otras IAs como jueces). Descubrieron que estos "jueces automáticos" son muy injustos.

Si un modelo humano dice "No puedo responder eso, es peligroso" (por seguridad), el juez automático lo castiga y le da una mala nota.
Si un modelo humano dice "¿Podrías aclararme tu pregunta?" (porque la pregunta era confusa), el juez automático también lo castiga.

La analogía: Es como si en un concurso de cocina, el juez le diera una nota baja al chef que se negó a cocinar veneno, o al chef que pidió al cliente si quería sal o azúcar. ¡Eso no es justo!

Su solución: Usar sus nuevos "termómetros" para filtrar las preguntas que generan estas peleas. Si una pregunta hace que la gente se divida mucho, ¡que no la usen para calificar a la IA! Así, las evaluaciones solo se hacen en preguntas donde todos están de acuerdo en qué es una buena respuesta.

🌟 En Resumen

Este paper nos dice:

Dejen de tratar el desacuerdo como un error. La gente tiene gustos diferentes y eso es normal.
Las IAs actuales son demasiado "dictadoras". Eligen un solo estilo y olvidan a los demás.
Necesitamos IAs más inteligentes que entiendan que a veces no hay una única respuesta correcta, sino muchas respuestas correctas para diferentes personas.
Las pruebas actuales de IA están sesgadas. Castigan a las IAs que son prudentes o que piden aclaraciones. Hay que limpiar esas pruebas para que sean justas.

Básicamente, es un llamado a hacer que la Inteligencia Artificial sea más humana, entendiendo que la diversidad de opiniones es una característica, no un defecto. 🌈🤖

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "Diverging Preferences: When do Annotators Disagree and do Models Know?" (Preferencias divergentes: ¿Cuándo discrepan los anotadores y lo saben los modelos?), presentado en el ICML 2025.

1. El Problema

El aprendizaje de refuerzo a partir de retroalimentación humana (RLHF) es el estándar para alinear los Modelos de Lenguaje Grande (LLM) con las preferencias humanas. Sin embargo, existe una suposición fundamental en los métodos actuales de modelado de recompensas: que las discrepancias entre los anotadores humanos son simplemente ruido o errores de anotación que deben promediarse o eliminarse.

Los autores cuestionan esta premisa, argumentando que las preferencias divergentes son a menudo el resultado de predilecciones individuales legítimas (estilos de respuesta, interpretaciones de tareas ambiguas, valores morales) y no de errores. Los métodos actuales (como el modelo de Bradley-Terry) agregan estas etiquetas mediante votación mayoritaria, lo que fuerza al modelo a aprender una única perspectiva "ganadora", ignorando la pluralidad de opiniones. Esto conduce a una desalineación pluralista, donde los LLMs entrenados fallan en servir equitativamente a usuarios con preferencias diversas o adoptan políticas rígidas (como negarse a responder o pedir aclaraciones) que son penalizadas injustamente en las evaluaciones.

2. Metodología

Datos y Taxonomía

Los investigadores introducen dos conjuntos de datos basados en anotaciones individuales existentes (no recolectados de nuevo, sino liberados con anotaciones desglosadas):

MultiPref: 10k pares de preferencias con 4 anotadores por ejemplo.
HelpSteer2: 12k pares de preferencias con 3-5 anotadores por ejemplo.

A través de un análisis manual de ejemplos con desacuerdo, desarrollaron una taxonomía de fuentes de desacuerdo con 10 categorías agrupadas en 4 clases principales:

Especificación de la Tarea: Ambigüedad en el prompt (ej. interpretaciones válidas pero distintas).
Estilo de Respuesta: Diferencias en verbosidad, formato, complejidad técnica y gusto estético.
Negativas (Refusals): Desacuerdos sobre cuándo negarse a responder por seguridad o capacidades, y tipos de negativas (ej. ofrecer ayuda vs. negarse rotundamente).
Errores: Alucinaciones o salidas degeneradas (menos frecuentes como causa principal de divergencia intencional).

Hallazgo clave: Más del 30% de los ejemplos muestran preferencias divergentes, y más del 75% de estos desacuerdos se deben a factores de estilo o especificación, no a errores.

Modelado de Recompensas Distribucionales

Para abordar la incapacidad de los modelos actuales de distinguir entre "alto acuerdo" y "divergencia", proponen Modelos de Recompensa Distribucional:

En lugar de predecir un valor escalar único $r$ , el modelo predice una distribución de probabilidad (normal) para la recompensa: $r_A \sim \mathcal{N}(\mu_A, \sigma^2_A)$ .
$\mu$ (Media): Representa la preferencia promedio.
$\sigma^2$ (Varianza): Representa la divisividad o desacuerdo entre los usuarios.
Entrenamiento: Utilizan pérdida de Divergencia KL (KL-Divergence) para mapear las etiquetas de los anotadores a estas distribuciones, permitiendo que el modelo aprenda tanto la preferencia como la incertidumbre/divergencia.

Evaluación de "LLM-as-Judge"

Analizan cómo los métodos de evaluación actuales (donde un LLM actúa como juez) manejan estos casos. Evalúan si estos sistemas tienden a elegir un ganador incluso cuando los humanos discrepan, penalizando así a modelos que adoptan estrategias pluralistas (como pedir aclaraciones en prompts ambiguos).

3. Contribuciones Clave

Análisis Empírico de la Divergencia: Demostración de que las discrepancias en las anotaciones son mayoritariamente preferencias legítimas y no ruido, desafiando la suposición estándar de RLHF.
Nuevos Modelos de Recompensa: Propuesta de modelos de recompensa distribucionales (Mean-Var y Clasificación KL) capaces de identificar y cuantificar la divergencia de preferencias, superando a los modelos de valor único.
Identificación de Sesgo en Evaluaciones: Evidencia de que los métodos "LLM-as-Judge" actuales tienen un sesgo sistemático hacia respuestas que cumplen ciegamente o tienen un formato específico, castigando a modelos que se alinean pluralísticamente (ej. modelos que se niegan a responder preguntas inseguras o piden aclaraciones).
Método de Limpieza de Benchmarks: Una técnica para identificar y eliminar ejemplos divisivos de los benchmarks de evaluación (como WildBench) utilizando los modelos de recompensa distribucional, mejorando la equidad de las evaluaciones.

4. Resultados

Detección de Divergencia: Los modelos de recompensa estándar (Bradley-Terry, MSE) fallan en distinguir entre preferencias de alto acuerdo y divergentes, asignando diferencias de recompensa similares en ambos casos.
- El modelo propuesto Mean-Var (KL) logra un AUROC de 0.615 en la tarea de identificar preferencias divergentes (vs. ~0.46 de los modelos estándar), superando significativamente la línea base aleatoria (0.5).
- Los modelos distribucionales logran una precisión de preferencia comparable a los modelos estándar, pero con la capacidad añadida de detectar la divisividad.
Sesgo en LLM-as-Judge:
- En casos de preferencias divergentes, los evaluadores LLM-as-Judge eligen un "ganador" en un 73.8% de los casos (similar a casos de alto acuerdo), en lugar de marcarlos como empate.
- Sesgo en Negativas: Los evaluadores prefieren consistentemente las respuestas que cumplen con la solicitud (incluso si es insegura) sobre las que se niegan, y prefieren negativas que ofrecen soluciones o ayuda profesional sobre las que simplemente declaran incapacidad.
- Sesgo en Ambigüedad: Las respuestas que ofrecen múltiples interpretaciones ("Overton") son preferidas sobre las que piden aclaraciones, penalizando a modelos diseñados para interactuar y resolver ambigüedades.
Aplicación en WildBench: Al aplicar su método para identificar ejemplos divisivos en el benchmark WildBench, encontraron que el 42% de los ejemplos más divisivos involucraban conflictos de "Cumplir vs. Negarse", y el 16% involucraban especificación de tareas insuficiente. En estos casos, el evaluador LLM penalizaba consistentemente a los modelos que pedían aclaraciones o se negaban.

5. Significado e Impacto

Este trabajo es fundamental para el desarrollo de LLMs alineados pluralísticamente.

Para el Entrenamiento: Sugiere que los modelos de recompensa deben modelar la varianza de las preferencias humanas, no solo la media, para evitar que los LLMs aprendan a complacer a una sola visión mayoritaria y ignoren a minorías o estilos de interacción válidos.
Para la Evaluación: Advierte que los benchmarks actuales pueden estar penalizando injustamente a sistemas que priorizan la seguridad o la claridad sobre la complacencia ciega. Se propone filtrar ejemplos divisivos de los benchmarks para evaluar verdaderamente la capacidad general del modelo sin sesgos de estilo.
Filosófico: Cambia la narrativa de ver el desacuerdo humano como "ruido" a verlo como una característica inherente y valiosa de la diversidad humana que los sistemas de IA deben respetar y gestionar, no suprimir.

En resumen, el paper demuestra que ignorar la naturaleza distribuida de las preferencias humanas conduce a modelos de IA menos robustos y equitativos, y ofrece herramientas técnicas concretas (modelos distribucionales y métodos de filtrado) para mitigar estos problemas.