Diverging Preferences: When do Annotators Disagree and do Models Know?

Este artículo demuestra que la mayoría de las discrepancias en las preferencias humanas no son ruido simple, sino que surgen de factores como la ambigüedad de la tarea o el estilo de respuesta, lo que desafía los métodos actuales de modelado de recompensas y evaluación de LLM, proponiendo nuevas técnicas para identificar y mitigar estas divergencias.

Michael JQ Zhang, Zhilin Wang, Jena D. Hwang, Yi Dong, Olivier Delalleau, Yejin Choi, Eunsol Choi, Xiang Ren, Valentina Pyatkin

Publicado 2026-03-04
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que este paper es como una investigación sobre por qué a veces nos peleamos por qué película es mejor y cómo los "jueces" de inteligencia artificial (IA) a veces toman decisiones injustas en esas peleas.

Aquí tienes la explicación, traducida a un lenguaje sencillo y con algunas analogías divertidas:

🎬 La Gran Pelea: ¿Quién tiene la razón?

Imagina que pides a dos amigos que escriban una historia sobre un dragón.

  • Amigo A escribe una historia corta, directa y con mucha acción.
  • Amigo B escribe una historia larga, poética y llena de descripciones.

Si les preguntas a 10 personas cuál les gusta más, nadie se pondrá de acuerdo. A unos les encantará la acción (Amigo A), a otros la poesía (Amigo B).

El problema: En el mundo de la Inteligencia Artificial, cuando entrenamos a una IA para que sea "buena", le mostramos estas historias y le decimos: "Elige la mejor". Pero, ¿qué pasa si los humanos no se ponen de acuerdo?

Los investigadores de este paper descubrieron algo muy importante: La mayoría de las veces, la gente no está "equivocada" al elegir una historia sobre la otra. Simplemente tienen gustos diferentes.

  • A veces es porque la pregunta era confusa (como pedir "dame un pastel" sin decir si es de chocolate o de fresa).
  • A veces es porque a uno le gusta que le hablen mucho y a otro le gusta que sea breve.
  • A veces es simplemente un tema de "estilo" o "buen gusto".

🤖 El Juez Ciego: La IA que no entiende la diversidad

Aquí es donde entra el problema. Las IAs actuales (como los modelos que usan para evaluar respuestas) funcionan como un juez de concurso de belleza muy estricto.

  1. El Juez Ciego: Cuando la IA ve una pelea entre dos respuestas (como la del dragón), intenta forzar una decisión. Dice: "¡Ganó el Amigo A! ¡El Amigo B perdió!".
  2. El Error: La IA asume que si hay desacuerdo, es porque hay "ruido" o error. Pero en realidad, el desacuerdo es legítimo. Hay personas que prefieren la acción y otras la poesía. Ambas son válidas.
  3. La Consecuencia: Al entrenar a la IA con estas reglas, la IA aprende a ser aburrida y unilateral. Aprende a decir siempre lo que le gusta a la mayoría (o a la mayoría de los jueces), ignorando a las personas que tienen gustos diferentes. Se convierte en un robot que no entiende que el mundo es diverso.

🛠️ La Solución: Un Juez con "Gafas de Realidad Aumentada"

Los autores proponen dos cosas geniales para arreglar esto:

1. El "Termómetro de Disenso" (Modelos de Recompensa Distribuidos)

En lugar de que la IA diga "Esta respuesta vale 8 puntos y la otra 2", les proponen que la IA diga:

"Esta respuesta vale 8 puntos PARA los amantes de la acción, pero solo 2 puntos PARA los amantes de la poesía. ¡Y hay mucha variación en lo que la gente piensa!"

Imagina que en lugar de un solo número, la IA tiene un termómetro que mide no solo la temperatura, sino también cuánto varía la temperatura en diferentes lugares.

  • Si la gente está de acuerdo (todos dicen "está caliente"), el termómetro es estable.
  • Si la gente está dividida (unos dicen "caliente", otros "frío"), el termómetro muestra una gran variación.

Esto permite que la IA sepa: "Oye, aquí hay un tema polémico. No debo elegir un solo ganador, debo entender que hay diferentes opiniones válidas".

2. Limpiar la Arena de los Jueces (Eliminar los casos polémicos)

Los investigadores también miraron cómo se evalúan las IAs hoy en día (usando otras IAs como jueces). Descubrieron que estos "jueces automáticos" son muy injustos.

  • Si un modelo humano dice "No puedo responder eso, es peligroso" (por seguridad), el juez automático lo castiga y le da una mala nota.
  • Si un modelo humano dice "¿Podrías aclararme tu pregunta?" (porque la pregunta era confusa), el juez automático también lo castiga.

La analogía: Es como si en un concurso de cocina, el juez le diera una nota baja al chef que se negó a cocinar veneno, o al chef que pidió al cliente si quería sal o azúcar. ¡Eso no es justo!

Su solución: Usar sus nuevos "termómetros" para filtrar las preguntas que generan estas peleas. Si una pregunta hace que la gente se divida mucho, ¡que no la usen para calificar a la IA! Así, las evaluaciones solo se hacen en preguntas donde todos están de acuerdo en qué es una buena respuesta.

🌟 En Resumen

Este paper nos dice:

  1. Dejen de tratar el desacuerdo como un error. La gente tiene gustos diferentes y eso es normal.
  2. Las IAs actuales son demasiado "dictadoras". Eligen un solo estilo y olvidan a los demás.
  3. Necesitamos IAs más inteligentes que entiendan que a veces no hay una única respuesta correcta, sino muchas respuestas correctas para diferentes personas.
  4. Las pruebas actuales de IA están sesgadas. Castigan a las IAs que son prudentes o que piden aclaraciones. Hay que limpiar esas pruebas para que sean justas.

Básicamente, es un llamado a hacer que la Inteligencia Artificial sea más humana, entendiendo que la diversidad de opiniones es una característica, no un defecto. 🌈🤖