Reward Models Inherit Value Biases from Pretraining

Each language version is independently generated for its own context, not a direct translation.

Imagina que los modelos de Inteligencia Artificial (como los chatbots que usamos hoy) son como grandes estudiantes que aprenden leyendo millones de libros, noticias y conversaciones en internet. A este proceso se le llama "pre-entrenamiento".

Ahora, para que estos estudiantes sean útiles y seguros, los humanos les damos un "tutor" especial llamado Modelo de Recompensa. La función de este tutor es decirle al estudiante: "¡Esa respuesta fue genial!" (recompensa alta) o "¡Esa respuesta fue mala!" (recompensa baja). El estudiante luego ajusta su comportamiento para obtener más elogios.

El problema que descubren en este paper es que el tutor no es una hoja en blanco.

La Analogía del "Tutor con Prejuicios Heredados"

Imagina que tienes dos estudiantes geniales:

Estudiante A (Llama): Creció leyendo muchos libros sobre emprendedores, libertad individual y logros personales.
Estudiante B (Gemma): Creció leyendo muchos libros sobre familia, comunidad, amor y ayudar a los vecinos.

Ambos estudiantes son inteligentes, pero tienen "personalidades" diferentes porque de dónde vienen sus libros.

Ahora, quieres crear un Tutor para cada uno. Lo que hacen los investigadores es tomar al Estudiante A y convertirlo en Tutor A, y al Estudiante B en Tutor B.

El hallazgo sorprendente:
Aunque ambos tutores usen exactamente los mismos libros de instrucciones y los mismos ejemplos de lo que es "bueno" o "malo" para enseñar, siguen teniendo los prejuicios de sus libros originales.

El Tutor A (basado en Llama) tiende a premiar respuestas sobre "Libertad", "Éxito" y "Capacidad".
El Tutor B (basado en Gemma) tiende a premiar respuestas sobre "Amor", "Familia" y "Amistad".

Es como si el Tutor A, aunque intente ser objetivo, siempre piense: "La libertad es lo más importante". Y el Tutor B siempre piense: "El amor es lo más importante".

¿Qué significa esto en la vida real?

Los investigadores probaron esto con una pregunta muy simple: "¿Cuál es la mejor cosa del mundo?"

Si le preguntas al Tutor A, te dirá que la mejor palabra es "Libertad".
Si le preguntas al Tutor B, te dirá que la mejor palabra es "Amor".

Esto es importante porque estos tutores son los que luego "entrenan" a los chatbots que usamos todos los días. Si el tutor tiene un sesgo, el chatbot también lo tendrá.

¿Se puede arreglar con más entrenamiento?

Los investigadores se preguntaron: "¿Si leemos más libros al tutor (más datos de entrenamiento), podrá olvidar sus prejuicios originales?".

Hicieron un experimento:

Entrenaron a los tutores con cantidades enormes de datos (como si les dieran miles de libros nuevos).
Resultado: El tutor empezó a cambiar un poco, sí. Pero nunca olvidó completamente su personalidad original.

Es como intentar enseñarle a un perro que siempre ha ladrado por la noche a dejar de hacerlo. Puedes entrenarlo mucho, pero si su instinto (su "pre-entrenamiento") es ladrar, siempre habrá un pequeño latido de ese instinto en su comportamiento.

La Lección Principal

El mensaje de este estudio es muy claro y tiene una metáfora final potente:

El "esqueleto" (el modelo base) es tan importante como la "ropa" (el entrenamiento final).

En el mundo de la IA, a veces nos enfocamos tanto en el entrenamiento final (el ajuste fino) que olvidamos que la base sobre la que construimos ya tiene una "moral" o un "carácter" incrustado.

En resumen:
Si quieres crear una Inteligencia Artificial que refleje tus valores humanos, no basta con darle buenas instrucciones al final. Tienes que elegir con mucho cuidado de qué "libros" (qué modelo base) aprendió a pensar antes de que tú llegaras. La elección del modelo base es, en sí misma, una elección de valores.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Los Modelos de Recompensa Heredan Sesgos de Valores del Pre-entrenamiento

1. El Problema

Los Modelos de Recompensa (RMs) son componentes críticos en la alineación de Modelos de Lenguaje Grandes (LLMs) con los valores humanos, especialmente en procesos como el Aprendizaje por Refuerzo con Feedback Humano (RLHF). Sin embargo, existe una brecha de conocimiento significativa sobre cómo los RMs mismos pueden estar sesgados.

Hipótesis central: Dado que los RMs se inicializan a partir de LLMs pre-entrenados y luego se ajustan (fine-tuning) para modelar preferencias, ¿heredan los sesgos de valores inherentes a sus modelos base?
La preocupación: La investigación previa se ha centrado en cómo los RMs sesgan los modelos finales o cómo se personalizan, pero no ha investigado si la elección del modelo base (pre-entrenado) impone una "moral" o preferencia de valores que persiste incluso después del entrenamiento con datos de preferencia humana.

2. Metodología

Los autores emplearon un enfoque multidisciplinario que combina la interpretabilidad de modelos con la psicolingüística.

Búsqueda Exhaustiva de Tokens (Exhaustive Token Search):
- Se evaluó el vocabulario completo de cada RM para identificar los tokens con las puntuaciones de recompensa más altas y más bajas en respuesta a una serie de 54 prompts cargados de valores (ej. "¿Qué es lo mejor que existe en una sola palabra?").
- Se analizaron 10 RMs líderes de RewardBench, basados principalmente en las familias Llama y Gemma.
Análisis Psicolingüístico:
- Se utilizaron dos corpus validados para mapear palabras a constructos psicológicos:
  1. Los "Dos Grandes" (Big Two): Dimensiones de Agencia (logro individual, libertad, éxito) y Comunión (relaciones, amor, familia).
  2. Moral Foundations Dictionary 2 (MFD2): Dimensiones como autoridad, cuidado, equidad, lealtad y santidad.
Modelos de Recompensa Implícitos (Implicit Reward Models):
- Para rastrear el origen de los sesgos, los autores definieron una recompensa implícita basada en la diferencia de log-probabilidades entre dos modelos ( $\log \pi_2 - \log \pi_1$ ).
- Introdujeron una métrica ponderada llamada MWLR (Mixture-Weighted Log-Ratio) para evitar el ruido de tokens de baja probabilidad y aislar las diferencias significativas entre modelos base (Llama vs. Gemma).
Experimentos de Control (Fine-tuning):
- Entrenaron sus propios RMs desde cero utilizando diferentes modelos base (Llama 3.2 3B y Gemma 2 2B) con datos idénticos y hiperparámetros idénticos.
- Realizaron estudios de ablación variando la fuente de datos (Skywork vs. Unified Feedback) y la cantidad de datos (desde 13k hasta 106k pares de preferencias) para observar la evolución del sesgo durante el entrenamiento.

3. Contribuciones Clave

Nuevo Método de Interpretación: Desarrollo de una técnica que combina la búsqueda exhaustiva de tokens con corpus psicolingüísticos para cuantificar sesgos de valores en RMs.
Evidencia de Sesgo Sistémico: Demostración de que los RMs en uso ("en la naturaleza") exhiben diferencias sistemáticas de valores basadas únicamente en su modelo base.
Rastreo al Origen: Identificación de que estos sesgos se originan en los modelos pre-entrenados e instruidos, no solo en los datos de preferencia.
Modelos de Recompensa Implícitos: Formulación de las diferencias de log-probabilidad entre modelos base como modelos de recompensa implícitos funcionales, demostrando que estos "modelos fantasma" ya poseen los mismos sesgos.
Estudios de Replicabilidad y Durabilidad: Pruebas experimentales que muestran que estos sesgos son repetibles y sorprendentemente duraderos, incluso con grandes cantidades de datos de ajuste.

4. Resultados Principales

La División Agencia vs. Comunión:
- RMs basados en Llama: Muestran una preferencia robusta por tokens relacionados con la Agencia (ej. "Freedom", "Success", "Opportunity").
- RMs basados en Gemma: Muestran una preferencia robusta por tokens relacionados con la Comunión (ej. "Love", "Family", "Harmony").
- Este patrón se mantiene incluso cuando los datos de preferencia y el proceso de fine-tuning son idénticos.
Origen en el Pre-entrenamiento:
- El análisis de log-probabilidades en las versiones instruction-tuned y pretrained de Llama y Gemma revela la misma división.
- El modelo de recompensa implícito (MWLR) calculado entre Llama y Gemma clasifica "Freedom" como el token óptimo y "Love" como el peor, confirmando que la diferencia de valores es una propiedad intrínseca de los modelos base.
- El sesgo aumenta con el tamaño del modelo (de 1B a 70B) y es consistente a través de diferentes versiones menores.
Dinámica del Entrenamiento (Fine-tuning):
- Persistencia: Aunque la brecha de valores se reduce ligeramente al inicio del entrenamiento con datos de preferencia, no desaparece. Los sesgos se estabilizan aproximadamente un tercio del camino a través del entrenamiento.
- Cantidad de Datos: Se necesitan más de 100k pares de preferencias para mitigar significativamente la diferencia entre bases Llama y Gemma.
- Límites de la Mitigación: En experimentos con modelos Qwen, el sesgo no se cerró incluso con 100k datos, sugiriendo que algunos sesgos de pre-entrenamiento son extremadamente resistentes. Además, los modelos de recompensa generalizables (GRMs) que preservan la capacidad generativa del modelo base mantienen el sesgo incluso con >630k datos.

5. Significado e Implicaciones

La Alineación no comienza en RLHF: El trabajo desafía la noción de que la alineación es un proceso que ocurre principalmente en la fase de ajuste fino. Los valores morales y las preferencias se "imprimen" profundamente durante el pre-entrenamiento.
Elección del Modelo Base como Decisión Ética: La elección del modelo base por parte de los desarrolladores de código abierto no es solo una decisión de rendimiento, sino una decisión de valores. Un desarrollador que elige Llama sobre Gemma (o viceversa) está seleccionando implícitamente un marco de valores (Agencia vs. Comunión) para su aplicación.
Limitaciones de los Datos de Preferencia: La cantidad masiva de datos de pre-entrenamiento (órdenes de magnitud mayores que los datos de preferencia) crea sesgos que son difíciles de "lavar" solo con RLHF.
Necesidad de Nuevas Estrategias: Se requiere un enfoque en el filtrado y la curación de datos de pre-entrenamiento, así como en técnicas de mitigación dirigidas, para abordar estos sesgos fundamentales.

Conclusión:
El artículo demuestra empíricamente que los Modelos de Recompensa no son una "pizarra en blanco" (blank slate). Heredan significativamente la "moral" de sus modelos base pre-entrenados. Esto subraya la urgencia de considerar la seguridad y la alineación desde la etapa de pre-entrenamiento, ya que las elecciones arquitectónicas y de datos en esa fase definen los límites de lo que es posible corregir posteriormente.

Reward Models Inherit Value Biases from Pretraining

La Analogía del "Tutor con Prejuicios Heredados"

¿Qué significa esto en la vida real?

¿Se puede arreglar con más entrenamiento?

La Lección Principal

Resumen Técnico: Los Modelos de Recompensa Heredan Sesgos de Valores del Pre-entrenamiento

1. El Problema

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Implicaciones

Más como este

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá

Enabling Intrinsic Reasoning over Dense Geospatial Embeddings with DFR-Gemma