Rewards as Labels: Revisiting RLVR from a Classification Perspective

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que estás entrenando a un estudiante muy inteligente (un modelo de lenguaje grande) para que resuelva problemas de matemáticas muy difíciles.

Aquí tienes la explicación de este papel científico, traducida a un lenguaje sencillo y con analogías divertidas:

🎓 El Problema: El Profesor que Grita Demasiado (o Muy Poco)

Antes de este nuevo método, los investigadores usaban una técnica llamada GRPO. Imagina que GRPO es como un profesor de matemáticas un poco desequilibrado que da retroalimentación (recompensas) a sus alumnos:

El error con los "Buenos" (Gradient Misassignment):
Si un alumno ya sabe la respuesta y la da con mucha seguridad, el profesor le grita: "¡Muy bien! ¡Hazlo un millón de veces más fuerte!". Pero si el alumno duda un poco pero al final acierta, el profesor le susurra: "Bueno, está bien...".
- El problema: El profesor está desperdiciando energía en los que ya saben, ignorando a los que están luchando pero acertando. Es como intentar arreglar un coche que ya va perfecto, mientras el que se está rompiendo se queda sin ayuda.
El error con los "Malos" (Gradient Domination):
Si un alumno da una respuesta incorrecta pero con mucha seguridad (creyendo que está en lo cierto), el profesor se vuelve loco y le da una sanción gigante. Esa sanción es tan fuerte que anula cualquier otra corrección que necesite el grupo.
- El problema: Un solo error "seguro" arruina la lección para todos los demás. Es como si un solo alumno que grita fuerte en clase impidiera que el profesor explique nada más.

Esto hace que el aprendizaje sea inestable, lento y a veces el modelo se "atasca" en soluciones mediocres.

💡 La Solución: REAL (Recompensas como Etiquetas)

Los autores de este paper proponen un nuevo método llamado REAL. Cambian completamente la forma de pensar el entrenamiento.

La Analogía del "Juez de Concurso" vs. el "Entrenador de Pesas"

El método antiguo (GRPO) era como un entrenador de pesas que mide cuánto pesa la barra. Si levantas mucho, te da más peso; si levantas poco, te da menos. El problema es que la "fuerza" de la corrección se descontrola.
El método nuevo (REAL) es como un Juez de un concurso de talentos.
- El juez no se preocupa por cuánto te aplaudieron, solo se preocupa por la etiqueta: ¿Ganaste o perdiste?
- Si la respuesta es correcta (Etiqueta: GANADOR), el juez dice: "¡Esta es la respuesta correcta!".
- Si es incorrecta (Etiqueta: PERDEDOR), el juez dice: "¡Esto es incorrecto!".

¿Cómo funciona mágicamente?

En lugar de tratar la recompensa como un número que puede crecer infinitamente (como un volumen de radio que se sube hasta explotar), REAL trata la recompensa como una etiqueta de clasificación (como poner un sticker de "Aprobado" o "Reprobado").

Equilibrio perfecto: Al usar una fórmula matemática de "clasificación" (similar a la que usan los filtros de spam para distinguir entre correo bueno y malo), el sistema asegura que:
- A los alumnos que aciertan pero dudan, se les da una ayuda justa y constante.
- A los alumnos que fallan con seguridad, se les corrige, pero sin que su error "grite" tan fuerte que ahogue a los demás.
El "Ancla" (Anchor Logits): Imagina que el sistema tiene una línea de meta invisible en el suelo (el valor 0).
- Si eres un "Ganador", el sistema te empuja por encima de la línea.
- Si eres un "Perdedor", te empuja por debajo.
- Esto evita que el sistema se confunda y te diga "buen trabajo" cuando en realidad estás fallando, o viceversa.

🚀 Los Resultados: ¿Funciona de verdad?

Los investigadores probaron esto en modelos de inteligencia artificial de diferentes tamaños (desde pequeños como un teléfono hasta grandes como un servidor gigante) y en exámenes de matemáticas muy difíciles (como olimpiadas de matemáticas).

Estabilidad: El modelo no se vuelve loco ni se "rompe" durante el entrenamiento. Es como un coche que mantiene una velocidad constante en lugar de acelerar y frenar bruscamente.
Mejor rendimiento: El modelo aprende más rápido y acierta más preguntas.
- En modelos pequeños, mejoró el rendimiento en un 6.7% comparado con el mejor método anterior.
- En modelos grandes, también ganó por un margen claro.
Sin necesidad de "frenos" extra: Los métodos antiguos necesitaban poner "frenos" (llamados KL Divergence) para evitar que el modelo se volviera loco. REAL tiene sus propios frenos naturales integrados en su diseño, por lo que no necesita esos parches extra.

📝 En Resumen

Este papel nos dice que para enseñar a una Inteligencia Artificial a razonar, no necesitamos gritarle con números gigantes ni castigarla desproporcionadamente.

REAL nos enseña que es mejor tratar las respuestas correctas e incorrectas como etiquetas claras (como en un examen de verdadero/falso) y dejar que el sistema aprenda a distinguir entre ellas de forma equilibrada. Es un cambio de perspectiva: de "cuánto te premiamos" a "qué etiqueta tienes".

¡Y el resultado es un modelo más inteligente, más estable y que aprende de forma más humana!

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Rewards as Labels (REAL)

1. El Problema: Ineficiencias en los Métodos RLVR Estándar

El Reinforcement Learning with Verifiable Rewards (RLVR) ha sido fundamental para mejorar la capacidad de razonamiento de los Modelos de Lenguaje Grandes (LLM) en tareas como matemáticas y programación. El método representativo actual es GRPO (Group Relative Policy Optimization) y sus variantes (DAPO, GSPO).

Sin embargo, los autores identifican dos fallos fundamentales en la asignación de gradientes de los métodos basados en GRPO que conducen a actualizaciones de políticas subóptimas e inestables:

Asignación Incorrecta de Gradientes en Positivos (Gradient Misassignment in Positives): Para los rollouts (secuencias de generación) correctos, los tokens que ya tienen alta probabilidad bajo la política actual reciben actualizaciones desproporcionadamente grandes. Por el contrario, los tokens "difíciles" (baja probabilidad pero correctos) reciben gradientes muy débiles. Esto concentra el aprendizaje en regiones ya optimizadas y descuida las partes que necesitan corrección.
Dominio de Gradientes en Negativos (Gradient Domination in Negatives): Para los rollouts incorrectos, la magnitud del gradiente no tiene límite superior y crece exponencialmente con la probabilidad relativa. Esto permite que unos pocos tokens negativos con alta confianza dominen la actualización de toda la política, suprimiendo la contribución de otros tokens informativos y causando inestabilidad.

Estos problemas resultan en una asignación de crédito ineficiente, riesgo de convergencia prematura a óptimos locales y colapso de la entropía.

2. Metodología: REAL (Recompensas como Etiquetas)

Para abordar estos problemas, los autores proponen REAL, un nuevo marco que reformula el RLVR no como un problema de ponderación de gradientes con señales escalares, sino como un problema de clasificación.

Reconceptualización de las Recompensas: En lugar de tratar las recompensas verificables ( $r \in \{0, 1\}$ ) como pesos escalares para el gradiente, REAL las trata como etiquetas categóricas. El objetivo es discriminar correctamente entre rollouts deseables (positivos) y no deseables (negativos).
Puntajes como Logits Relativos: Se define un puntaje de logit basado en el cambio de log-probabilidad relativo entre la nueva política ( $\pi_\theta$ ) y la antigua ( $\pi_{old}$ ), normalizado por la longitud de la secuencia:
$\bar{s}_k = \frac{1}{|o_k|} \sum_{t=1}^{|o_k|} \log \frac{\pi_\theta(o_{k,t}|q)}{\pi_{old}(o_{k,t}|q)}$
Función de Pérdida (Objetivo REAL): Se utiliza una función de pérdida de entropía cruzada softmax unificada. Para estabilizar el entrenamiento y evitar ambigüedades en la dirección de actualización, se introduce un Logit de Ancla fijo en 0.
- La pérdida separa los puntajes positivos ( $S_+$ ) y negativos ( $S_-$ ) del ancla (0).
- La fórmula final combina la pérdida para separar positivos del ancla y el ancla de los negativos:
  $\mathcal{L}_{REAL} = \log\left(1 + \sum_{O_+} e^{-\bar{s}_i/\tau}\right) + \log\left(1 + \sum_{O_-} e^{\bar{s}_j/\tau}\right)$
- Donde $\tau$ es un parámetro de temperatura que controla la nitidez del límite de decisión.

Análisis Teórico de Gradientes:
A diferencia de GRPO, REAL induce una ponderación de gradientes que es monótona y acotada (limitada superiormente por $1/\tau$).

En positivos, la magnitud del gradiente disminuye a medida que aumenta la probabilidad, evitando actualizaciones excesivas en tokens ya fáciles.
En negativos, los tokens con alta probabilidad son penalizados, pero la magnitud del gradiente nunca explota, evitando que un solo outlier domine el entrenamiento.
Esto elimina la necesidad de técnicas de clipping agresivas o penalizaciones KL explícitas para mantener la estabilidad.

3. Contribuciones Clave

Identificación de Fallos Fundamentales: Demostración teórica y empírica de la "Asignación Incorrecta" en positivos y el "Dominio" en negativos en los métodos tipo GRPO.
Marco REAL: Propuesta de un nuevo paradigma que trata las recompensas verificables como etiquetas de clasificación, reformulando la optimización de políticas como una tarea de clasificación binaria/multiclase.
Mecanismo de Logits de Ancla: Introducción de un ancla en 0 para proporcionar una dirección de optimización clara y estable.
Validación Empírica Exhaustiva: Resultados superiores en múltiples benchmarks de razonamiento matemático y escalabilidad en diferentes tamaños de modelo.

4. Resultados Experimentales

Los experimentos se realizaron en modelos de 1.5B y 7B parámetros (basados en DeepSeek-R1-Distill-Qwen) sobre benchmarks como AIME 2024/2025, MATH 500, AMC 2023, Minerva y Olympiad Bench.

Rendimiento en Modelo 1.5B: REAL supera a DAPO (un estado del arte fuerte) en un 6.7% en Pass@1 promedio. Supera a GRPO en 9.5 puntos.
Rendimiento en Modelo 7B: REAL mantiene su ventaja, superando a DAPO en 6.2% y a GSPO en 1.7% en Pass@1 promedio.
Estabilidad: A diferencia de GRPO (que sufre colapso de entropía) y DAPO (que muestra explosión de entropía), REAL mantiene una entropía estable durante todo el entrenamiento, logrando un crecimiento constante en recompensas y puntuaciones de validación.
Robustez:
- Funciona bien incluso sin una penalización KL explícita, gracias a la naturaleza acotada de sus gradientes.
- Incluso con una pérdida de entropía cruzada binaria (BCE) simple, REAL supera a DAPO en un 4.5% promedio.
- Mantiene su ventaja al cambiar de distribución de datos (evaluado en el conjunto de datos DAPO-Math-17K).

5. Significado e Impacto

El trabajo REAL ofrece una nueva perspectiva teórica sobre el aprendizaje por refuerzo en LLMs. Al demostrar que reformular las recompensas como etiquetas de clasificación resuelve problemas fundamentales de asignación de gradientes, el método proporciona:

Mayor Estabilidad: Reduce la necesidad de hiperparámetros delicados (como clipping o coeficientes KL).
Eficiencia de Aprendizaje: Asegura que los tokens difíciles (tanto positivos como negativos) reciban la atención adecuada, mejorando la capacidad de razonamiento complejo.
Escalabilidad: Los beneficios se mantienen y escalan a modelos más grandes, sugiriendo que REAL es un enfoque más principiado y generalizable para la optimización post-entrenamiento de modelos de razonamiento.

En conclusión, REAL establece que la reformulación de la optimización de políticas como un problema de clasificación es un camino robusto para desarrollar sistemas de IA más transparentes, estables y confiables.

Rewards as Labels: Revisiting RLVR from a Classification Perspective

🎓 El Problema: El Profesor que Grita Demasiado (o Muy Poco)

💡 La Solución: REAL (Recompensas como Etiquetas)

🚀 Los Resultados: ¿Funciona de verdad?

📝 En Resumen

Resumen Técnico: Rewards as Labels (REAL)

1. El Problema: Ineficiencias en los Métodos RLVR Estándar

2. Metodología: REAL (Recompensas como Etiquetas)

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers