The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un chef de cocina (que es tu Inteligencia Artificial) que es muy bueno cocinando.

El Problema: El Chef que Olvida sus Recetas

En el mundo de la Inteligencia Artificial, hay un problema curioso. Cuando entrenamos a estos "chefs" para que sean mejores resolviendo problemas matemáticos o escribiendo código (usando un método llamado RLVR), ocurre algo extraño:

Mejoran en lo fácil: Si les pides que cocinen un plato una sola vez, lo hacen perfecto.
Pero olvidan la variedad: Si les pides que intenten cocinar el mismo plato ocho veces para ver cuántas formas diferentes pueden hacerlo, se vuelven aburridos. Solo hacen el mismo plato una y otra vez, o peor aún, empiezan a olvidar cómo cocinar platos que antes sabían hacer (esto se llama "olvido catastrófico").

Es como si el chef, al intentar ser el mejor en una sola receta, decidiera tirar todos sus otros libros de cocina a la basura y solo cocinar un tipo de pasta. Si le pides que haga algo diferente (fuera de su zona de confort), se bloquea.

La Causa: El "Policía" Estricto

Los investigadores descubrieron que la culpa la tiene una regla matemática llamada Divergencia Reverse-KL.

Imagina que esta regla es un policía muy estricto que vigila al chef.

El policía le dice: "¡Solo puedes usar la receta exacta que ya conoces! Si intentas algo nuevo o diferente, te castigo".
Esto hace que el chef se vuelva muy seguro en lo que ya sabe, pero pierde toda su creatividad y capacidad para explorar nuevas formas de cocinar. Se vuelve rígido y pierde su "diversidad".

La Solución: El "Relevo" y el "Espejo"

Los autores del paper proponen un cambio de mentalidad. En lugar de usar al policía estricto, usan una nueva regla llamada DPH-RL (que suena a un nuevo sistema de entrenamiento).

Esta nueva regla funciona como un entrenador inteligente que usa dos estrategias:

Para lo difícil (Exploración): Cuando el chef se enfrenta a un problema muy difícil que no sabe resolver, el entrenador le dice: "¡Explora! Prueba todo lo que quieras, no te preocupes por la regla estricta". Esto permite que el chef encuentre nuevas soluciones.
Para lo que ya sabe (Memoria): Cuando el chef está haciendo algo que ya domina, el entrenador usa un espejo mágico (una nueva medida matemática llamada Forward-KL o JS-divergencia).
- Este espejo le dice: "Mira, antes podías hacer este plato de 5 formas diferentes. No olvides esas 5 formas. Mantén esa variedad".
- En lugar de castigar la novedad, premia la variedad. Obliga al chef a "repetir" mentalmente sus viejas recetas para no olvidarlas.

La Analogía del "Gimnasio de la Mente"

Piensa en el entrenamiento de la IA como ir al gimnasio:

El método antiguo (Reverse-KL): Era como hacer solo una máquina de pesas hasta el fallo. Te volvías muy fuerte en ese movimiento, pero tus otros músculos se atrofiaban y olvidabas cómo caminar.
El nuevo método (DPH-RL): Es como un entrenador que te hace hacer pesas para los músculos nuevos (exploración), pero también te obliga a hacer ejercicios de estiramiento y recordatorios de tus movimientos antiguos (memoria) para que no pierdas tu flexibilidad ni tu capacidad de moverte en diferentes direcciones.

¿Qué logran con esto?

Gracias a este nuevo enfoque:

Más variedad: La IA puede generar muchas soluciones diferentes para el mismo problema (mejora el "Pass@k", que es la probabilidad de acertar en varios intentos).
No olvida: No pierde las habilidades que ya tenía antes de entrenar.
Es más eficiente: No necesita un "segundo cerebro" (un modelo de referencia en línea) para vigilar al chef; puede hacerlo con los datos que ya tiene, ahorrando tiempo y energía.

En resumen: El paper nos dice que para que una Inteligencia Artificial sea realmente inteligente y versátil, no debemos obligarla a ser un robot que solo repite lo que sabe. Debemos darle un sistema que la anime a explorar lo nuevo, pero que al mismo tiempo le recuerde constantemente todo lo que ya sabe, manteniendo su mente abierta y diversa.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "THE CHOICE OF DIVERGENCE: A NEGLECTED KEY TO MITIGATING DIVERSITY COLLAPSE IN REINFORCEMENT LEARNING WITH VERIFIABLE REWARD", publicado en ICLR 2026.

1. El Problema: La Paradoja de la Colapso de Diversidad en RLVR

El artículo identifica una paradoja central en el ajuste fino de Modelos de Lenguaje Grandes (LLMs) mediante Aprendizaje por Refuerzo con Recompensa Verificable (RLVR):

Mejora en Pass@1: Los modelos ajustados con RLVR suelen mejorar la precisión en un solo intento (Pass@1).
Degradación en Pass@k: Sin embargo, su rendimiento cae drásticamente cuando se permiten múltiples intentos (Pass@k), indicando una pérdida de diversidad en las soluciones generadas.
Olvido Catastrófico: Este proceso a menudo conlleva un "olvido catastrófico", donde el modelo pierde habilidades adquiridas previamente y su capacidad de generalización fuera del dominio de entrenamiento (OOD) se deteriora.

Causa Raíz Identificada:
La comunidad ha dependido casi exclusivamente de la divergencia de Kullback-Leibler inversa (Reverse-KL) como término de regularización.

La Reverse-KL tiene una naturaleza "búsqueda de modos" (mode-seeking), lo que fuerza a la política a converger hacia una única solución de alta probabilidad, eliminando otras rutas válidas.
La ausencia de un término de divergencia (como en GRPO o DAPO estándar) no ofrece protección contra la deriva del modelo, permitiendo que se aleje de su base de conocimientos diversa.

2. Metodología: DPH-RL (Diversity-Preserving Hybrid RL)

Los autores proponen un cambio de paradigma: utilizar el término de divergencia no solo como una restricción, sino como un mecanismo activo de preservación de la diversidad. Presentan el marco DPH-RL, que utiliza f-divergencias de cobertura de masa (mass-covering), como la Forward-KL y la Divergencia de Jensen-Shannon (JS).

Mecanismo Clave: "Rehearsal" (Ensayo)

En lugar de simplemente penalizar la desviación, la Forward-KL penaliza al modelo si falla en cubrir las soluciones presentes en la distribución de referencia. Esto actúa como un "conjunto de datos de anclaje", obligando al modelo a ensayar continuamente su base de conocimientos original, similar al aprendizaje humano.

Estrategia de Entrenamiento Híbrido

El método divide el conjunto de datos en dos subconjuntos basados en el rendimiento inicial del modelo de referencia ( $\pi_{ref}$ ):

$D_{exp}$ (Exploración): Muestras donde el modelo de referencia tiene dificultades.
- Objetivo: Máxima libertad de exploración.
- Pérdida: Se elimina la penalización de divergencia para permitir la optimización pura basada en recompensas.
$D_{pef}$ (Casi Perfecto): Muestras donde el modelo de referencia ya es competente (ej. éxito en 6/8 o 7/8 intentos).
- Objetivo: Retención de capacidades y diversidad.
- Pérdida: Se aplica la f-divergencia (Forward-KL o JS) para forzar al modelo a mantener la cobertura de las soluciones originales.

Implementación Eficiente

DPH-F (Forward-KL): Utiliza una implementación basada en generadores que requiere muestreo previo desde la política de referencia. No necesita un modelo de referencia en línea durante el entrenamiento, lo que lo hace computacionalmente eficiente.
DPH-JS (Jensen-Shannon): Utiliza una divergencia simétrica que actúa como un "ensayo regularizado" mediante muestreo de doble cara (referencia y política actual), ofreciendo mayor estabilidad.

3. Contribuciones Principales

Análisis Sistemático del Colapso: Demuestran que la naturaleza "búsqueda de modos" de la Reverse-KL es una causa primaria del colapso de la diversidad y el olvido catastrófico en RLVR, limitando la generalización fuera de dominio.
Nuevo Marco DPH-RL: Reframan el papel de la divergencia KL, proponiendo el uso de f-divergencias de cobertura de masa (Forward-KL, JS) como mecanismos de ensayo para preservar la diversidad de soluciones.
Validación Empírica Robusta: Demuestran que DPH-RL supera a los baselines (GRPO, DAPO, Reverse-KL) tanto en rendimiento intradominio (Pass@1 y Pass@k) como en generalización fuera de dominio, sin necesidad de modelos de referencia adicionales en línea.

4. Resultados Experimentales

Los experimentos se realizaron en tareas de SQL (generación de código y ejecución) y Razonamiento Matemático, utilizando modelos Llama-3.1-8B y Qwen2.5-7B/32B.

Rendimiento en Pass@k:
- En el dataset Bird (SQL), DPH-JS superó a GRPO y DAPO en Pass@8 en un 4.3% y 3.3% respectivamente, superando también al modelo base.
- En tareas Cross-Domain (Spider), mientras otros métodos colapsaron, DPH mantuvo niveles de precisión cercanos al modelo base.
Generalización Fuera de Dominio (OOD):
- Al evaluar modelos entrenados en SQL en tareas matemáticas, los métodos estándar (GRPO, DAPO, Reverse-KL) sufrieron caídas significativas en el rendimiento.
- DPH-F y DPH-JS mantuvieron un rendimiento promedio superior, superando a DAPO en un 8.35% y 7.6% respectivamente, demostrando una resistencia superior al olvido catastrófico.
Eficiencia:
- La implementación basada en generadores de DPH-RL es más eficiente que los métodos que requieren modelos de referencia en línea, ya que solo requiere muestreo de la política inicial.
Análisis de Estilos:
- Experimentos de "estilos de solución" mostraron que la Reverse-KL reduce la salida a un solo estilo (94% de un solo estilo), mientras que Forward-KL mantiene una distribución más diversa de estilos de solución.

5. Significado e Impacto

Este trabajo destaca un eje crítico y a menudo ignorado en la optimización de RLVR: la elección de la medida de divergencia.

Cambio de Paradigma: Desafía la suposición de que la Reverse-KL es la única opción viable para la regularización en RL, demostrando que las divergencias de cobertura de masa son esenciales para mantener la diversidad y la robustez.
Solución Práctica: Ofrece una solución "plug-and-play" que no requiere arquitecturas complejas adicionales, mejorando tanto la capacidad de exploración como la retención de conocimientos.
Implicaciones Futuras: Sugiere que para construir modelos de razonamiento más generales y diversos, es fundamental equilibrar la búsqueda de recompensas con mecanismos que preserven la cobertura de la distribución de soluciones originales, evitando la sobre-optimización en un único camino de solución.

En resumen, el artículo establece que la selección adecuada de la divergencia (específicamente, el uso de Forward-KL o JS en lugar de Reverse-KL) es una herramienta poderosa para mitigar el colapso de la diversidad y el olvido catastrófico en el aprendizaje por refuerzo de LLMs.