The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

Este trabajo propone el marco DPH-RL, que utiliza divergencias f-mass-covering (como la KL hacia adelante) en lugar de la divergencia KL inversa estándar para preservar la diversidad de soluciones en el ajuste fino de LLMs con RLVR, resolviendo así la degradación del rendimiento Pass@k y el olvido catastrófico mientras mejora la eficiencia del entrenamiento.

Long Li, Zhijian Zhou, Jiaran Hao, Jason Klein Liu, Yanting Miao, Wei Pang, Xiaoyu Tan, Wei Chu, Zhe Wang, Shirui Pan, Chao Qu, Yuan Qi

Publicado 2026-03-04
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un chef de cocina (que es tu Inteligencia Artificial) que es muy bueno cocinando.

El Problema: El Chef que Olvida sus Recetas

En el mundo de la Inteligencia Artificial, hay un problema curioso. Cuando entrenamos a estos "chefs" para que sean mejores resolviendo problemas matemáticos o escribiendo código (usando un método llamado RLVR), ocurre algo extraño:

  1. Mejoran en lo fácil: Si les pides que cocinen un plato una sola vez, lo hacen perfecto.
  2. Pero olvidan la variedad: Si les pides que intenten cocinar el mismo plato ocho veces para ver cuántas formas diferentes pueden hacerlo, se vuelven aburridos. Solo hacen el mismo plato una y otra vez, o peor aún, empiezan a olvidar cómo cocinar platos que antes sabían hacer (esto se llama "olvido catastrófico").

Es como si el chef, al intentar ser el mejor en una sola receta, decidiera tirar todos sus otros libros de cocina a la basura y solo cocinar un tipo de pasta. Si le pides que haga algo diferente (fuera de su zona de confort), se bloquea.

La Causa: El "Policía" Estricto

Los investigadores descubrieron que la culpa la tiene una regla matemática llamada Divergencia Reverse-KL.

Imagina que esta regla es un policía muy estricto que vigila al chef.

  • El policía le dice: "¡Solo puedes usar la receta exacta que ya conoces! Si intentas algo nuevo o diferente, te castigo".
  • Esto hace que el chef se vuelva muy seguro en lo que ya sabe, pero pierde toda su creatividad y capacidad para explorar nuevas formas de cocinar. Se vuelve rígido y pierde su "diversidad".

La Solución: El "Relevo" y el "Espejo"

Los autores del paper proponen un cambio de mentalidad. En lugar de usar al policía estricto, usan una nueva regla llamada DPH-RL (que suena a un nuevo sistema de entrenamiento).

Esta nueva regla funciona como un entrenador inteligente que usa dos estrategias:

  1. Para lo difícil (Exploración): Cuando el chef se enfrenta a un problema muy difícil que no sabe resolver, el entrenador le dice: "¡Explora! Prueba todo lo que quieras, no te preocupes por la regla estricta". Esto permite que el chef encuentre nuevas soluciones.
  2. Para lo que ya sabe (Memoria): Cuando el chef está haciendo algo que ya domina, el entrenador usa un espejo mágico (una nueva medida matemática llamada Forward-KL o JS-divergencia).
    • Este espejo le dice: "Mira, antes podías hacer este plato de 5 formas diferentes. No olvides esas 5 formas. Mantén esa variedad".
    • En lugar de castigar la novedad, premia la variedad. Obliga al chef a "repetir" mentalmente sus viejas recetas para no olvidarlas.

La Analogía del "Gimnasio de la Mente"

Piensa en el entrenamiento de la IA como ir al gimnasio:

  • El método antiguo (Reverse-KL): Era como hacer solo una máquina de pesas hasta el fallo. Te volvías muy fuerte en ese movimiento, pero tus otros músculos se atrofiaban y olvidabas cómo caminar.
  • El nuevo método (DPH-RL): Es como un entrenador que te hace hacer pesas para los músculos nuevos (exploración), pero también te obliga a hacer ejercicios de estiramiento y recordatorios de tus movimientos antiguos (memoria) para que no pierdas tu flexibilidad ni tu capacidad de moverte en diferentes direcciones.

¿Qué logran con esto?

Gracias a este nuevo enfoque:

  1. Más variedad: La IA puede generar muchas soluciones diferentes para el mismo problema (mejora el "Pass@k", que es la probabilidad de acertar en varios intentos).
  2. No olvida: No pierde las habilidades que ya tenía antes de entrenar.
  3. Es más eficiente: No necesita un "segundo cerebro" (un modelo de referencia en línea) para vigilar al chef; puede hacerlo con los datos que ya tiene, ahorrando tiempo y energía.

En resumen: El paper nos dice que para que una Inteligencia Artificial sea realmente inteligente y versátil, no debemos obligarla a ser un robot que solo repite lo que sabe. Debemos darle un sistema que la anime a explorar lo nuevo, pero que al mismo tiempo le recuerde constantemente todo lo que ya sabe, manteniendo su mente abierta y diversa.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →