DyJR: Preserving Diversity in Reinforcement Learning with Verifiable Rewards via Dynamic Jensen-Shannon Replay

El artículo presenta DyJR, un marco de regularización que utiliza un búfer dinámico y la divergencia Jensen-Shannon para preservar la diversidad en el aprendizaje por refuerzo de modelos de lenguaje, mejorando significativamente el rendimiento y la eficiencia en comparación con métodos existentes como GRPO.

Long Li, Zhijian Zhou, Tianyi Wang, Weidi Xu, Zuming Huang, Wei Chu, Zhe Wang, Shirui Pan, Chao Qu, Yuan Qi

Publicado 2026-03-18
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que estás entrenando a un genio matemático (una Inteligencia Artificial) para que resuelva problemas muy difíciles. El método tradicional es como darle un examen, ver si acertó, y luego tirar el examen a la basura inmediatamente para pasar al siguiente. Esto es muy ineficiente: el genio olvida lo que aprendió en los intentos anteriores y a veces se vuelve "obcecado", pensando que solo hay una forma correcta de resolver todo, perdiendo su creatividad.

El paper que me has pasado presenta una solución brillante llamada DyJR. Vamos a explicarlo con una analogía sencilla: El "Gimnasio de la Memoria".

1. El Problema: El Entrenador que Olvida y el Atleta Obsesivo

En el entrenamiento actual (llamado GRPO), el entrenador (la IA) hace un ejercicio, ve si funciona, y luego borra la memoria de ese intento para hacer el siguiente.

  • El riesgo: Si el entrenador solo se fija en la respuesta perfecta de hoy, puede volverse un "robot". Solo aprenderá un camino para resolver problemas y dejará de explorar otras formas creativas. Es como un atleta que solo practica una sola carrera y olvida cómo correr en diferentes terrenos.
  • El error de los métodos anteriores: Otros intentaron guardar todos los exámenes pasados en una biblioteca gigante para repasarlos. Pero esto tiene dos problemas:
    1. Cuesta mucho dinero y energía (memoria de computadora) guardar todo.
    2. Confunde al atleta: Si le haces repasar exámenes de hace un año, cuando su nivel era muy bajo, le enseñas cosas que ya no le sirven o lo confundes.

2. La Solución: DyJR (El Entrenador Sabio)

DyJR cambia las reglas del juego con dos ideas geniales:

A. La "Caja de Recuerdos Dinámica" (El Buffer)

Imagina que en lugar de guardar todos los exámenes de la vida del atleta, tienes una caja mágica que solo guarda los últimos intentos.

  • La regla de oro: Solo guardamos los intentos que fueron recientes y exitosos.
  • El truco: Al principio del entrenamiento, cuando el atleta está aprendiendo y probando muchas cosas locas (alta diversidad), la caja se hace grande para guardar esos momentos creativos. A medida que el atleta se vuelve experto y se estabiliza, la caja se hace pequeña, guardando solo lo más reciente.
  • Por qué funciona: Es como tener un entrenador que te dice: "Recuerda cómo pensabas hace un momento, cuando estabas explorando, no lo que pensabas hace un año". Esto mantiene la frescura y evita que el atleta se vuelva rígido.

B. El "Espejo de Diversidad" (La Regularización JS)

Aquí está la parte más mágica. En lugar de decirle al atleta: "¡Haz exactamente lo mismo que hiciste en el pasado!" (lo cual lo vuelve un robot), DyJR le dice: "Mira el espejo de tus intentos pasados exitosos y asegúrate de que tu forma de pensar hoy sea similar en variedad a la de ayer".

  • La analogía: Imagina que el atleta tiene un "espejo" que refleja todas las formas creativas en las que resolvió problemas ayer.
  • El objetivo: No se trata de copiar la respuesta exacta, sino de no perder la capacidad de pensar de muchas formas. Si el atleta empieza a pensar que solo hay una solución (el Rank-1, o la opción más obvia), el espejo le da un "empujón" suave para que vuelva a considerar otras opciones (Rank-2, Rank-3).
  • Resultado: El atleta sigue siendo muy inteligente, pero no se vuelve un robot aburrido. Sigue explorando caminos nuevos.

3. ¿Qué logran con esto?

En pruebas reales (resolviendo problemas de matemáticas y creando código SQL):

  • Son más rápidos: No necesitan guardar montañas de datos, ahorrando memoria de computadora.
  • Son más inteligentes: Resuelven problemas más difíciles porque no se quedan atascados en un solo método.
  • Son más creativos: Mantienen la capacidad de encontrar múltiples soluciones, no solo la primera que se les ocurre.

En resumen

DyJR es como un entrenador que sabe que la diversidad es más importante que la perfección inmediata. En lugar de llenar la cabeza del estudiante con todos sus exámenes pasados (lo cual es pesado y confuso), le enseña a recordar cómo pensaba cuando estaba lleno de ideas frescas, asegurándose de que nunca pierda su capacidad de explorar y crear.

Es un cambio de mentalidad: No se trata de repetir lo que ya sabes, sino de preservar tu capacidad de descubrir cosas nuevas.

¿Ahogado en artículos de tu campo?

Recibe resúmenes diarios de los artículos más novedosos que coincidan con tus palabras clave de investigación — con resúmenes técnicos, en tu idioma.

Probar Digest →