DRA-GRPO: Your GRPO Needs to Know Diverse Reasoning Paths for Mathematical Reasoning

El artículo presenta DRA-GRPO, un marco teórico que mejora el razonamiento matemático en modelos de lenguaje mediante la calibración de recompensas basada en la diversidad semántica para evitar la colapso de políticas y lograr un rendimiento superior con datos y costos reducidos.

Xiwen Chen, Wenhui Zhu, Peijie Qiu, Xuanzhao Dong, Hao Wang, Haiyu Wu, Huayu Li, Aristeidis Sotiras, Yalin Wang, Abolfazl Razi

Publicado 2026-03-03
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que estás entrenando a un grupo de estudiantes geniales (que son nuestras Inteligencias Artificiales) para que resuelvan problemas de matemáticas muy difíciles.

Aquí te explico de qué trata este paper, DRA-GRPO, usando una analogía sencilla: El examen de matemáticas con múltiples caminos.

1. El Problema: El Profesor "Ciego"

Imagina que tienes un profesor muy estricto pero un poco distraído. Le das a 10 estudiantes el mismo problema de matemáticas.

  • El Estudiante A resuelve el problema usando un método rápido y directo, como si fuera una fórmula mágica.
  • El Estudiante B resuelve el mismo problema, pero lo hace paso a paso, explicando su lógica, corrigiendo sus propios errores en voz alta y usando un método creativo y diferente.
  • El Estudiante C hace exactamente lo mismo que el Estudiante A (copia su método).

En el sistema antiguo (llamado GRPO normal), el profesor solo mira la respuesta final. Si todos dan la respuesta correcta (por ejemplo, "42"), el profesor les da a todos la misma nota perfecta: 10 puntos.

¿Cuál es el problema?
Al darles la misma nota, el profesor no se da cuenta de que el Estudiante A y el C son idénticos (redundantes), mientras que el Estudiante B tiene un enfoque único y valioso.
Como resultado, los estudiantes aprenden que "lo que importa es solo el resultado". Pronto, todos copian al Estudiante A porque es el más rápido y fácil de imitar. El Estudiante B (el creativo) es ignorado. Esto se llama "Colapso de Modos": todos piensan igual, pierden la diversidad y se vuelven frágiles ante problemas nuevos.

2. La Solución: El Profesor "Detective" (DRA-GRPO)

Los autores de este paper proponen un nuevo sistema llamado DRA-GRPO. Imagina que este nuevo profesor es un detective que no solo mira la respuesta, sino cómo llegaron a ella.

El profesor usa una herramienta mágica (llamada SMI o Información Mutua Submodular) que actúa como un radar de originalidad.

  • Si el Estudiante A y el C llegan a la respuesta: El radar dice: "¡Oye! Estos dos son copias el uno del otro. Son redundantes". El profesor les da la nota correcta, pero les baja un poco la puntuación de "esfuerzo" porque no aportaron nada nuevo al grupo.
  • Si el Estudiante B llega a la respuesta: El radar dice: "¡Wow! Este camino es totalmente diferente a los demás. ¡Es una joya!". El profesor le da la nota correcta y le da un bono extra por su creatividad.

3. ¿Qué pasa con esto?

Al darle más importancia a las respuestas únicas y "castigar" (un poco) a las repetitivas, el sistema obliga a la Inteligencia Artificial a explorar.

  • En lugar de quedarse en el camino fácil y aburrido (el método del Estudiante A), la IA se ve "empujada" a descubrir los caminos laterales y creativos (como el del Estudiante B).
  • Es como si el profesor dijera: "No quiero que todos piensen igual. Quiero que prueben cosas nuevas, incluso si al final la respuesta es la misma".

4. El Resultado: Más Inteligencia con Menos Esfuerzo

Lo increíble de este método es que es muy eficiente.

  • Los otros sistemas necesitan miles de millones de ejemplos y mucho dinero para aprender.
  • DRA-GRPO logra resultados increíbles (superando a modelos gigantes) con solo 7,000 ejemplos y un costo muy bajo (apenas 55 dólares).

En resumen:
Este paper nos enseña que para que una IA sea realmente inteligente en matemáticas, no basta con que acierte la respuesta. Necesitamos que aprenda a pensar de muchas maneras diferentes. El método DRA-GRPO es como un entrenador que premia la creatividad y el pensamiento único, evitando que la IA se vuelva un robot repetitivo y aburrido.

La metáfora final:
Si el entrenamiento anterior era como pedirle a un coro que cantara la misma nota perfecta, DRA-GRPO es como pedirle al coro que cante una sinfonía donde cada voz aporta algo único, creando una obra de arte mucho más rica y resistente.