DRA-GRPO: Your GRPO Needs to Know Diverse Reasoning Paths for Mathematical Reasoning
El artículo presenta DRA-GRPO, un marco teórico que mejora el razonamiento matemático en modelos de lenguaje mediante la calibración de recompensas basada en la diversidad semántica para evitar la colapso de políticas y lograr un rendimiento superior con datos y costos reducidos.