Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

El artículo presenta MicroCoder-GRPO, un enfoque optimizado de RL con innovaciones como enmascaramiento de truncamiento condicional y selección de temperatura basada en diversidad, junto con un nuevo corpus de entrenamiento y un evaluador más preciso, logrando mejoras significativas en modelos de generación de código y revelando 34 hallazgos clave para superar los cuellos de botella en el entrenamiento.

Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu WeiTue, 10 Ma🤖 cs.LG

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

El artículo presenta MicroCoder, un conjunto de datos de programación competitiva curado mediante un marco de procesamiento de cuatro etapas y filtrado automático de dificultad, que demuestra mejoras significativas en el rendimiento de modelos de código al entrenarse con problemas frescos y desafiantes.

Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu WeiTue, 10 Ma🤖 cs.LG