Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

Dit paper introduceert MicroCoder-GRPO, een verbeterde RL-methode met innovaties zoals conditionele truncatie en diversiteitsgestuurde temperatuurkeuze, samen met een uitdagender dataset en robuustere evaluatie, die trainingsbottlenecks voor coderingsmodellen effectief oplost en aanzienlijke prestatieverbeteringen op LiveCodeBench v6 oplevert.

Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu WeiTue, 10 Ma🤖 cs.LG

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

Dit paper introduceert MicroCoder, een zorgvuldig samengesteld dataset van recente en uitdagende programmeerproblemen die via een geautomatiseerd vierstapsverwerkingsframework is gefilterd op moeilijkheidsgraad, en waaruit blijkt dat het trainen van coderingsmodellen hierop leidt tot aanzienlijk betere prestaties op complexe taken vergeleken met bestaande datasets.

Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu WeiTue, 10 Ma🤖 cs.LG