Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

Dit paper introduceert MicroCoder-GRPO, een verbeterde RL-methode met innovaties zoals conditionele truncatie en diversiteitsgestuurde temperatuurkeuze, samen met een uitdagender dataset en robuustere evaluatie, die trainingsbottlenecks voor coderingsmodellen effectief oplost en aanzienlijke prestatieverbeteringen op LiveCodeBench v6 oplevert.

Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

Dit paper introduceert MicroCoder, een zorgvuldig samengesteld dataset van recente en uitdagende programmeerproblemen die via een geautomatiseerd vierstapsverwerkingsframework is gefilterd op moeilijkheidsgraad, en waaruit blijkt dat het trainen van coderingsmodellen hierop leidt tot aanzienlijk betere prestaties op complexe taken vergeleken met bestaande datasets.

Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Gradient Iterated Temporal-Difference Learning

Dit paper introduceert Gradient Iterated Temporal-Difference learning, een nieuw algoritme dat de stabiliteit van gradient TD-methoden verbetert door de gradiënten over bewegende doelen te berekenen, waardoor het voor het eerst een concurrerende leersnelheid bereikt ten opzichte van semi-gradiënt-methoden op benchmarks zoals Atari-games.

Théo Vincent, Kevin Gerhardt, Yogesh Tripathi, Habib Maraqten, Adam White, Martha White, Jan Peters, Carlo D'Eramo2026-03-10🤖 cs.LG

Viewpoint-Agnostic Grasp Pipeline using VLM and Partial Observations

Deze paper presenteert een robuuste, viewpoint-agnostische grijppijplijn voor mobiele benige manipulators die, door gebruik te maken van visuele taalmodellen en gedeeltelijke waarnemingen, taalgestuurde grijpacties in verwarde omgevingen mogelijk maakt met een succespercentage van 90%, aanzienlijk beter dan een bestaande view-dependent baseline.

Dilermando Almeida, Juliano Negri, Guilherme Lazzarini, Thiago H. Segreto, Ranulfo Bezerra, Ricardo V. Godoy, Marcelo Becker2026-03-10🤖 cs.LG