Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

Il paper presenta MicroCoder-GRPO, un approccio ottimizzato di Reinforcement Learning che risolve i colli di bottiglia nell'addestramento dei modelli di generazione del codice attraverso innovazioni tecniche e nuovi dataset, ottenendo significativi miglioramenti delle prestazioni e fornendo approfondimenti chiave per l'addestramento stabile ed efficace.

Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Lindbladian Learning with Neural Differential Equations

Questo articolo presenta un metodo basato su equazioni differenziali neurali e massimizzazione della verosimiglianza per inferire in modo robusto i generatori dinamici di sistemi quantistici aperti, riuscendo a distinguere tra meccanismi coerenti e dissipativi su diverse piattaforme hardware e modelli fisici anche in presenza di elevato rumore.

Timothy Heightman, Roman Aseguinolaza Gallo, Edward Jiang, JRM Saavedra, Antonio Acín, Marcin Płodzien2026-03-10⚛️ quant-ph

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

Il paper presenta MicroCoder, un dataset curato di problemi di programmazione competitiva recenti e difficili, ottenuto tramite un framework di elaborazione dati in quattro fasi con filtraggio automatico della difficoltà, che dimostra miglioramenti significativi nelle prestazioni dei modelli di generazione del codice su compiti complessi rispetto ai dataset esistenti.

Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Gradient Iterated Temporal-Difference Learning

Questo lavoro introduce il Gradient Iterated Temporal-Difference learning, un nuovo algoritmo che modifica l'apprendimento iterato calcolando i gradienti sui target mobili per creare un metodo TD basato sul gradiente che, pur risolvendo i problemi di divergenza, mantiene una velocità di apprendimento competitiva rispetto ai metodi semi-gradiente, come dimostrato su benchmark Atari.

Théo Vincent, Kevin Gerhardt, Yogesh Tripathi, Habib Maraqten, Adam White, Martha White, Jan Peters, Carlo D'Eramo2026-03-10🤖 cs.LG

An Interpretable Generative Framework for Anomaly Detection in High-Dimensional Financial Time Series

Il paper presenta ReGEN-TAD, un framework generativo interpretabile che combina previsioni congiunte e ricostruzione in un'architettura ibrida convoluzionale-transformer per rilevare anomalie e instabilità strutturali nelle serie temporali finanziarie ad alta dimensionalità senza dati etichettati, fornendo al contempo attribuzioni coerenti a livello fattoriale.

Waldyn G Martinez2026-03-10🤖 cs.LG

Viewpoint-Agnostic Grasp Pipeline using VLM and Partial Observations

Questo articolo presenta una pipeline end-to-end per la presa guidata dal linguaggio su robot mobili, che combina rilevamento open-vocabulary, completamento della nuvola di punti e criteri di sicurezza per superare le occlusioni, ottenendo un tasso di successo del 90% in ambienti disordinati rispetto al 30% di un metodo basato sulla vista dipendente.

Dilermando Almeida, Juliano Negri, Guilherme Lazzarini, Thiago H. Segreto, Ranulfo Bezerra, Ricardo V. Godoy, Marcelo Becker2026-03-10🤖 cs.LG