Global Convergence of Average Reward Constrained MDPs with Neural Critic and General Policy Parameterization

Questo lavoro propone un algoritmo attore-critico naturale primale-duale per processi decisionali di Markov vincolati a orizzonte infinito con politiche generalizzate e critici neurali, dimostrando la convergenza globale e fornendo le prime garanzie teoriche di violazione cumulativa dei vincoli in questo contesto.

Anirudh Satheesh, Pankaj Kumar Barman, Washim Uddin Mondal, Vaneet Aggarwal2026-03-10🤖 cs.LG

Deep Incentive Design with Differentiable Equilibrium Blocks

Il paper propone il Deep Incentive Design (DID), un framework differenziabile che utilizza blocchi di equilibrio differenziabili (DEB) per automatizzare la progettazione di incentivi in contesti multi-agente, risolvendo efficacemente compiti complessi come la progettazione di contratti, la schedulazione delle macchine e i problemi di equilibrio inverso attraverso un'unica rete neurale addestrata su una vasta gamma di scale e scenari.

Vinzenz Thoma, Georgios Piliouras, Luke Marris2026-03-10🤖 cs.LG

Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

Il paper presenta MicroCoder-GRPO, un approccio ottimizzato di Reinforcement Learning che risolve i colli di bottiglia nell'addestramento dei modelli di generazione del codice attraverso innovazioni tecniche e nuovi dataset, ottenendo significativi miglioramenti delle prestazioni e fornendo approfondimenti chiave per l'addestramento stabile ed efficace.

Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Lindbladian Learning with Neural Differential Equations

Questo articolo presenta un metodo basato su equazioni differenziali neurali e massimizzazione della verosimiglianza per inferire in modo robusto i generatori dinamici di sistemi quantistici aperti, riuscendo a distinguere tra meccanismi coerenti e dissipativi su diverse piattaforme hardware e modelli fisici anche in presenza di elevato rumore.

Timothy Heightman, Roman Aseguinolaza Gallo, Edward Jiang, JRM Saavedra, Antonio Acín, Marcin Płodzien2026-03-10⚛️ quant-ph

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

Il paper presenta MicroCoder, un dataset curato di problemi di programmazione competitiva recenti e difficili, ottenuto tramite un framework di elaborazione dati in quattro fasi con filtraggio automatico della difficoltà, che dimostra miglioramenti significativi nelle prestazioni dei modelli di generazione del codice su compiti complessi rispetto ai dataset esistenti.

Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Gradient Iterated Temporal-Difference Learning

Questo lavoro introduce il Gradient Iterated Temporal-Difference learning, un nuovo algoritmo che modifica l'apprendimento iterato calcolando i gradienti sui target mobili per creare un metodo TD basato sul gradiente che, pur risolvendo i problemi di divergenza, mantiene una velocità di apprendimento competitiva rispetto ai metodi semi-gradiente, come dimostrato su benchmark Atari.

Théo Vincent, Kevin Gerhardt, Yogesh Tripathi, Habib Maraqten, Adam White, Martha White, Jan Peters, Carlo D'Eramo2026-03-10🤖 cs.LG