Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

Il paper introduce SGPO, un framework che risolve il limite di GRPO di non aggiornare la politica quando tutti i campioni di un gruppo sono errati, migliorando l'apprendimento per rinforzo nei modelli linguistici attraverso una diversificazione guidata da un modello giudice passo-passo che permette di apprendere anche dagli errori senza richiedere soluzioni corrette.

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi Lin2026-03-11🤖 cs.AI

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Language Models

Il paper presenta UltraEdit, un metodo innovativo per l'editing continuo dei modelli linguistici che, eliminando la necessità di addestramento, soggetti specifici o memoria esterna, raggiunge velocità e efficienza superiori rispetto agli stati dell'arte, permettendo di eseguire fino a 2 milioni di modifiche su modelli da 7B con risorse hardware limitate.

Xiaojie Gu, Ziying Huang, Jia-Chen Gu, Kai Zhang2026-03-11🤖 cs.AI

A Systematic Evaluation of On-Device LLMs: Quantization, Performance, and Resources

Questo studio presenta una metodologia sistematica per valutare i modelli linguistici su dispositivi edge, dimostrando che i modelli grandi fortemente quantizzati superano quelli più piccoli ad alta precisione al di sotto di una soglia di circa 3,5 bit per peso, fornendo linee guida per ottimizzare capacità ed efficienza in ambienti con risorse limitate.

Qingyu Song, Rui Liu, Wei Lin, Peiyu Liao, Wenqian Zhao, Yiwen Wang, Shoubo Hu, Yining Jiang, Mochun Long, Hui-Ling Zhen, Ning Jiang, Mingxuan Yuan, Qiao Xiang, Hong Xu2026-03-11🤖 cs.LG

SATURN: SAT-based Reinforcement Learning to Unleash LLMs Reasoning

Il paper presenta SATURN, un framework di apprendimento per rinforzo basato su problemi di soddisfacibilità booleana (SAT) che supera le limitazioni di scalabilità, verificabilità e controllo della difficoltà delle attività esistenti, permettendo di potenziare significativamente le capacità di ragionamento dei modelli linguistici su compiti matematici e di programmazione attraverso un curriculum learning progressivo.

Huanyu Liu, Ge Li, Jia Li, Hao Zhu, Kechi Zhang, Yihong Dong2026-03-11🤖 cs.AI

Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review

Questo articolo presenta la prima revisione sistematica sull'integrazione dei modelli fondazionali nell'intelligenza artificiale incarnata per i robot di servizio mobili, analizzando come tali tecnologie affrontino le sfide tecniche e abilitino applicazioni pratiche in ambiti domestici e sanitari, pur sollevando questioni etiche e prospettando direzioni future per un deployment sicuro e affidabile.

Matthew Lisondra, Beno Benhabib, Goldie Nejat2026-03-11💬 cs.CL

Semi-Supervised Conformal Prediction With Unlabeled Nonconformity Score

Il paper propone SemiCP, un nuovo paradigma di previsione conformale semi-supervisionato che utilizza un punteggio di non-conformità basato sull'abbinamento dei vicini più prossimi (NNM) per sfruttare dati non etichettati durante la calibrazione, riducendo significativamente il divario di copertura rispetto ai metodi tradizionali quando i dati etichettati sono scarsi.

Xuanning Zhou, Zihao Shi, Hao Zeng, Xiaobo Xia, Bingyi Jing, Hongxin Wei2026-03-11🤖 cs.LG

Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core

Il lavoro propone CORA, un metodo di assegnazione del credito per l'apprendimento per rinforzo multi-agente cooperativo che utilizza il nucleo della teoria dei giochi cooperativi e il campionamento casuale delle coalizioni per allocare in modo più efficace i vantaggi globali e promuovere comportamenti coordinati ottimali.

Mengda Ji, Genjiu Xu, Keke Jia, Zekun Duan, Yong Qiu, Jianjun Ge, Mingqiang Li2026-03-11🤖 cs.AI

Regret-Optimal Q-Learning with Low Cost for Single-Agent and Federated Reinforcement Learning

Questo lavoro propone due nuovi algoritmi di apprendimento per rinforzo privi di modello, Q-EarlySettled-LowCost e FedQ-EarlySettled-LowCost, che per la prima volta raggiungono simultaneamente un rimpianto quasi ottimale, costi di avvio lineari rispetto agli stati e alle azioni e costi di commutazione o comunicazione logaritmici, sia per agenti singoli che in contesti federati.

Haochen Zhang, Zhong Zheng, Lingzhou Xue2026-03-11🤖 cs.LG

Towards Robust Real-World Multivariate Time Series Forecasting: A Unified Framework for Dependency, Asynchrony, and Missingness

Il paper presenta ChannelTokenFormer, un framework basato su Transformer che affronta simultaneamente le sfide della dipendenza tra canali, del campionamento asincrono e dei valori mancanti per migliorare l'accuratezza e la robustezza delle previsioni di serie temporali multivariate in scenari reali.

Jinkwan Jang, Hyungjin Park, Jinmyeong Choi, Taesup Kim2026-03-11🤖 cs.AI

Global Convergence of Iteratively Reweighted Least Squares for Robust Subspace Recovery

Questo articolo stabilisce le prime garanzie di convergenza globale per un variante dell'algoritmo IRLS con regolarizzazione dinamica, dimostrando che esso converge linearmente al sottospazio sottostante da qualsiasi inizializzazione nel contesto del recupero robusto dei sottospazi e dell'estimazione affine, estendendo inoltre i risultati teorici all'addestramento di reti neurali a bassa dimensionalità.

Gilad Lerman, Kang Li, Tyler Maunu, Teng Zhang2026-03-11🤖 cs.LG