More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

Il paper presenta EDU-PRM, un modello di ricompensa per processi basato sull'entropia che segmenta automaticamente i passaggi di ragionamento complesso senza annotazioni manuali, ottenendo prestazioni superiori su ProcessBench con solo l'1,5% dei dati di addestramento e riducendo significativamente l'uso di token.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong Li2026-03-10🤖 cs.LG

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

Questo studio dimostra che l'uso di modelli linguistici di grandi dimensioni (LLM) per estrarre caratteristiche cognitive e linguistiche, successivamente elaborate da algoritmi di apprendimento automatico basati su alberi decisionali, consente di stimare con maggiore precisione la difficoltà degli item nei test scolastici rispetto alla valutazione diretta, offrendo un'alternativa efficiente e scalabile ai costosi test sul campo.

Pooya Razavi, Sonya Powers2026-03-10🤖 cs.LG

A Champion-level Vision-based Reinforcement Learning Agent for Competitive Racing in Gran Turismo 7

Questo lavoro presenta il primo agente di guida autonoma basato sulla visione che, utilizzando esclusivamente dati visivi e sensoriali a bordo senza bisogno di localizzazione precisa, raggiunge prestazioni da campione nel gioco Gran Turismo 7 grazie a un framework attore-critico asimmetrico.

Hojoon Lee, Takuma Seno, Jun Jet Tai, Kaushik Subramanian, Kenta Kawamoto, Peter Stone, Peter R. Wurman2026-03-10🤖 cs.LG

StablePCA: Distributionally Robust Learning of Shared Representations from Multi-Source Data

Il paper introduce StablePCA, un framework di apprendimento robusto rispetto alla distribuzione che risolve il problema non convesso dell'estrazione di rappresentazioni latenti condivise da dati multi-sorgente tramite una rilassazione convessa risolta con un algoritmo Mirror-Prox, fornendo garanzie di convergenza globale e condizioni per la precisione della rilassazione.

Zhenyu Wang, Molei Liu, Jing Lei, Francis Bach, Zijian Guo2026-03-10🤖 cs.LG

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

Il paper presenta EgoDex, il più ampio e diversificato dataset esistente di manipolazione abile umana registrato con Apple Vision Pro, che offre 829 ore di video egocentrici con annotazioni 3D delle mani per affrontare la scarsità di dati nell'apprendimento per imitazione e promuovere i progressi nella robotica e nella visione artificiale.

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian Zhang2026-03-10🤖 cs.LG

Online Decision-Focused Learning

Il paper propone due nuovi algoritmi online per l'apprendimento decisionale focalizzato (DFL) in ambienti dinamici, che superano le sfide della non differenziabilità e non convessità attraverso regolarizzazione e tecniche di perturbazione, garantendo per la prima volta limiti di rimedio statici e dinamici e dimostrando prestazioni superiori in esperimenti pratici.

Aymeric Capitaine, Maxime Haddouche, Eric Moulines, Michael I. Jordan, Etienne Boursier, Alain Durmus2026-03-10🤖 cs.LG

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

Il paper presenta HDLxGraph, un nuovo framework che integra le caratteristiche grafiche intrinseche dei linguaggi HDL (tramite AST e DFG) nei sistemi RAG per migliorare significativamente le prestazioni di ricerca, debug e completamento del codice rispetto agli approcci basati sulla similarità semantica, supportato dal nuovo benchmark HDLSearch.

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), Zhao2026-03-10🤖 cs.LG

The Cell Must Go On: Agar.io for Continual Reinforcement Learning

Il paper introduce AgarCL, una piattaforma di ricerca basata sul gioco Agar.io per l'apprendimento per rinforzo continuo, che offre un ambiente non episodico e dinamico per valutare algoritmi standard e metodi di apprendimento continuo, rivelando che le sfide poste dall'ambiente vanno oltre il classico dilemma stabilità-plasticità.

Mohamed A. Mohamed, Kateryna Nekhomiazh, Vedant Vyas, Marcos M. Jose, Andrew Patterson, Marlos C. Machado2026-03-10🤖 cs.LG

X-MethaneWet: A Cross-scale Global Wetland Methane Emission Benchmark Dataset for Advancing Science Discovery with AI

Questo lavoro presenta X-MethaneWet, il primo dataset di benchmark globale cross-scala per le emissioni di metano dalle zone umide, che integra dati di simulazione e osservazioni reali per valutare modelli di deep learning e tecniche di transfer learning al fine di migliorare la previsione dei flussi di metano e lo sviluppo di modelli climatici basati sull'intelligenza artificiale.

Yiming Sun, Shuo Chen, Shengyu Chen, Chonghao Qiu, Licheng Liu, Youmi Oh, Sparkle L. Malone, Gavin McNicol, Qianlai Zhuang, Chris Smith, Yiqun Xie, Xiaowei Jia2026-03-10🤖 cs.LG