cs.LG articoli | Gist.Science

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

Il paper presenta EDU-PRM, un modello di ricompensa per processi basato sull'entropia che segmenta automaticamente i passaggi di ragionamento complesso senza annotazioni manuali, ottenendo prestazioni superiori su ProcessBench con solo l'1,5% dei dati di addestramento e riducendo significativamente l'uso di token.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong Li2026-03-10🤖 cs.LG

Enhancing Metabolic Syndrome Prediction with Hybrid Data Balancing and Counterfactuals

Questo studio propone un framework ibrido innovativo, denominato MetaBoost, che integra tecniche di bilanciamento dei dati e analisi controfattuali per migliorare l'accuratezza della previsione della Sindrome Metabolica e identificare i fattori di rischio modificabili più critici, come la glicemia e i trigliceridi.

Sanyam Paresh Shah, Abdullah Mamun, Shovito Barua Soumma + 1 more2026-03-10🤖 cs.AI

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

Questo studio dimostra che l'uso di modelli linguistici di grandi dimensioni (LLM) per estrarre caratteristiche cognitive e linguistiche, successivamente elaborate da algoritmi di apprendimento automatico basati su alberi decisionali, consente di stimare con maggiore precisione la difficoltà degli item nei test scolastici rispetto alla valutazione diretta, offrendo un'alternativa efficiente e scalabile ai costosi test sul campo.

Pooya Razavi, Sonya Powers2026-03-10🤖 cs.LG

A Champion-level Vision-based Reinforcement Learning Agent for Competitive Racing in Gran Turismo 7

Questo lavoro presenta il primo agente di guida autonoma basato sulla visione che, utilizzando esclusivamente dati visivi e sensoriali a bordo senza bisogno di localizzazione precisa, raggiunge prestazioni da campione nel gioco Gran Turismo 7 grazie a un framework attore-critico asimmetrico.

Hojoon Lee, Takuma Seno, Jun Jet Tai, Kaushik Subramanian, Kenta Kawamoto, Peter Stone, Peter R. Wurman2026-03-10🤖 cs.LG

Structural Inference: Interpreting Small Language Models with Susceptibilities

Il paper propone un quadro di risposta lineare per l'interpretabilità dei piccoli modelli linguistici, trattandoli come sistemi statistici meccanici bayesiani per identificare moduli funzionali tramite l'analisi delle suscettibilità indotte da perturbazioni nella distribuzione dei dati.

Garrett Baker, George Wang, Jesse Hoogland, Daniel Murfet2026-03-10🤖 cs.LG

Learning to Rank Critical Road Segments via Heterogeneous Graphs with Origin-Destination Flow Integration

Il paper propone HetGL2R, un framework di apprendimento basato su grafi eterogenei che integra flussi origine-destinazione e informazioni sui percorsi per migliorare il ranking dell'importanza dei segmenti stradali, superando i limiti dei metodi esistenti nel modellare dipendenze spaziali a lungo raggio.

Ming Xu, Jinrong Xiang, Zilong Xie + 1 more2026-03-10🤖 cs.LG

From LLM Reasoning to Autonomous AI Agents: A Comprehensive Review

Questo articolo presenta una revisione completa che unifica la valutazione di modelli e agenti AI autonomi attraverso una tassonomia di circa 60 benchmark, esamina framework e protocolli di collaborazione, illustra applicazioni reali in vari settori e propone raccomandazioni per la ricerca futura.

Mohamed Amine Ferrag, Norbert Tihanyi, Merouane Debbah2026-03-10🤖 cs.LG

StablePCA: Distributionally Robust Learning of Shared Representations from Multi-Source Data

Il paper introduce StablePCA, un framework di apprendimento robusto rispetto alla distribuzione che risolve il problema non convesso dell'estrazione di rappresentazioni latenti condivise da dati multi-sorgente tramite una rilassazione convessa risolta con un algoritmo Mirror-Prox, fornendo garanzie di convergenza globale e condizioni per la precisione della rilassazione.

Zhenyu Wang, Molei Liu, Jing Lei, Francis Bach, Zijian Guo2026-03-10🤖 cs.LG

Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data

Questo articolo propone un framework di ottimizzazione delle politiche offline personalizzate per processi decisionali di Markov eterogenei, introducendo l'algoritmo P4L che garantisce una rapida convergenza del rimpianto e supera le prestazioni dei metodi esistenti sia in simulazioni che su dati reali.

Rui Miao, Babak Shahbaba, Annie Qu2026-03-10🤖 cs.LG

Distilled Circuits: A Mechanistic Study of Internal Restructuring in Knowledge Distillation

Questo studio applica l'interpretabilità meccanicistica per dimostrare che la distillazione della conoscenza, pur preservando il comportamento funzionale, induce una significativa riorganizzazione interna nei modelli studenti, che comprimono e scartano componenti del modello insegnante affidandosi a un numero ridotto di unità attivate.

Reilly Haskins, Benjamin Adams2026-03-10🤖 cs.LG

Ready2Unlearn: A Learning-Time Approach for Preparing Models with Future Unlearning Readiness

Il paper introduce Ready2Unlearn, un approccio proattivo che ottimizza la fase di addestramento dei modelli per prepararli a future richieste di cancellazione dei dati, rendendo il processo di machine unlearning più efficiente e fondato su principi solidi.

Hanyu Duan, Yi Yang, Ahmed Abbasi, Kar Yan Tam2026-03-10🤖 cs.LG

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

Il paper presenta EgoDex, il più ampio e diversificato dataset esistente di manipolazione abile umana registrato con Apple Vision Pro, che offre 829 ore di video egocentrici con annotazioni 3D delle mani per affrontare la scarsità di dati nell'apprendimento per imitazione e promuovere i progressi nella robotica e nella visione artificiale.

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian Zhang2026-03-10🤖 cs.LG

FreeKV: Boosting KV Cache Retrieval for Efficient LLM Inference

Il paper presenta FreeKV, un framework di co-ottimizzazione algoritmo-sistema privo di addestramento che migliora l'efficienza del recupero della cache KV mantenendo un'accuratezza quasi perfetta e ottenendo fino a 13 volte di velocità rispetto ai metodi esistenti.

Guangda Liu, Chengwei Li, Zhenyu Ning, Jing Lin, Yiwu Yao, Danning Ke, Minyi Guo, Jieru Zhao2026-03-10🤖 cs.LG

Online Decision-Focused Learning

Il paper propone due nuovi algoritmi online per l'apprendimento decisionale focalizzato (DFL) in ambienti dinamici, che superano le sfide della non differenziabilità e non convessità attraverso regolarizzazione e tecniche di perturbazione, garantendo per la prima volta limiti di rimedio statici e dinamici e dimostrando prestazioni superiori in esperimenti pratici.

Aymeric Capitaine, Maxime Haddouche, Eric Moulines, Michael I. Jordan, Etienne Boursier, Alain Durmus2026-03-10🤖 cs.LG

Vid2World: Crafting Video Diffusion Models to Interactive World Models

Il paper presenta Vid2World, un approccio generale che trasforma modelli di diffusione video pre-addestrati in modelli del mondo interattivi ad alta fedeltà, permettendo una generazione autoregressiva e un controllo efficace delle azioni attraverso la causalizzazione dell'architettura e una guida causale.

Siqiao Huang, Jialong Wu, Qixing Zhou, Shangchen Miao, Mingsheng Long2026-03-10🤖 cs.LG

MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision

Il paper introduce MAS-ZERO, il primo framework di auto-evoluzione che progetta sistemi multi-agente senza supervisione esterna, adattando dinamicamente ruoli e protocolli durante l'inferenza per ottenere prestazioni superiori rispetto ai metodi manuali e automatici esistenti.

Zixuan Ke, Austin Xu, Yifei Ming, Xuan-Phi Nguyen, Ryan Chin, Caiming Xiong, Shafiq Joty2026-03-10🤖 cs.LG

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

Il paper presenta HDLxGraph, un nuovo framework che integra le caratteristiche grafiche intrinseche dei linguaggi HDL (tramite AST e DFG) nei sistemi RAG per migliorare significativamente le prestazioni di ricerca, debug e completamento del codice rispetto agli approcci basati sulla similarità semantica, supportato dal nuovo benchmark HDLSearch.

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), Zhao2026-03-10🤖 cs.LG

WikiDBGraph: A Data Management Benchmark Suite for Collaborative Learning over Database Silos

Il paper presenta WikiDBGraph, un nuovo benchmark su larga scala derivato da 100.000 database relazionali reali che evidenzia le limitazioni delle attuali tecniche di apprendimento collaborativo nel gestire silos di dati frammentati e non allineati, proponendo una valutazione più realistica dell'intero ciclo di gestione dei dati.

Zhaomin Wu, Ziyang Wang, Bingsheng He2026-03-10🤖 cs.LG

The Cell Must Go On: Agar.io for Continual Reinforcement Learning

Il paper introduce AgarCL, una piattaforma di ricerca basata sul gioco Agar.io per l'apprendimento per rinforzo continuo, che offre un ambiente non episodico e dinamico per valutare algoritmi standard e metodi di apprendimento continuo, rivelando che le sfide poste dall'ambiente vanno oltre il classico dilemma stabilità-plasticità.

Mohamed A. Mohamed, Kateryna Nekhomiazh, Vedant Vyas, Marcos M. Jose, Andrew Patterson, Marlos C. Machado2026-03-10🤖 cs.LG

X-MethaneWet: A Cross-scale Global Wetland Methane Emission Benchmark Dataset for Advancing Science Discovery with AI

Questo lavoro presenta X-MethaneWet, il primo dataset di benchmark globale cross-scala per le emissioni di metano dalle zone umide, che integra dati di simulazione e osservazioni reali per valutare modelli di deep learning e tecniche di transfer learning al fine di migliorare la previsione dei flussi di metano e lo sviluppo di modelli climatici basati sull'intelligenza artificiale.

Yiming Sun, Shuo Chen, Shengyu Chen, Chonghao Qiu, Licheng Liu, Youmi Oh, Sparkle L. Malone, Gavin McNicol, Qianlai Zhuang, Chris Smith, Yiqun Xie, Xiaowei Jia2026-03-10🤖 cs.LG

← Precedente Successivo →