To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models

Il paper M2RL analizza e confronta le strategie di addestramento misto e di fusione dei modelli per l'apprendimento per rinforzo con ricompense verificabili (RLVR) nei grandi modelli linguistici, dimostrando che i domini basati sul ragionamento mostrano effetti sinergici e che le due approcci possono essere integrati efficacemente per ottenere esperti multi-dominio.

Haoqing Wang, Xiang Long, Ziheng Li, Yilong Xu, Tingguang Li, Yehui Tang2026-03-10💻 cs

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

Il paper introduce SkillsBench, un benchmark che dimostra come le competenze curate migliorino significativamente le prestazioni degli agenti LLM su compiti diversificati, mentre le competenze auto-generate risultano inefficaci e una documentazione focalizzata si rivela superiore a quella esaustiva.

Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Binxu Li, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee2026-03-10💻 cs

Can a Lightweight Automated AI Pipeline Solve Research-Level Mathematical Problems?

Questo lavoro dimostra che un pipeline automatizzato leggero, integrato con modelli linguistici di nuova generazione e ottimizzato per la verifica tramite citazioni, è in grado di risolvere problemi matematici di livello di ricerca avanzato, generando prove verificate per dataset come l'ICCM e il "First Proof".

Lve Meng (University of Science,Technology of China, Zhongguancun Academy), Weilong Zhao (Université Paris Cité), Yanzhi Zhang (Zhongguancun Academy), Haoxiang Guan (Zhongguancun Academy), Jiyan He (Zhongguancun Academy)2026-03-10🔢 math

Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation

Il paper propone la "Mean Velocity Policy" (MVP), una nuova funzione di politica generativa che, tramite un vincolo di velocità istantanea, permette la generazione di azioni in un singolo passo mantenendo alta espressività e superando le prestazioni e la velocità delle politiche basate su flussi esistenti in compiti di manipolazione robotica.

Guojian Zhan, Letian Tao, Pengcheng Wang, Yixiao Wang, Yiheng Li, Yuxin Chen, Hongyang Li, Masayoshi Tomizuka, Shengbo Eben Li2026-03-10🤖 cs.LG

LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio

Il paper presenta LongAudio-RAG, un framework ibrido che risolve il problema della risposta a domande su audio di lunga durata convertendo i flussi audio in eventi acustici strutturati e recuperabili tramite SQL, permettendo così a un LLM di generare risposte precise con grounding temporale e ridotte allucinazioni, anche in un'architettura edge-cloud.

Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik Visser2026-03-10🤖 cs.LG

Understand Then Memory: A Cognitive Gist-Driven RAG Framework with Global Semantic Diffusion

Il paper presenta CogitoRAG, un framework RAG ispirato alla memoria episodica umana che, attraverso l'estrazione di "gist" semantici, la costruzione di un grafo della conoscenza multidimensionale e un meccanismo di diffusione semantica globale, supera i limiti delle rappresentazioni testuali discrete per migliorare significativamente l'integrazione della conoscenza e il ragionamento rispetto ai metodi RAG esistenti.

Pengcheng Zhou, Haochen Li, Zhiqiang Nie, JiaLe Chen, Qing Gong, Weizhen Zhang, Chun Yu2026-03-10💬 cs.CL

Condition-Gated Reasoning for Context-Dependent Biomedical Question Answering

Il paper introduce CondMedQA, il primo benchmark per la risposta condizionata alle domande biomediche, e CGR, un nuovo framework che migliora il ragionamento medico modellando esplicitamente le condizioni specifiche del paziente per selezionare le conoscenze appropriate.

Jash Rajesh Parekh, Wonbin Kweon, Joey Chan, Rezarta Islamaj, Robert Leaman, Pengcheng Jiang, Chih-Hsuan Wei, Zhizheng Wang, Zhiyong Lu, Jiawei Han2026-03-10💬 cs.CL

ABD: Default Exception Abduction in Finite First Order Worlds

Il paper introduce ABD, un benchmark per valutare la capacità dei modelli linguistici di generare formule logiche di prima ordine che definiscono eccezioni sparsamente in mondi finiti, evidenziando attraverso l'analisi di dieci modelli all'avanguardia su 600 istanze che, sebbene ottengano alta validità, persistono significative lacune nella parsimonia e modalità di fallimento nella generalizzazione.

Serafim Batzoglou2026-03-10✓ Author reviewed 💻 cs

Characterizing MARL for Energy Control: A Multi-KPI Benchmark on the CityLearn Environment

Questo lavoro stabilisce un nuovo standard di benchmarking per l'Apprendimento per Rinforzo Multi-Agente (MARL) nella gestione energetica urbana utilizzando l'ambiente CityLearn, dimostrando che le strategie decentralizzate (DTDE) superano quelle centralizzate (CTDE) e proponendo nuove metriche per valutare la sostenibilità e la resilienza dei sistemi.

Aymen Khouja, Imen Jendoubi, Oumayma Mahjoub, Oussama Mahfoudhi, Ruan De Kock, Siddarth Singh, Claude Formanek2026-03-10🤖 cs.LG

MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation

Il paper introduce MrBERT, una famiglia di encoder multilingue basata sull'architettura ModernBERT e pre-addestrata su 35 lingue, che combina prestazioni di punta in domini specifici e linguaggi locali con l'efficienza operativa grazie all'apprendimento di rappresentazioni Matryoshka (MRL).

Daniel Tamayo, Iñaki Lacunza, Paula Rivera-Hidalgo, Severino Da Dalt, Javier Aula-Blasco, Aitor Gonzalez-Agirre, Marta Villegas2026-03-10🤖 cs.LG

ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

Il paper introduce ARLArena, un framework unificato per analizzare la stabilità dell'apprendimento per rinforzo agenziale, e propone SAMPO, un metodo di ottimizzazione che garantisce un addestramento stabile e performante per agenti basati su LLM.

Xiaoxuan Wang, Han Zhang, Haixin Wang, Yidan Shi, Ruoyan Li, Kaiqiao Han, Chenyi Tong, Haoran Deng, Renliang Sun, Alexander Taylor, Yanqiao Zhu, Jason Cong, Yizhou Sun, Wei Wang2026-03-10💻 cs