cs.AI articoli | Gist.Science

To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models

Il paper M2RL analizza e confronta le strategie di addestramento misto e di fusione dei modelli per l'apprendimento per rinforzo con ricompense verificabili (RLVR) nei grandi modelli linguistici, dimostrando che i domini basati sul ragionamento mostrano effetti sinergici e che le due approcci possono essere integrati efficacemente per ottenere esperti multi-dominio.

Haoqing Wang, Xiang Long, Ziheng Li, Yilong Xu, Tingguang Li, Yehui Tang2026-03-10💻 cs

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

Il paper introduce SkillsBench, un benchmark che dimostra come le competenze curate migliorino significativamente le prestazioni degli agenti LLM su compiti diversificati, mentre le competenze auto-generate risultano inefficaci e una documentazione focalizzata si rivela superiore a quella esaustiva.

Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Binxu Li, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee2026-03-10💻 cs

A Geometric Taxonomy of Hallucinations in LLMs

Questo lavoro propone una tassonomia geometrica delle allucinazioni nei LLM, classificandole in tre tipi distinti e introducendo gli indici SGI e DGI per rilevarle, mentre evidenzia come le limitazioni metodologiche nei benchmark esistenti possano mascherare la vera natura degli errori fattuali.

Javier Marín2026-03-10💬 cs.CL

TrasMuon: Trust-Region Adaptive Scaling for Orthogonalized Momentum Optimizers

Il paper presenta TrasMuon, un ottimizzatore che combina la geometria ortogonale dei metodi Muon con una calibrazione globale e un clipping basato su regioni di fiducia per stabilizzare l'addestramento e accelerare la convergenza, eliminando la necessità di fasi di warmup.

Peng Cheng, Jiucheng Zang, Qingnan Li, Liheng Ma, Yufei Cui, Yingxue Zhang, Boxing Chen, Ming Jian, Wen Tong2026-03-10🤖 cs.LG

Can a Lightweight Automated AI Pipeline Solve Research-Level Mathematical Problems?

Questo lavoro dimostra che un pipeline automatizzato leggero, integrato con modelli linguistici di nuova generazione e ottimizzato per la verifica tramite citazioni, è in grado di risolvere problemi matematici di livello di ricerca avanzato, generando prove verificate per dataset come l'ICCM e il "First Proof".

Lve Meng (University of Science,Technology of China, Zhongguancun Academy), Weilong Zhao (Université Paris Cité), Yanzhi Zhang (Zhongguancun Academy), Haoxiang Guan (Zhongguancun Academy), Jiyan He (Zhongguancun Academy)2026-03-10🔢 math

Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation

Il paper propone la "Mean Velocity Policy" (MVP), una nuova funzione di politica generativa che, tramite un vincolo di velocità istantanea, permette la generazione di azioni in un singolo passo mantenendo alta espressività e superando le prestazioni e la velocità delle politiche basate su flussi esistenti in compiti di manipolazione robotica.

Guojian Zhan, Letian Tao, Pengcheng Wang, Yixiao Wang, Yiheng Li, Yuxin Chen, Hongyang Li, Masayoshi Tomizuka, Shengbo Eben Li2026-03-10🤖 cs.LG

Pawsterior: Variational Flow Matching for Structured Simulation-Based Inference

Il paper presenta Pawsterior, un framework di variational flow matching che migliora l'inferenza basata su simulazioni gestendo sia vincoli geometrici strutturati che strutture latenti discrete, risolvendo così le limitazioni dei metodi tradizionali.

Jorge Carrasco-Pollo, Floor Eijkelboom, Jan-Willem van de Meent2026-03-10🤖 cs.LG

Explainable Token-level Noise Filtering for LLM Fine-tuning Datasets

Il paper propone XTF, un framework di filtraggio del rumore a livello di token che migliora significativamente le prestazioni del fine-tuning dei LLM decomponendo i contributi dei dati in attributi espliciti e mascherando i gradienti dei token rumorosi.

Yuchen Yang, Wenze Lin, Enhao Huang, Zhixuan Chu, Hongbin Zhou, Lan Tao, Yiming Li, Zhan Qin, Kui Ren2026-03-10💬 cs.CL

LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio

Il paper presenta LongAudio-RAG, un framework ibrido che risolve il problema della risposta a domande su audio di lunga durata convertendo i flussi audio in eventi acustici strutturati e recuperabili tramite SQL, permettendo così a un LLM di generare risposte precise con grounding temporale e ridotte allucinazioni, anche in un'architettura edge-cloud.

Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik Visser2026-03-10🤖 cs.LG

Understand Then Memory: A Cognitive Gist-Driven RAG Framework with Global Semantic Diffusion

Il paper presenta CogitoRAG, un framework RAG ispirato alla memoria episodica umana che, attraverso l'estrazione di "gist" semantici, la costruzione di un grafo della conoscenza multidimensionale e un meccanismo di diffusione semantica globale, supera i limiti delle rappresentazioni testuali discrete per migliorare significativamente l'integrazione della conoscenza e il ragionamento rispetto ai metodi RAG esistenti.

Pengcheng Zhou, Haochen Li, Zhiqiang Nie, JiaLe Chen, Qing Gong, Weizhen Zhang, Chun Yu2026-03-10💬 cs.CL

Condition-Gated Reasoning for Context-Dependent Biomedical Question Answering

Il paper introduce CondMedQA, il primo benchmark per la risposta condizionata alle domande biomediche, e CGR, un nuovo framework che migliora il ragionamento medico modellando esplicitamente le condizioni specifiche del paziente per selezionare le conoscenze appropriate.

Jash Rajesh Parekh, Wonbin Kweon, Joey Chan, Rezarta Islamaj, Robert Leaman, Pengcheng Jiang, Chih-Hsuan Wei, Zhizheng Wang, Zhiyong Lu, Jiawei Han2026-03-10💬 cs.CL

Conformal Tradeoffs: Guarantees Beyond Coverage

Questo lavoro propone un quadro operativo per i predittori conformali che, andando oltre la semplice copertura marginale, garantisce limiti finiti su metriche critiche come la frequenza di decisione e l'esposizione agli errori attraverso correzioni statistiche per piccoli campioni, audit indipendenti e una caratterizzazione geometrica dei compromessi tra le diverse prestazioni operative.

Petrus H. Zwart2026-03-10🤖 cs.LG

ABD: Default Exception Abduction in Finite First Order Worlds

Il paper introduce ABD, un benchmark per valutare la capacità dei modelli linguistici di generare formule logiche di prima ordine che definiscono eccezioni sparsamente in mondi finiti, evidenziando attraverso l'analisi di dieci modelli all'avanguardia su 600 istanze che, sebbene ottengano alta validità, persistono significative lacune nella parsimonia e modalità di fallimento nella generalizzazione.

Serafim Batzoglou2026-03-10✓ Author reviewed ⓘ💻 cs

INDUCTION: Finite-Structure Concept Synthesis in First-Order Logic

Il paper introduce INDUCTION, un benchmark per la sintesi di concetti in logica del primo ordine su strutture finite, che valuta la capacità dei modelli di generare formule logiche concise e generalizzabili attraverso tre diversi regimi di verifica.

Serafim Batzoglou2026-03-10💻 cs

Characterizing MARL for Energy Control: A Multi-KPI Benchmark on the CityLearn Environment

Questo lavoro stabilisce un nuovo standard di benchmarking per l'Apprendimento per Rinforzo Multi-Agente (MARL) nella gestione energetica urbana utilizzando l'ambiente CityLearn, dimostrando che le strategie decentralizzate (DTDE) superano quelle centralizzate (CTDE) e proponendo nuove metriche per valutare la sostenibilità e la resilienza dei sistemi.

Aymen Khouja, Imen Jendoubi, Oumayma Mahjoub, Oussama Mahfoudhi, Ruan De Kock, Siddarth Singh, Claude Formanek2026-03-10🤖 cs.LG

MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation

Il paper introduce MrBERT, una famiglia di encoder multilingue basata sull'architettura ModernBERT e pre-addestrata su 35 lingue, che combina prestazioni di punta in domini specifici e linguaggi locali con l'efficienza operativa grazie all'apprendimento di rappresentazioni Matryoshka (MRL).

Daniel Tamayo, Iñaki Lacunza, Paula Rivera-Hidalgo, Severino Da Dalt, Javier Aula-Blasco, Aitor Gonzalez-Agirre, Marta Villegas2026-03-10🤖 cs.LG

ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

Il paper introduce ARLArena, un framework unificato per analizzare la stabilità dell'apprendimento per rinforzo agenziale, e propone SAMPO, un metodo di ottimizzazione che garantisce un addestramento stabile e performante per agenti basati su LLM.

Xiaoxuan Wang, Han Zhang, Haixin Wang, Yidan Shi, Ruoyan Li, Kaiqiao Han, Chenyi Tong, Haoran Deng, Renliang Sun, Alexander Taylor, Yanqiao Zhu, Jason Cong, Yizhou Sun, Wei Wang2026-03-10💻 cs

CryoNet.Refine: A One-step Diffusion Model for Rapid Refinement of Structural Models with Cryo-EM Density Map Restraints

Il paper presenta CryoNet.Refine, un modello di diffusione deep learning a un singolo passaggio che automatizza e accelera il raffinamento dei modelli strutturali in mappe di densità Cryo-EM, superando i metodi tradizionali in termini di velocità e qualità geometrica.

Fuyao Huang, Xiaozhu Yu, Kui Xu, Qiangfeng Cliff Zhang2026-03-10💻 cs

Vibe Researching as Wolf Coming: Can AI Agents with Skills Replace or Augment Social Scientists?

Questo articolo esplora come gli agenti AI, attraverso il concetto di "vibe researching" e un framework cognitivo che delinea i limiti tra compiti codificabili e conoscenza tacita, possano potenziare ma non sostituire i ricercatori sociali, sollevando al contempo questioni critiche riguardo alla stratificazione professionale e alla crisi pedagogica.

Yongjun Zhang2026-03-10💻 cs

A Mathematical Theory of Agency and Intelligence

Il paper introduce la "bipredicibilità" come misura fondamentale per distinguere l'agenzia dalla vera intelligenza, dimostrando che i sistemi AI attuali possiedono la prima ma non la seconda, e propone un'architettura di feedback ispirata alla biologia per monitorare e ripristinare l'efficacia dell'apprendimento adattivo.

Wael Hafez, Chenan Wei, Rodrigo Pena, Amir Nazeri, Cameron Reid2026-03-10🔢 math

← Precedente Successivo →