VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Il paper presenta VSSFlow, un framework unificato basato sul flusso di matching che risolve congiuntamente la generazione di suoni e parlato condizionata dal video, superando le prestazioni dei modelli specifici per dominio grazie a un meccanismo di aggregazione delle condizioni disaccoppiato e all'apprendimento congiunto.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua Song2026-03-11🤖 cs.AI

DRBench: A Realistic Benchmark for Enterprise Deep Research

Il documento presenta DRBench, un nuovo benchmark realistico progettato per valutare le prestazioni degli agenti di intelligenza artificiale in compiti di ricerca approfondita complessi e aperti all'interno di contesti aziendali, integrando dati pubblici e privati attraverso un processo di sintesi verificato da umani.

Amirhossein Abaskohi, Tianyi Chen, Miguel Muñoz-Mármol, Curtis Fox, Amrutha Varshini Ramesh, Étienne Marcotte, Xing Han Lù, Nicolas Chapados, Spandana Gella, Peter West, Giuseppe Carenini, Christopher Pal, Alexandre Drouin, Issam H. Laradji2026-03-11💬 cs.CL

Latent Speech-Text Transformer

Il paper introduce il Latent Speech-Text Transformer (LST), un modello che migliora l'efficienza computazionale e le prestazioni di comprensione e generazione sia vocale che testuale aggregando i token vocali in patch latenti, riducendo così la lunghezza delle sequenze e bilanciando l'elaborazione tra le due modalità.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc Le2026-03-11🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

Il paper presenta AlphaApollo, un sistema di ragionamento agentic che affronta le limitazioni nella risoluzione di problemi complessi e nell'evoluzione affidabile dei modelli fondazione attraverso tre componenti chiave: ragionamento multi-turno, apprendimento multi-turno e evoluzione multi-round, dimostrando significativi miglioramenti delle prestazioni su vari benchmark matematici.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo Han2026-03-11🤖 cs.AI

Automatic Paper Reviewing with Heterogeneous Graph Reasoning over LLM-Simulated Reviewer-Author Debates

Il paper propone ReViewGraph, un nuovo framework che supera i limiti dei metodi di revisione esistenti simulando dibattiti tra autori e revisori tramite agenti LLM e applicando il ragionamento su grafi eterogenei per migliorare la qualità e l'accuratezza delle decisioni di revisione.

Shuaimin Li, Liyang Fan, Yufang Lin, Zeyang Li, Xian Wei, Shiwen Ni, Hamid Alinejad-Rokny, Min Yang2026-03-11💬 cs.CL

Does Scientific Writing Converge to U.S. English? Evidence from Generative AI-Assisted Publications

Uno studio su 5,65 milioni di articoli scientifici rivela che l'uso dell'intelligenza artificiale generativa sta riducendo le barriere linguistiche facendo convergere la scrittura scientifica di autori non anglofoni verso lo standard dell'inglese statunitense, sebbene ciò sollevi interrogativi su un'effettiva inclusione o su una crescente dipendenza da un unico modello linguistico.

Dragan Filimonovic, Christian Rutzer, Jeffrey Macher, Rolf Weder2026-03-11💬 cs.CL

PRISM of Opinions: A Persona-Reasoned Multimodal Framework for User-centric Conversational Stance Detection

Il paper presenta PRISM, un nuovo modello multimodale per la rilevazione dello stance conversazionale che supera i limiti delle ricerche esistenti integrando la diversità degli utenti attraverso la creazione di "personas" longitudinali e l'uso di ragionamento multimodale contestuale su un nuovo dataset chiamato U-MStance.

Bingbing Wang, Zhixin Bai, Zhengda Jin, Zihan Wang, Xintong Song, Jingjie Lin, Sixuan Li, Jing Li, Ruifeng Xu2026-03-11💬 cs.CL

From Veracity to Diffusion: Adressing Operational Challenges in Moving From Fake-News Detection to Information Disorders

Questo studio confronta la rilevazione delle fake news con la previsione della viralità, evidenziando come il passaggio dalla verifica della veridicità alla previsione della diffusione richieda scelte operative più critiche e proponga pipeline leggere e trasparenti per affrontare le sfide delle informazioni disordinate.

Francesco Paolo Savatteri (ENC), Chahan Vidal-Gorène (CJM, LIPN), Florian Cafiero (ENC)2026-03-11💬 cs.CL

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

Il paper presenta ELERAG, un'architettura RAG potenziata dal Linking di Entità e da una strategia di riordinamento ibrida, che dimostra come l'integrazione di segnali fattuali basati su Wikidata migliori significativamente l'accuratezza nei sistemi di domanda-risposta educativi in italiano, superando i metodi tradizionali nei contesti specifici di dominio pur mantenendo prestazioni competitive su dataset generali.

Francesco Granata, Francesco Poggi, Misael Mongiovì2026-03-11🤖 cs.AI

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

Il paper presenta DEER, un benchmark che sistematizza la valutazione dei rapporti di ricerca approfondita generati da agenti AI attraverso una tassonomia esperta di 101 criteri e un'architettura di verifica delle affermazioni, rivelando che i sistemi attuali, pur producendo documenti strutturalmente validi, necessitano miglioramenti nel soddisfare richieste di livello esperto e nel garantire la completezza logica.

Janghoon Han, Heegyu Kim, Changho Lee, Dahm Lee, Min Hyung Park, Hosung Song, Stanley Jungkyu Choi, Moontae Lee, Honglak Lee2026-03-11💬 cs.CL

EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

Il paper introduce EVM-QuestBench, un benchmark basato sull'esecuzione per valutare la generazione di script di transazioni in linguaggio naturale su catene compatibili con EVM, evidenziando attraverso una valutazione dinamica su 107 compiti e 20 modelli le significative lacune nella precisione delle azioni singole e nella sicurezza dei flussi di lavoro multi-step.

Pei Yang, Wanyi Chen, Ke Wang, Lynn Ai, Eric Yang, Tianyu Shi2026-03-11💬 cs.CL

Rethinking Discrete Speech Representation Tokens for Accent Generation

Questo studio presenta la prima indagine sistematica su come le informazioni relative all'accento siano codificate nei token di rappresentazione del parlato discreto (DSRT), proponendo un nuovo framework di valutazione che rivela come la scelta dei livelli e la supervisione ASR influenzino significativamente la preservazione e il recupero di tali informazioni.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter Bell2026-03-11⚡ eess

From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents

Il paper presenta EigenData, un framework unificato che combina un agente di dati auto-evolutivo con un'apprendimento per rinforzo basato su verificatori per generare dati sintetici di alta qualità e addestrare agenti interattivi multi-turno in grado di utilizzare strumenti complessi, ottenendo prestazioni all'avanguardia su benchmark specifici senza costose annotazioni umane.

Jiaxuan Gao, Jiaao Chen, Chuyi He, Shusheng Xu, Di Jin, Yi Wu2026-03-11🤖 cs.AI

Pretraining with Token-Level Adaptive Latent Chain-of-Thought

Questo lavoro propone un metodo di preaddestramento che internalizza una Catena di Pensiero latente adattiva a livello di token, permettendo al modello di allocare dinamicamente più computazione ai token difficili e meno a quelli facili, migliorando così le prestazioni linguistiche e riducendo i costi computazionali senza aumentare il numero di parametri.

Boyi Zeng, Yiqin Hao, He Li, Shixiang Song, Feichen Song, Zitong Wang, Siyuan Huang, Yi Xu, ZiWei He, Xinbing Wang, Zhouhan Lin2026-03-11💬 cs.CL