cs.CL articoli | Gist.Science

Quantifying Genuine Awareness in Hallucination Prediction Beyond Question-Side Shortcuts

Il paper propone il metodo AQE per quantificare quanto le prestazioni attuali nella rilevazione delle allucinazioni dipendano da scorciatoie legate alle domande piuttosto che da una genuina consapevolezza del modello, rivelando che le tecniche esistenti si basano eccessivamente su tali scorciatoie.

Yeongbin Seo, Dongha Lee, Jinyoung Yeo2026-03-11💬 cs.CL

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Il paper presenta VSSFlow, un framework unificato basato sul flusso di matching che risolve congiuntamente la generazione di suoni e parlato condizionata dal video, superando le prestazioni dei modelli specifici per dominio grazie a un meccanismo di aggregazione delle condizioni disaccoppiato e all'apprendimento congiunto.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua Song2026-03-11🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

Il paper introduce v-HUB, un nuovo benchmark per la comprensione dell'umorismo nei video basato su segnali visivi e sonori, dimostrando attraverso la valutazione di diversi modelli MLLM che l'integrazione dell'audio migliora significativamente le prestazioni in questo compito complesso.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong Zheng2026-03-11🤖 cs.AI

DRBench: A Realistic Benchmark for Enterprise Deep Research

Il documento presenta DRBench, un nuovo benchmark realistico progettato per valutare le prestazioni degli agenti di intelligenza artificiale in compiti di ricerca approfondita complessi e aperti all'interno di contesti aziendali, integrando dati pubblici e privati attraverso un processo di sintesi verificato da umani.

Amirhossein Abaskohi, Tianyi Chen, Miguel Muñoz-Mármol, Curtis Fox, Amrutha Varshini Ramesh, Étienne Marcotte, Xing Han Lù, Nicolas Chapados, Spandana Gella, Peter West, Giuseppe Carenini, Christopher Pal, Alexandre Drouin, Issam H. Laradji2026-03-11💬 cs.CL

Latent Speech-Text Transformer

Il paper introduce il Latent Speech-Text Transformer (LST), un modello che migliora l'efficienza computazionale e le prestazioni di comprensione e generazione sia vocale che testuale aggregando i token vocali in patch latenti, riducendo così la lunghezza delle sequenze e bilanciando l'elaborazione tra le due modalità.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc Le2026-03-11🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

Il paper presenta AlphaApollo, un sistema di ragionamento agentic che affronta le limitazioni nella risoluzione di problemi complessi e nell'evoluzione affidabile dei modelli fondazione attraverso tre componenti chiave: ragionamento multi-turno, apprendimento multi-turno e evoluzione multi-round, dimostrando significativi miglioramenti delle prestazioni su vari benchmark matematici.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo Han2026-03-11🤖 cs.AI

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

Il paper introduce NavSpace, un benchmark per valutare le capacità di percezione e ragionamento spaziale degli agenti di navigazione, e propone SNav, un nuovo modello che supera le prestazioni degli agenti esistenti sia sul benchmark che su robot reali.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao Dong2026-03-11🤖 cs.AI

SynthWorlds: Controlled Parallel Worlds for Disentangling Reasoning and Knowledge in Language Models

Il paper presenta SynthWorlds, un framework che genera mondi paralleli con strutture identiche ma contenuti diversi per isolare e valutare la capacità di ragionamento dei modelli linguistici separandola dalla conoscenza fattuale memorizzata.

Ken Gu, Advait Bhat, Mike A Merrill, Robert West, Xin Liu, Daniel McDuff, Tim Althoff2026-03-11💬 cs.CL

Information Capacity: Evaluating the Efficiency of Large Language Models via Text Compression

Questo lavoro introduce la "capacità informativa", una nuova metrica che valuta l'efficienza inferenziale dei grandi modelli linguistici basandosi sulle prestazioni di compressione del testo e sull'efficienza del tokenizer, rivelando al contempo bias linguistici e fornendo uno strumento per prevedere le prestazioni e ottimizzare lo scaling futuro.

Cheng Yuan, Jiawei Shao, Xuelong Li2026-03-11💬 cs.CL

Automatic Paper Reviewing with Heterogeneous Graph Reasoning over LLM-Simulated Reviewer-Author Debates

Il paper propone ReViewGraph, un nuovo framework che supera i limiti dei metodi di revisione esistenti simulando dibattiti tra autori e revisori tramite agenti LLM e applicando il ragionamento su grafi eterogenei per migliorare la qualità e l'accuratezza delle decisioni di revisione.

Shuaimin Li, Liyang Fan, Yufang Lin, Zeyang Li, Xian Wei, Shiwen Ni, Hamid Alinejad-Rokny, Min Yang2026-03-11💬 cs.CL

Does Scientific Writing Converge to U.S. English? Evidence from Generative AI-Assisted Publications

Uno studio su 5,65 milioni di articoli scientifici rivela che l'uso dell'intelligenza artificiale generativa sta riducendo le barriere linguistiche facendo convergere la scrittura scientifica di autori non anglofoni verso lo standard dell'inglese statunitense, sebbene ciò sollevi interrogativi su un'effettiva inclusione o su una crescente dipendenza da un unico modello linguistico.

Dragan Filimonovic, Christian Rutzer, Jeffrey Macher, Rolf Weder2026-03-11💬 cs.CL

PRISM of Opinions: A Persona-Reasoned Multimodal Framework for User-centric Conversational Stance Detection

Il paper presenta PRISM, un nuovo modello multimodale per la rilevazione dello stance conversazionale che supera i limiti delle ricerche esistenti integrando la diversità degli utenti attraverso la creazione di "personas" longitudinali e l'uso di ragionamento multimodale contestuale su un nuovo dataset chiamato U-MStance.

Bingbing Wang, Zhixin Bai, Zhengda Jin, Zihan Wang, Xintong Song, Jingjie Lin, Sixuan Li, Jing Li, Ruifeng Xu2026-03-11💬 cs.CL

From Veracity to Diffusion: Adressing Operational Challenges in Moving From Fake-News Detection to Information Disorders

Questo studio confronta la rilevazione delle fake news con la previsione della viralità, evidenziando come il passaggio dalla verifica della veridicità alla previsione della diffusione richieda scelte operative più critiche e proponga pipeline leggere e trasparenti per affrontare le sfide delle informazioni disordinate.

Francesco Paolo Savatteri (ENC), Chahan Vidal-Gorène (CJM, LIPN), Florian Cafiero (ENC)2026-03-11💬 cs.CL

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

Il paper presenta ELERAG, un'architettura RAG potenziata dal Linking di Entità e da una strategia di riordinamento ibrida, che dimostra come l'integrazione di segnali fattuali basati su Wikidata migliori significativamente l'accuratezza nei sistemi di domanda-risposta educativi in italiano, superando i metodi tradizionali nei contesti specifici di dominio pur mantenendo prestazioni competitive su dataset generali.

Francesco Granata, Francesco Poggi, Misael Mongiovì2026-03-11🤖 cs.AI

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

Il paper presenta DEER, un benchmark che sistematizza la valutazione dei rapporti di ricerca approfondita generati da agenti AI attraverso una tassonomia esperta di 101 criteri e un'architettura di verifica delle affermazioni, rivelando che i sistemi attuali, pur producendo documenti strutturalmente validi, necessitano miglioramenti nel soddisfare richieste di livello esperto e nel garantire la completezza logica.

Janghoon Han, Heegyu Kim, Changho Lee, Dahm Lee, Min Hyung Park, Hosung Song, Stanley Jungkyu Choi, Moontae Lee, Honglak Lee2026-03-11💬 cs.CL

CRANE: Causal Relevance Analysis of Language-Specific Neurons in Multilingual Large Language Models

Il paper introduce CRANE, un framework di analisi basato sulla rilevanza funzionale che, attraverso interventi mirati sui neuroni, identifica componenti specifiche delle lingue nei modelli multilingue con maggiore precisione rispetto ai metodi basati sull'attivazione, rivelando una specializzazione selettiva ma non esclusiva.

Yifan Le, Yunliang Li2026-03-11🤖 cs.AI

EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

Il paper introduce EVM-QuestBench, un benchmark basato sull'esecuzione per valutare la generazione di script di transazioni in linguaggio naturale su catene compatibili con EVM, evidenziando attraverso una valutazione dinamica su 107 compiti e 20 modelli le significative lacune nella precisione delle azioni singole e nella sicurezza dei flussi di lavoro multi-step.

Pei Yang, Wanyi Chen, Ke Wang, Lynn Ai, Eric Yang, Tianyu Shi2026-03-11💬 cs.CL

Rethinking Discrete Speech Representation Tokens for Accent Generation

Questo studio presenta la prima indagine sistematica su come le informazioni relative all'accento siano codificate nei token di rappresentazione del parlato discreto (DSRT), proponendo un nuovo framework di valutazione che rivela come la scelta dei livelli e la supervisione ASR influenzino significativamente la preservazione e il recupero di tali informazioni.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter Bell2026-03-11⚡ eess

From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents

Il paper presenta EigenData, un framework unificato che combina un agente di dati auto-evolutivo con un'apprendimento per rinforzo basato su verificatori per generare dati sintetici di alta qualità e addestrare agenti interattivi multi-turno in grado di utilizzare strumenti complessi, ottenendo prestazioni all'avanguardia su benchmark specifici senza costose annotazioni umane.

Jiaxuan Gao, Jiaao Chen, Chuyi He, Shusheng Xu, Di Jin, Yi Wu2026-03-11🤖 cs.AI

Pretraining with Token-Level Adaptive Latent Chain-of-Thought

Questo lavoro propone un metodo di preaddestramento che internalizza una Catena di Pensiero latente adattiva a livello di token, permettendo al modello di allocare dinamicamente più computazione ai token difficili e meno a quelli facili, migliorando così le prestazioni linguistiche e riducendo i costi computazionali senza aumentare il numero di parametri.

Boyi Zeng, Yiqin Hao, He Li, Shixiang Song, Feichen Song, Zitong Wang, Siyuan Huang, Yi Xu, ZiWei He, Xinbing Wang, Zhouhan Lin2026-03-11💬 cs.CL

← Precedente Successivo →