cs.CL articoli | Gist.Science

DRBench: A Realistic Benchmark for Enterprise Deep Research

Il documento presenta DRBench, un nuovo benchmark realistico progettato per valutare le prestazioni degli agenti di intelligenza artificiale in compiti di ricerca approfondita complessi e aperti all'interno di contesti aziendali, integrando dati pubblici e privati attraverso un processo di sintesi verificato da umani.

Amirhossein Abaskohi, Tianyi Chen, Miguel Muñoz-Mármol, Curtis Fox, Amrutha Varshini Ramesh, Étienne Marcotte, Xing Han Lù, Nicolas Chapados, Spandana Gella, Peter West, Giuseppe Carenini, Christopher Pal, Alexandre Drouin, Issam H. LaradjiWed, 11 Ma💬 cs.CL

Latent Speech-Text Transformer

Il paper introduce il Latent Speech-Text Transformer (LST), un modello che migliora l'efficienza computazionale e le prestazioni di comprensione e generazione sia vocale che testuale aggregando i token vocali in patch latenti, riducendo così la lunghezza delle sequenze e bilanciando l'elaborazione tra le due modalità.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

Il paper presenta AlphaApollo, un sistema di ragionamento agentic che affronta le limitazioni nella risoluzione di problemi complessi e nell'evoluzione affidabile dei modelli fondazione attraverso tre componenti chiave: ragionamento multi-turno, apprendimento multi-turno e evoluzione multi-round, dimostrando significativi miglioramenti delle prestazioni su vari benchmark matematici.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo HanWed, 11 Ma🤖 cs.AI

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

Il paper introduce NavSpace, un benchmark per valutare le capacità di percezione e ragionamento spaziale degli agenti di navigazione, e propone SNav, un nuovo modello che supera le prestazioni degli agenti esistenti sia sul benchmark che su robot reali.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao DongWed, 11 Ma🤖 cs.AI

SynthWorlds: Controlled Parallel Worlds for Disentangling Reasoning and Knowledge in Language Models

Il paper presenta SynthWorlds, un framework che genera mondi paralleli con strutture identiche ma contenuti diversi per isolare e valutare la capacità di ragionamento dei modelli linguistici separandola dalla conoscenza fattuale memorizzata.

Ken Gu, Advait Bhat, Mike A Merrill, Robert West, Xin Liu, Daniel McDuff, Tim AlthoffWed, 11 Ma💬 cs.CL

Automatic Paper Reviewing with Heterogeneous Graph Reasoning over LLM-Simulated Reviewer-Author Debates

Il paper propone ReViewGraph, un nuovo framework che supera i limiti dei metodi di revisione esistenti simulando dibattiti tra autori e revisori tramite agenti LLM e applicando il ragionamento su grafi eterogenei per migliorare la qualità e l'accuratezza delle decisioni di revisione.

Shuaimin Li, Liyang Fan, Yufang Lin, Zeyang Li, Xian Wei, Shiwen Ni, Hamid Alinejad-Rokny, Min YangWed, 11 Ma💬 cs.CL

Does Scientific Writing Converge to U.S. English? Evidence from Generative AI-Assisted Publications

Uno studio su 5,65 milioni di articoli scientifici rivela che l'uso dell'intelligenza artificiale generativa sta riducendo le barriere linguistiche facendo convergere la scrittura scientifica di autori non anglofoni verso lo standard dell'inglese statunitense, sebbene ciò sollevi interrogativi su un'effettiva inclusione o su una crescente dipendenza da un unico modello linguistico.

Dragan Filimonovic, Christian Rutzer, Jeffrey Macher, Rolf WederWed, 11 Ma💬 cs.CL

PRISM of Opinions: A Persona-Reasoned Multimodal Framework for User-centric Conversational Stance Detection

Il paper presenta PRISM, un nuovo modello multimodale per la rilevazione dello stance conversazionale che supera i limiti delle ricerche esistenti integrando la diversità degli utenti attraverso la creazione di "personas" longitudinali e l'uso di ragionamento multimodale contestuale su un nuovo dataset chiamato U-MStance.

Bingbing Wang, Zhixin Bai, Zhengda Jin, Zihan Wang, Xintong Song, Jingjie Lin, Sixuan Li, Jing Li, Ruifeng XuWed, 11 Ma💬 cs.CL

From Veracity to Diffusion: Adressing Operational Challenges in Moving From Fake-News Detection to Information Disorders

Questo studio confronta la rilevazione delle fake news con la previsione della viralità, evidenziando come il passaggio dalla verifica della veridicità alla previsione della diffusione richieda scelte operative più critiche e proponga pipeline leggere e trasparenti per affrontare le sfide delle informazioni disordinate.

Francesco Paolo Savatteri (ENC), Chahan Vidal-Gorène (CJM, LIPN), Florian Cafiero (ENC)Wed, 11 Ma💬 cs.CL

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

Il paper presenta ELERAG, un'architettura RAG potenziata dal Linking di Entità e da una strategia di riordinamento ibrida, che dimostra come l'integrazione di segnali fattuali basati su Wikidata migliori significativamente l'accuratezza nei sistemi di domanda-risposta educativi in italiano, superando i metodi tradizionali nei contesti specifici di dominio pur mantenendo prestazioni competitive su dataset generali.

Francesco Granata, Francesco Poggi, Misael MongiovìWed, 11 Ma🤖 cs.AI

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

Il paper presenta DEER, un benchmark che sistematizza la valutazione dei rapporti di ricerca approfondita generati da agenti AI attraverso una tassonomia esperta di 101 criteri e un'architettura di verifica delle affermazioni, rivelando che i sistemi attuali, pur producendo documenti strutturalmente validi, necessitano miglioramenti nel soddisfare richieste di livello esperto e nel garantire la completezza logica.

Janghoon Han, Heegyu Kim, Changho Lee, Dahm Lee, Min Hyung Park, Hosung Song, Stanley Jungkyu Choi, Moontae Lee, Honglak LeeWed, 11 Ma💬 cs.CL

CRANE: Causal Relevance Analysis of Language-Specific Neurons in Multilingual Large Language Models

Il paper introduce CRANE, un framework di analisi basato sulla rilevanza funzionale che, attraverso interventi mirati sui neuroni, identifica componenti specifiche delle lingue nei modelli multilingue con maggiore precisione rispetto ai metodi basati sull'attivazione, rivelando una specializzazione selettiva ma non esclusiva.

Yifan Le, Yunliang LiWed, 11 Ma🤖 cs.AI

EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

Il paper introduce EVM-QuestBench, un benchmark basato sull'esecuzione per valutare la generazione di script di transazioni in linguaggio naturale su catene compatibili con EVM, evidenziando attraverso una valutazione dinamica su 107 compiti e 20 modelli le significative lacune nella precisione delle azioni singole e nella sicurezza dei flussi di lavoro multi-step.

Pei Yang, Wanyi Chen, Ke Wang, Lynn Ai, Eric Yang, Tianyu ShiWed, 11 Ma💬 cs.CL

Rethinking Discrete Speech Representation Tokens for Accent Generation

Questo studio presenta la prima indagine sistematica su come le informazioni relative all'accento siano codificate nei token di rappresentazione del parlato discreto (DSRT), proponendo un nuovo framework di valutazione che rivela come la scelta dei livelli e la supervisione ASR influenzino significativamente la preservazione e il recupero di tali informazioni.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents

Il paper presenta EigenData, un framework unificato che combina un agente di dati auto-evolutivo con un'apprendimento per rinforzo basato su verificatori per generare dati sintetici di alta qualità e addestrare agenti interattivi multi-turno in grado di utilizzare strumenti complessi, ottenendo prestazioni all'avanguardia su benchmark specifici senza costose annotazioni umane.

Jiaxuan Gao, Jiaao Chen, Chuyi He, Shusheng Xu, Di Jin, Yi WuWed, 11 Ma🤖 cs.AI

Pretraining with Token-Level Adaptive Latent Chain-of-Thought

Questo lavoro propone un metodo di preaddestramento che internalizza una Catena di Pensiero latente adattiva a livello di token, permettendo al modello di allocare dinamicamente più computazione ai token difficili e meno a quelli facili, migliorando così le prestazioni linguistiche e riducendo i costi computazionali senza aumentare il numero di parametri.

Boyi Zeng, Yiqin Hao, He Li, Shixiang Song, Feichen Song, Zitong Wang, Siyuan Huang, Yi Xu, ZiWei He, Xinbing Wang, Zhouhan LinWed, 11 Ma💬 cs.CL

Query-focused and Memory-aware Reranker for Long Context Processing

Il paper propone un framework di reranking leggero e memory-aware che utilizza i punteggi di attenzione di modelli di piccole dimensioni per stimare la rilevanza tra query e passaggi, ottenendo risultati all'avanguardia su benchmark di contesti lunghi e comprensione del dialogo.

Yuqing Li, Jiangnan Li, Mo Yu, Guoxuan Ding, Zheng Lin, Weiping Wang, Jie ZhouWed, 11 Ma💬 cs.CL

Missing-by-Design: Certifiable Modality Deletion for Revocable Multimodal Sentiment Analysis

Il paper presenta Missing-by-Design (MBD), un quadro unificato per l'analisi del sentiment multimodale revocabile che combina apprendimento di rappresentazioni strutturate e un processo di modifica dei parametri certificabile per garantire la cancellazione selettiva dei dati e la conformità alla privacy senza richiedere un addestramento completo.

Rong Fu, Ziming Wang, Chunlei Meng, Jiaxuan Lu, Jiekai Wu, Kangan Qian, Hao Zhang, Simon FongWed, 11 Ma🤖 cs.LG

AuditBench: Evaluating Alignment Auditing Techniques on Models with Hidden Behaviors

Il paper introduce AuditBench, un benchmark di 56 modelli linguistici con comportamenti nascosti, per valutare l'efficacia delle tecniche di audit di allineamento, rivelando un divario tra le prestazioni degli strumenti isolati e quelle degli agenti autonomi e identificando le metodologie di addestramento che rendono i modelli più difficili da analizzare.

Abhay Sheshadri, Aidan Ewart, Kai Fronsdal, Isha Gupta, Samuel R. Bowman, Sara Price, Samuel Marks, Rowan WangWed, 11 Ma💬 cs.CL

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

Il paper introduce SkillCraft, un benchmark progettato per valutare la capacità degli agenti LLM di astrarre e riutilizzare composizioni di strumenti come "abilità" riutilizzabili, dimostrando che tale approccio riduce drasticamente l'uso dei token e migliora il successo nei compiti complessi.

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye TehWed, 11 Ma💬 cs.CL

← Precedente Successivo →