cs.CL papers | Gist.Science

Quantifying Genuine Awareness in Hallucination Prediction Beyond Question-Side Shortcuts

Dit paper introduceert de AQE-methode om aan te tonen dat bestaande methoden voor het detecteren van hallucinaties bij taalmodellen grotendeels afhankelijk zijn van benchmarkspecifieke trucs in plaats van echte bewustwording van interne informatie.

Yeongbin Seo, Dongha Lee, Jinyoung Yeo2026-03-11💬 cs.CL

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Dit artikel introduceert VSSFlow, een verenigd flow-matching framework dat video-geconditioneerde geluids- en spraakgeneratie succesvol combineert door middel van een ontward condition-aggregatiemechanisme binnen een Diffusion Transformer-architectuur.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua Song2026-03-11🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

Dit paper introduceert v-HUB, een nieuw benchmark voor het begrijpen van videohumor dat de beperkingen van multimodale modellen blootlegt en aantoont dat het integreren van geluid de prestaties verbetert.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong Zheng2026-03-11🤖 cs.AI

DRBench: A Realistic Benchmark for Enterprise Deep Research

Dit paper introduceert DRBench, een realistisch benchmark voor het evalueren van AI-agenten op complexe, open-ended diep onderzoekstaken in enterprise-omgevingen die zowel publieke webinformatie als private bedrijfsgegevens vereisen.

Amirhossein Abaskohi, Tianyi Chen, Miguel Muñoz-Mármol, Curtis Fox, Amrutha Varshini Ramesh, Étienne Marcotte, Xing Han Lù, Nicolas Chapados, Spandana Gella, Peter West, Giuseppe Carenini, Christopher Pal, Alexandre Drouin, Issam H. Laradji2026-03-11💬 cs.CL

Latent Speech-Text Transformer

Dit paper introduceert de Latent Speech-Text Transformer (LST), een model dat spraaktokens aggregeert tot latente patches om de rekenefficiëntie te verbeteren en de prestaties van zowel spraak- als teksttaken te verhogen door de sequentiegranulariteit tussen beide modaliteiten te aligneren.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc Le2026-03-11🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

AlphaApollo is een agentic redeneersysteem dat de beperkingen van fundamentele modellen in complexe probleemoplossing en onbetrouwbare testtijd-evolutie aanpakt door middel van een geïntegreerde architectuur met multi-turn redenering, versterkt leren en een iteratieve evolueringscyclus met tool-geassisteerde verificatie.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo Han2026-03-11🤖 cs.AI

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

Dit paper introduceert NavSpace, een benchmark voor het evalueren van ruimtelijke intelligentie in navigatieagenten, en presenteert SNav, een nieuw model dat op deze benchmark en met echte robots superieure prestaties levert.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao Dong2026-03-11🤖 cs.AI

SynthWorlds: Controlled Parallel Worlds for Disentangling Reasoning and Knowledge in Language Models

Het paper introduceert SynthWorlds, een automatisch schaalbaar raamwerk dat parallelle corpora met identieke structuren maar verschillende feitelijke inhoud gebruikt om de prestaties van taalmodellen in redeneren en feitelijke kennis van elkaar te onderscheiden.

Ken Gu, Advait Bhat, Mike A Merrill, Robert West, Xin Liu, Daniel McDuff, Tim Althoff2026-03-11💬 cs.CL

Information Capacity: Evaluating the Efficiency of Large Language Models via Text Compression

Dit paper introduceert 'information capacity', een nieuwe metriek die de inferentie-efficiëntie van grote taalmodellen kwantificeert door tekstcompressieprestaties te relateren aan rekencomplexiteit en tokeniseer-efficiëntie, waardoor inzicht wordt verkregen in de schaalbaarheid en linguïstische bias van diverse modellen.

Cheng Yuan, Jiawei Shao, Xuelong Li2026-03-11💬 cs.CL

Automatic Paper Reviewing with Heterogeneous Graph Reasoning over LLM-Simulated Reviewer-Author Debates

Dit paper introduceert ReViewGraph, een nieuw raamwerk dat heterogene grafische redenering toepast op door LLM's gesimuleerde meertrapsdebatten tussen reviewers en auteurs om nauwkeurigere en minder vooroordeelachtige paperbeoordelingen te genereren.

Shuaimin Li, Liyang Fan, Yufang Lin, Zeyang Li, Xian Wei, Shiwen Ni, Hamid Alinejad-Rokny, Min Yang2026-03-11💬 cs.CL

Does Scientific Writing Converge to U.S. English? Evidence from Generative AI-Assisted Publications

Een analyse van 5,65 miljoen wetenschappelijke artikelen toont aan dat generatieve AI-assistentie leidt tot een toenemende convergentie van de schrijfstijl van auteurs uit niet-Engelstalige landen naar het dominante Amerikaanse wetenschappelijke Engels, waardoor historische taalbarrières worden verlaagd maar de vraag naar een verdere afhankelijkheid van één taalkundige standaard blijft bestaan.

Dragan Filimonovic, Christian Rutzer, Jeffrey Macher, Rolf Weder2026-03-11💬 cs.CL

PRISM of Opinions: A Persona-Reasoned Multimodal Framework for User-centric Conversational Stance Detection

Dit paper introduceert PRISM, een nieuw multimodaal framework voor conversatiestellingdetectie dat gebruikmaakt van het U-MStance-dataset om individuele gebruikerspersoonlijkheden te modelleren en zo de beperkingen van bestaande methoden op het gebied van pseudo-multimodaliteit en gebruikershomogeniteit op te lossen.

Bingbing Wang, Zhixin Bai, Zhengda Jin, Zihan Wang, Xintong Song, Jingjie Lin, Sixuan Li, Jing Li, Ruifeng Xu2026-03-11💬 cs.CL

From Veracity to Diffusion: Adressing Operational Challenges in Moving From Fake-News Detection to Information Disorders

Dit artikel vergelijkt fake-news-detectie met virale verspreidingsvoorspelling en toont aan dat laatstgenoemde gevoeliger is voor operationele keuzes, waarmee het praktische richtlijnen biedt voor het opzetten van transparante en lichtgewicht pipelines voor informatie-ongevallen.

Francesco Paolo Savatteri (ENC), Chahan Vidal-Gorène (CJM, LIPN), Florian Cafiero (ENC)2026-03-11💬 cs.CL

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

Dit artikel introduceert ELERAG, een verbeterde Retrieval-Augmented Generation-architectuur die Entiteitenkoppeling integreert om de feitelijke nauwkeurigheid van educatieve vraag-antwoordsystemen in het Italiaans te verhogen, waarbij experimenten aantonen dat deze domeinspecifieke aanpak de prestaties van standaardmodellen overtreft in gespecialiseerde contexten.

Francesco Granata, Francesco Poggi, Misael Mongiovì2026-03-11🤖 cs.AI

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

Dit paper introduceert DEER, een benchmark die expertrapporten van diepe onderzoeksagenten evalueert via een gedetailleerd rubric en claimverificatie om de huidige beperkingen in logische volledigheid en expertvoldoening te diagnosticeren.

Janghoon Han, Heegyu Kim, Changho Lee, Dahm Lee, Min Hyung Park, Hosung Song, Stanley Jungkyu Choi, Moontae Lee, Honglak Lee2026-03-11💬 cs.CL

CRANE: Causal Relevance Analysis of Language-Specific Neurons in Multilingual Large Language Models

Dit paper introduceert CRANE, een nieuw raamwerk dat taal-specifieke neuronen in meertalige grote taalmodellen identificeert op basis van functionele noodzaak door gerichte interventies, waardoor deze methoden nauwkeuriger zijn dan eerdere op activatie gebaseerde benaderingen.

Yifan Le, Yunliang Li2026-03-11🤖 cs.AI

EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

Dit paper introduceert EVM-QuestBench, een uitvoeringsgebaseerde benchmark voor het genereren van transactiescripts in natuurlijke taal op EVM-compatibele blockchains, die dynamische validatie en een modulaire architectuur gebruikt om de veiligheids- en uitvoeringsnauwkeurigheid van grote taalmodellen te evalueren.

Pei Yang, Wanyi Chen, Ke Wang, Lynn Ai, Eric Yang, Tianyu Shi2026-03-11💬 cs.CL

Rethinking Discrete Speech Representation Tokens for Accent Generation

Dit artikel presenteert het eerste systematische onderzoek naar de codering van accentinformatie in discrete spraakrepresentatietokens en introduceert een unificerend evaluatiekader dat aantoont dat de keuze van lagen de belangrijkste factor is voor het behoud van accentinformatie, terwijl ASR-supervisie deze informatie aanzienlijk vermindert.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter Bell2026-03-11⚡ eess

From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents

Deze paper introduceert EigenData, een unificerend framework dat een zelf-evoluerend data-agent combineert met verifieerbaar-beloond versterkend leren om schaalbaar en efficiënt complexe multi-turn tool-gebruikende agenten te trainen zonder dure menselijke annotatie.

Jiaxuan Gao, Jiaao Chen, Chuyi He, Shusheng Xu, Di Jin, Yi Wu2026-03-11🤖 cs.AI

Pretraining with Token-Level Adaptive Latent Chain-of-Thought

Dit paper introduceert een methode voor pretraining waarbij modellen een variabele lengte aan latente Chain-of-Thought-trajecten genereren per token om de prestaties te verbeteren zonder de modelgrootte te vergroten, wat leidt tot lagere perplexiteit en betere downstream-accuraatheid met minder rekencapaciteit.

Boyi Zeng, Yiqin Hao, He Li, Shixiang Song, Feichen Song, Zitong Wang, Siyuan Huang, Yi Xu, ZiWei He, Xinbing Wang, Zhouhan Lin2026-03-11💬 cs.CL

← Vorige Volgende →