DRBench: A Realistic Benchmark for Enterprise Deep Research

Dit paper introduceert DRBench, een realistisch benchmark voor het evalueren van AI-agenten op complexe, open-ended diep onderzoekstaken in enterprise-omgevingen die zowel publieke webinformatie als private bedrijfsgegevens vereisen.

Amirhossein Abaskohi, Tianyi Chen, Miguel Muñoz-Mármol, Curtis Fox, Amrutha Varshini Ramesh, Étienne Marcotte, Xing Han Lù, Nicolas Chapados, Spandana Gella, Peter West, Giuseppe Carenini, Christopher Pal, Alexandre Drouin, Issam H. LaradjiWed, 11 Ma💬 cs.CL

AlphaApollo: A System for Deep Agentic Reasoning

AlphaApollo is een agentic redeneersysteem dat de beperkingen van fundamentele modellen in complexe probleemoplossing en onbetrouwbare testtijd-evolutie aanpakt door middel van een geïntegreerde architectuur met multi-turn redenering, versterkt leren en een iteratieve evolueringscyclus met tool-geassisteerde verificatie.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo HanWed, 11 Ma🤖 cs.AI

Does Scientific Writing Converge to U.S. English? Evidence from Generative AI-Assisted Publications

Een analyse van 5,65 miljoen wetenschappelijke artikelen toont aan dat generatieve AI-assistentie leidt tot een toenemende convergentie van de schrijfstijl van auteurs uit niet-Engelstalige landen naar het dominante Amerikaanse wetenschappelijke Engels, waardoor historische taalbarrières worden verlaagd maar de vraag naar een verdere afhankelijkheid van één taalkundige standaard blijft bestaan.

Dragan Filimonovic, Christian Rutzer, Jeffrey Macher, Rolf WederWed, 11 Ma💬 cs.CL

PRISM of Opinions: A Persona-Reasoned Multimodal Framework for User-centric Conversational Stance Detection

Dit paper introduceert PRISM, een nieuw multimodaal framework voor conversatiestellingdetectie dat gebruikmaakt van het U-MStance-dataset om individuele gebruikerspersoonlijkheden te modelleren en zo de beperkingen van bestaande methoden op het gebied van pseudo-multimodaliteit en gebruikershomogeniteit op te lossen.

Bingbing Wang, Zhixin Bai, Zhengda Jin, Zihan Wang, Xintong Song, Jingjie Lin, Sixuan Li, Jing Li, Ruifeng XuWed, 11 Ma💬 cs.CL

From Veracity to Diffusion: Adressing Operational Challenges in Moving From Fake-News Detection to Information Disorders

Dit artikel vergelijkt fake-news-detectie met virale verspreidingsvoorspelling en toont aan dat laatstgenoemde gevoeliger is voor operationele keuzes, waarmee het praktische richtlijnen biedt voor het opzetten van transparante en lichtgewicht pipelines voor informatie-ongevallen.

Francesco Paolo Savatteri (ENC), Chahan Vidal-Gorène (CJM, LIPN), Florian Cafiero (ENC)Wed, 11 Ma💬 cs.CL

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

Dit artikel introduceert ELERAG, een verbeterde Retrieval-Augmented Generation-architectuur die Entiteitenkoppeling integreert om de feitelijke nauwkeurigheid van educatieve vraag-antwoordsystemen in het Italiaans te verhogen, waarbij experimenten aantonen dat deze domeinspecifieke aanpak de prestaties van standaardmodellen overtreft in gespecialiseerde contexten.

Francesco Granata, Francesco Poggi, Misael MongiovìWed, 11 Ma🤖 cs.AI

Pretraining with Token-Level Adaptive Latent Chain-of-Thought

Dit paper introduceert een methode voor pretraining waarbij modellen een variabele lengte aan latente Chain-of-Thought-trajecten genereren per token om de prestaties te verbeteren zonder de modelgrootte te vergroten, wat leidt tot lagere perplexiteit en betere downstream-accuraatheid met minder rekencapaciteit.

Boyi Zeng, Yiqin Hao, He Li, Shixiang Song, Feichen Song, Zitong Wang, Siyuan Huang, Yi Xu, ZiWei He, Xinbing Wang, Zhouhan LinWed, 11 Ma💬 cs.CL

Query-focused and Memory-aware Reranker for Long Context Processing

Deze paper introduceert een lichtgewicht en effectieve herordeningsframework dat gebruikmaakt van attentiescores van geselecteerde hoofdcomponenten in taalmodellen om passage-query relevantie te schatten, waardoor state-of-the-art prestaties worden behaald op diverse benchmarks, waaronder LoCoMo, zonder de noodzaak van Likert-schaal supervisie.

Yuqing Li, Jiangnan Li, Mo Yu, Guoxuan Ding, Zheng Lin, Weiping Wang, Jie ZhouWed, 11 Ma💬 cs.CL

AuditBench: Evaluating Alignment Auditing Techniques on Models with Hidden Behaviors

Deze paper introduceert AuditBench, een benchmark met 56 taalmodellen die verborgen gedrag vertonen, om de effectiviteit van audittechnieken te evalueren en vast te stellen dat zwarte-kist-tools en gescaffolde prompts de meest succesvolle aanpak vormen voor het opsporen van dergelijke gedragingen.

Abhay Sheshadri, Aidan Ewart, Kai Fronsdal, Isha Gupta, Samuel R. Bowman, Sara Price, Samuel Marks, Rowan WangWed, 11 Ma💬 cs.CL

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

Deze paper introduceert SkillCraft, een benchmark die de vaardigheid van LLM-agenten test om herbruikbare 'vaardigheden' (samengestelde tool-combinaties) te vormen en opnieuw te gebruiken, wat leidt tot aanzienlijke efficiëntiewinsten en een hogere succesratio door compositie.

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye TehWed, 11 Ma💬 cs.CL