cs.CL papers | Gist.Science

DRBench: A Realistic Benchmark for Enterprise Deep Research

Dit paper introduceert DRBench, een realistisch benchmark voor het evalueren van AI-agenten op complexe, open-ended diep onderzoekstaken in enterprise-omgevingen die zowel publieke webinformatie als private bedrijfsgegevens vereisen.

Amirhossein Abaskohi, Tianyi Chen, Miguel Muñoz-Mármol, Curtis Fox, Amrutha Varshini Ramesh, Étienne Marcotte, Xing Han Lù, Nicolas Chapados, Spandana Gella, Peter West, Giuseppe Carenini, Christopher Pal, Alexandre Drouin, Issam H. LaradjiWed, 11 Ma💬 cs.CL

Latent Speech-Text Transformer

Dit paper introduceert de Latent Speech-Text Transformer (LST), een model dat spraaktokens aggregeert tot latente patches om de rekenefficiëntie te verbeteren en de prestaties van zowel spraak- als teksttaken te verhogen door de sequentiegranulariteit tussen beide modaliteiten te aligneren.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

AlphaApollo is een agentic redeneersysteem dat de beperkingen van fundamentele modellen in complexe probleemoplossing en onbetrouwbare testtijd-evolutie aanpakt door middel van een geïntegreerde architectuur met multi-turn redenering, versterkt leren en een iteratieve evolueringscyclus met tool-geassisteerde verificatie.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo HanWed, 11 Ma🤖 cs.AI

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

Dit paper introduceert NavSpace, een benchmark voor het evalueren van ruimtelijke intelligentie in navigatieagenten, en presenteert SNav, een nieuw model dat op deze benchmark en met echte robots superieure prestaties levert.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao DongWed, 11 Ma🤖 cs.AI

SynthWorlds: Controlled Parallel Worlds for Disentangling Reasoning and Knowledge in Language Models

Het paper introduceert SynthWorlds, een automatisch schaalbaar raamwerk dat parallelle corpora met identieke structuren maar verschillende feitelijke inhoud gebruikt om de prestaties van taalmodellen in redeneren en feitelijke kennis van elkaar te onderscheiden.

Ken Gu, Advait Bhat, Mike A Merrill, Robert West, Xin Liu, Daniel McDuff, Tim AlthoffWed, 11 Ma💬 cs.CL

Automatic Paper Reviewing with Heterogeneous Graph Reasoning over LLM-Simulated Reviewer-Author Debates

Dit paper introduceert ReViewGraph, een nieuw raamwerk dat heterogene grafische redenering toepast op door LLM's gesimuleerde meertrapsdebatten tussen reviewers en auteurs om nauwkeurigere en minder vooroordeelachtige paperbeoordelingen te genereren.

Shuaimin Li, Liyang Fan, Yufang Lin, Zeyang Li, Xian Wei, Shiwen Ni, Hamid Alinejad-Rokny, Min YangWed, 11 Ma💬 cs.CL

Does Scientific Writing Converge to U.S. English? Evidence from Generative AI-Assisted Publications

Een analyse van 5,65 miljoen wetenschappelijke artikelen toont aan dat generatieve AI-assistentie leidt tot een toenemende convergentie van de schrijfstijl van auteurs uit niet-Engelstalige landen naar het dominante Amerikaanse wetenschappelijke Engels, waardoor historische taalbarrières worden verlaagd maar de vraag naar een verdere afhankelijkheid van één taalkundige standaard blijft bestaan.

Dragan Filimonovic, Christian Rutzer, Jeffrey Macher, Rolf WederWed, 11 Ma💬 cs.CL

PRISM of Opinions: A Persona-Reasoned Multimodal Framework for User-centric Conversational Stance Detection

Dit paper introduceert PRISM, een nieuw multimodaal framework voor conversatiestellingdetectie dat gebruikmaakt van het U-MStance-dataset om individuele gebruikerspersoonlijkheden te modelleren en zo de beperkingen van bestaande methoden op het gebied van pseudo-multimodaliteit en gebruikershomogeniteit op te lossen.

Bingbing Wang, Zhixin Bai, Zhengda Jin, Zihan Wang, Xintong Song, Jingjie Lin, Sixuan Li, Jing Li, Ruifeng XuWed, 11 Ma💬 cs.CL

From Veracity to Diffusion: Adressing Operational Challenges in Moving From Fake-News Detection to Information Disorders

Dit artikel vergelijkt fake-news-detectie met virale verspreidingsvoorspelling en toont aan dat laatstgenoemde gevoeliger is voor operationele keuzes, waarmee het praktische richtlijnen biedt voor het opzetten van transparante en lichtgewicht pipelines voor informatie-ongevallen.

Francesco Paolo Savatteri (ENC), Chahan Vidal-Gorène (CJM, LIPN), Florian Cafiero (ENC)Wed, 11 Ma💬 cs.CL

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

Dit artikel introduceert ELERAG, een verbeterde Retrieval-Augmented Generation-architectuur die Entiteitenkoppeling integreert om de feitelijke nauwkeurigheid van educatieve vraag-antwoordsystemen in het Italiaans te verhogen, waarbij experimenten aantonen dat deze domeinspecifieke aanpak de prestaties van standaardmodellen overtreft in gespecialiseerde contexten.

Francesco Granata, Francesco Poggi, Misael MongiovìWed, 11 Ma🤖 cs.AI

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

Dit paper introduceert DEER, een benchmark die expertrapporten van diepe onderzoeksagenten evalueert via een gedetailleerd rubric en claimverificatie om de huidige beperkingen in logische volledigheid en expertvoldoening te diagnosticeren.

Janghoon Han, Heegyu Kim, Changho Lee, Dahm Lee, Min Hyung Park, Hosung Song, Stanley Jungkyu Choi, Moontae Lee, Honglak LeeWed, 11 Ma💬 cs.CL

CRANE: Causal Relevance Analysis of Language-Specific Neurons in Multilingual Large Language Models

Dit paper introduceert CRANE, een nieuw raamwerk dat taal-specifieke neuronen in meertalige grote taalmodellen identificeert op basis van functionele noodzaak door gerichte interventies, waardoor deze methoden nauwkeuriger zijn dan eerdere op activatie gebaseerde benaderingen.

Yifan Le, Yunliang LiWed, 11 Ma🤖 cs.AI

EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

Dit paper introduceert EVM-QuestBench, een uitvoeringsgebaseerde benchmark voor het genereren van transactiescripts in natuurlijke taal op EVM-compatibele blockchains, die dynamische validatie en een modulaire architectuur gebruikt om de veiligheids- en uitvoeringsnauwkeurigheid van grote taalmodellen te evalueren.

Pei Yang, Wanyi Chen, Ke Wang, Lynn Ai, Eric Yang, Tianyu ShiWed, 11 Ma💬 cs.CL

Rethinking Discrete Speech Representation Tokens for Accent Generation

Dit artikel presenteert het eerste systematische onderzoek naar de codering van accentinformatie in discrete spraakrepresentatietokens en introduceert een unificerend evaluatiekader dat aantoont dat de keuze van lagen de belangrijkste factor is voor het behoud van accentinformatie, terwijl ASR-supervisie deze informatie aanzienlijk vermindert.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents

Deze paper introduceert EigenData, een unificerend framework dat een zelf-evoluerend data-agent combineert met verifieerbaar-beloond versterkend leren om schaalbaar en efficiënt complexe multi-turn tool-gebruikende agenten te trainen zonder dure menselijke annotatie.

Jiaxuan Gao, Jiaao Chen, Chuyi He, Shusheng Xu, Di Jin, Yi WuWed, 11 Ma🤖 cs.AI

Pretraining with Token-Level Adaptive Latent Chain-of-Thought

Dit paper introduceert een methode voor pretraining waarbij modellen een variabele lengte aan latente Chain-of-Thought-trajecten genereren per token om de prestaties te verbeteren zonder de modelgrootte te vergroten, wat leidt tot lagere perplexiteit en betere downstream-accuraatheid met minder rekencapaciteit.

Boyi Zeng, Yiqin Hao, He Li, Shixiang Song, Feichen Song, Zitong Wang, Siyuan Huang, Yi Xu, ZiWei He, Xinbing Wang, Zhouhan LinWed, 11 Ma💬 cs.CL

Query-focused and Memory-aware Reranker for Long Context Processing

Deze paper introduceert een lichtgewicht en effectieve herordeningsframework dat gebruikmaakt van attentiescores van geselecteerde hoofdcomponenten in taalmodellen om passage-query relevantie te schatten, waardoor state-of-the-art prestaties worden behaald op diverse benchmarks, waaronder LoCoMo, zonder de noodzaak van Likert-schaal supervisie.

Yuqing Li, Jiangnan Li, Mo Yu, Guoxuan Ding, Zheng Lin, Weiping Wang, Jie ZhouWed, 11 Ma💬 cs.CL

Missing-by-Design: Certifiable Modality Deletion for Revocable Multimodal Sentiment Analysis

Dit paper introduceert Missing-by-Design (MBD), een unificerend kader voor herroepbare multimodale sentimentanalyse dat gecertificeerde verwijdering van specifieke data-modaliteiten mogelijk maakt via een machine-verifieerbaar proces, zonder de volledige modelhertraining te vereisen.

Rong Fu, Ziming Wang, Chunlei Meng, Jiaxuan Lu, Jiekai Wu, Kangan Qian, Hao Zhang, Simon FongWed, 11 Ma🤖 cs.LG

AuditBench: Evaluating Alignment Auditing Techniques on Models with Hidden Behaviors

Deze paper introduceert AuditBench, een benchmark met 56 taalmodellen die verborgen gedrag vertonen, om de effectiviteit van audittechnieken te evalueren en vast te stellen dat zwarte-kist-tools en gescaffolde prompts de meest succesvolle aanpak vormen voor het opsporen van dergelijke gedragingen.

Abhay Sheshadri, Aidan Ewart, Kai Fronsdal, Isha Gupta, Samuel R. Bowman, Sara Price, Samuel Marks, Rowan WangWed, 11 Ma💬 cs.CL

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

Deze paper introduceert SkillCraft, een benchmark die de vaardigheid van LLM-agenten test om herbruikbare 'vaardigheden' (samengestelde tool-combinaties) te vormen en opnieuw te gebruiken, wat leidt tot aanzienlijke efficiëntiewinsten en een hogere succesratio door compositie.

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye TehWed, 11 Ma💬 cs.CL

← Vorige Volgende →