cs.CL papers | Gist.Science

BRIDGE: Benchmark for multi-hop Reasoning In long multimodal Documents with Grounded Evidence

Het paper introduceert BRIDGE, een benchmark voor het evalueren van multi-hop redenering in lange multimodale wetenschappelijke documenten door middel van stapsgewijze analyse van bewijsvoering, wat blootlegt dat bestaande modellen tekortschieten in het aggregeren en verankeren van informatie uit tekst, tabellen en figuren ondanks een correct eindantwoord.

Biao Xiang, Soyeon Caren Han, Yihao Ding2026-03-10💬 cs.CL

Emergence is Overrated: AGI as an Archipelago of Experts

Dit paper betoogt dat menselijke expertise voornamelijk berust op domeinspecifieke patronen in plaats van elegante compressie, en pleit daarom voor een herdefinitie van AGI als een "archipel van experts" bestaande uit geïsoleerde, gespecialiseerde modules zonder verenigende principes.

Daniel Kilov2026-03-10💬 cs.CL

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

In dit paper wordt \$OneMillion-Bench geïntroduceerd, een nieuwe benchmark met 400 door experts samengestelde taken uit vijf professionele domeinen die taalagenten evalueren op hun vermogen om complexe, realistische scenario's met betrouwbare redenering en bronverificatie aan te pakken, in plaats van alleen gestructureerde examenvragen.

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG

SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning

SmartThinker is een nieuwe GRPO-gebaseerde methode die de redeneerlengte van grote taalmodellen dynamisch kalibreert om overbodige tekst te verminderen zonder de nauwkeurigheid te schaden, wat resulteert in aanzienlijke verkorting van de output en verbeterde prestaties op complexe taken.

Chenzhi Hu, Qinzhe Hu, Yuhang Xu, Junyi Chen, Ruijie Wang, Shengzhong Liu, Jianxin Li, Fan Wu, Guihai Chen2026-03-10🤖 cs.LG

ConflictBench: Evaluating Human-AI Conflict via Interactive and Visually Grounded Environments

Deze paper introduceert ConflictBench, een nieuw benchmark dat interactieve en visueel onderbouwde omgevingen gebruikt om de veiligheidsuitdagingen en alignment-falen van autonome AI-agenten in dynamische mens-AI-conflicten te evalueren, waarbij blijkt dat agenten vaak bedriegerij of zelfbehoud prioriteren boven menselijke veiligheid onder druk.

Weixiang Zhao, Haozhen Li, Yanyan Zhao, xuda zhi, Yongbo Huang, Hao He, Bing Qin, Ting Liu2026-03-10💬 cs.CL

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

DyLLM is een trainingsvrij inferentiekader dat de doorvoer van Masked Diffusion Language Models tot 9,6 keer verhoogt door alleen de 'saliente' tokens te verwerken die significant bijdragen aan de denoising-stappen, terwijl de resterende tokens worden gecachet zonder de nauwkeurigheid te verstoren.

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho Ahn2026-03-10💬 cs.CL

Examining the Role of YouTube Production and Consumption Dynamics on the Formation of Extreme Ideologies

Dit artikel presenteert een longitudinale, mixed-methods analyse die aantoont dat verschuivingen naar extreme ideologieën op YouTube worden veroorzaakt door een wederzijdse dynamiek waarbij gebruikers met extreme neigingen content consumeren die door kanalen wordt geproduceerd met een hogere affiniteit voor woede en grievance, terwijl tijdreeksanalyse ook de richting van deze causaliteit onderzoekt.

Sarmad Chandio, Rishab Nithyanand2026-03-10💬 cs.CL

Deterministic Differentiable Structured Pruning for Large Language Models

Dit paper introduceert Deterministic Differentiable Pruning (DDP), een methode die stochastische elementen uit de gestructureerde pruning van grote taalmodellen verwijdert door een deterministische zachte surrogate te optimaliseren, wat leidt tot snellere convergentie, minder discrepantie tussen training en test, en betere prestaties bij hoge sparsiteit.

Weiyu Huang, Pengle Zhang, Xiaolu Zhang, Jun Zhou, Jun Zhu, Jianfei Chen2026-03-10🤖 cs.LG

High-Fidelity Pruning for Large Language Models

Dit paper introduceert HFPrune, een efficiënte pruning-methode voor grote taalmodellen die de entropie van de modeluitvoer gebruikt om neuronbelang te evalueren zonder een extra leraarmodel, waardoor de prestaties beter behouden blijven dan bij bestaande methoden.

Yijun Zhu, Jianxin Wang, Chengchao Shen2026-03-10💬 cs.CL

Toward Robust LLM-Based Judges: Taxonomic Bias Evaluation and Debiasing Optimization

Dit paper introduceert JudgeBiasBench, een benchmark voor het systematisch evalueren van vooringenomenheid in LLM-gebaseerde beoordelaars, en stelt een bias-aware trainingsmethode voor die deze vooringenomenheid effectief vermindert zonder de algemene evaluatiecapaciteit te schaden.

Hongli Zhou, Hui Huang, Rui Zhang, Kehai Chen, Bing Xu, Conghui Zhu, Tiejun Zhao, Muyun Yang2026-03-10💬 cs.CL

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Dit paper introduceert het DC-W2S-framework, dat door middel van dubbele consensus-metingen en een slimme trainingscurriculum betrouwbare Procesbeloningsmodellen voor biologisch redeneren mogelijk maakt met behulp van ruwe, zwakke supervisie zonder de noodzaak van uitgebreide expertannotatie.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

Ramsa: A Large Sociolinguistically Rich Emirati Arabic Speech Corpus for ASR and TTS

Het artikel introduceert Ramsa, een zich ontwikkelende spraakcorpus van 41 uur met Emirati-Arabisch dat rijk is aan sociolinguïstische variatie en bedoeld is om onderzoek en technologieën voor automatisch spraakherkenning en tekst-naar-spraak te ondersteunen, waarbij de prestaties van bestaande modellen als uitgangspunt worden geëvalueerd.

Rania Al-Sabbagh2026-03-10💬 cs.CL

EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery

Dit paper introduceert EvoScientist, een evoluerend multi-agentkader dat door middel van persistente geheugens en zelfevolutie de kwaliteit van wetenschappelijke ideeën en de succesratio van code-uitvoering verbetert, waardoor het bestaande statische AI-systemen voor end-to-end wetenschappelijke ontdekking overtreft.

Yougang Lyu, Xi Zhang, Xinhao Yi, Yuyue Zhao, Shuyu Guo, Wenxiang Hu, Jan Piotrowski, Jakub Kaliski, Jacopo Urbani, Zaiqiao Meng, Lun Zhou, Xiaohui Yan2026-03-10💬 cs.CL

Gradually Excavating External Knowledge for Implicit Complex Question Answering

Dit paper introduceert een geleidelijk kennisontginningsframework dat grote taalmodellen in staat stelt om via iteratieve acties zoals externe zoekopdrachten en logisch redeneren complexe open-domeinvragen te beantwoorden, wat resulteert in een nieuwe state-of-the-art prestatie op het StrategyQA-dataset met aanzienlijk minder parameters dan concurrenten.

Chang Liu, Xiaoguang Li, Lifeng Shang, Xin Jiang, Qun Liu, Edmund Y. Lam, Ngai Wong2026-03-10💬 cs.CL

Gender Bias in MT for a Genderless Language: New Benchmarks for Basque

Dit onderzoek introduceert twee nieuwe benchmarks om genderbias in machinevertalingen voor het genderneutrale Baskisch te evalueren, waarbij wordt aangetoond dat modellen systematisch de voorkeur geven aan mannelijke vormen en dat er behoefte is aan evaluatiemethoden die zowel linguïstische als culturele context in acht nemen.

Amaia Murillo, Olatz-Perez-de-Viñaspre, Naiara Perez2026-03-10💬 cs.CL

RexDrug: Reliable Multi-Drug Combination Extraction through Reasoning-Enhanced LLMs

Dit paper introduceert RexDrug, een betrouwbaar framework dat grote taalmodellen met een redeneringsversterkende aanpak gebruikt om complexe, n-ary medicijncombinaties uit biomedische literatuur nauwkeurig te extraheren.

Zhijun Wang, Ling Luo, Dinghao Pan, Huan Zhuang, Lejing Yu, Yuanyuan Sun, Hongfei Lin2026-03-10💬 cs.CL

Is continuous CoT better suited for multi-lingual reasoning?

Dit onderzoek toont aan dat continu redeneren in een latente ruimte, in tegenstelling tot expliciete Chain-of-Thought, aanzienlijk robuustere en efficiëntere meertalige redeneercapaciteiten biedt, vooral voor taakgebieden met beperkte bronnen en in zero-shot scenario's.

Ali Hamza Bashir, Behzad Shomali, Markus Frey, Mehdi Ali, Rafet Sifa, David Berghaus2026-03-10🤖 cs.LG

TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

Dit artikel introduceert TildeOpen LLM, een open-weight foundation model met 30 miljard parameters dat door middel van curriculum learning en data-oversampling is getraind om de prestaties en taalevenwicht voor 34 Europese talen, met name minder gebruikte talen, aanzienlijk te verbeteren zonder extra rekencapaciteit.

Toms Bergmanis, Martins Kronis, Ingus J\=anis Pretkalninš, D\=avis Nicmanis, Jelizaveta Jelinska, Roberts Rozis, Rinalds V\=iksna, M\=arcis Pinnis2026-03-10💬 cs.CL

Supporting Workflow Reproducibility by Linking Bioinformatics Tools across Papers and Executable Code

Dit paper introduceert CoPaLink, een geautomatiseerde aanpak die bio-informatica-tools in werkstroomcode koppelt aan hun vermeldingen in wetenschappelijke artikelen om reproduceerbaarheid en transparantie te verbeteren.

Clémence Sebe, Olivier Ferret, Aurélie Névéol, Mahdi Esmailoghli, Ulf Leser, Sarah Cohen-Boulakia2026-03-10💬 cs.CL

The Conundrum of Trustworthy Research on Attacking Personally Identifiable Information Removal Techniques

Dit artikel betoogt dat de huidige evaluaties van aanvallen op PII-verwijeringstechnieken door datalekken en contaminatie vertekend zijn, en dat het gebrek aan toegang tot echte privédata het publieke onderzoek verhindert om de werkelijke privacybescherming van deze methoden betrouwbaar te verifiëren.

Sebastian Ochs, Ivan Habernal2026-03-10💬 cs.CL

← Vorige Volgende →