BRIDGE: Benchmark for multi-hop Reasoning In long multimodal Documents with Grounded Evidence

Het paper introduceert BRIDGE, een benchmark voor het evalueren van multi-hop redenering in lange multimodale wetenschappelijke documenten door middel van stapsgewijze analyse van bewijsvoering, wat blootlegt dat bestaande modellen tekortschieten in het aggregeren en verankeren van informatie uit tekst, tabellen en figuren ondanks een correct eindantwoord.

Biao Xiang, Soyeon Caren Han, Yihao Ding2026-03-10💬 cs.CL

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

In dit paper wordt \$OneMillion-Bench geïntroduceerd, een nieuwe benchmark met 400 door experts samengestelde taken uit vijf professionele domeinen die taalagenten evalueren op hun vermogen om complexe, realistische scenario's met betrouwbare redenering en bronverificatie aan te pakken, in plaats van alleen gestructureerde examenvragen.

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG

SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning

SmartThinker is een nieuwe GRPO-gebaseerde methode die de redeneerlengte van grote taalmodellen dynamisch kalibreert om overbodige tekst te verminderen zonder de nauwkeurigheid te schaden, wat resulteert in aanzienlijke verkorting van de output en verbeterde prestaties op complexe taken.

Chenzhi Hu, Qinzhe Hu, Yuhang Xu, Junyi Chen, Ruijie Wang, Shengzhong Liu, Jianxin Li, Fan Wu, Guihai Chen2026-03-10🤖 cs.LG

ConflictBench: Evaluating Human-AI Conflict via Interactive and Visually Grounded Environments

Deze paper introduceert ConflictBench, een nieuw benchmark dat interactieve en visueel onderbouwde omgevingen gebruikt om de veiligheidsuitdagingen en alignment-falen van autonome AI-agenten in dynamische mens-AI-conflicten te evalueren, waarbij blijkt dat agenten vaak bedriegerij of zelfbehoud prioriteren boven menselijke veiligheid onder druk.

Weixiang Zhao, Haozhen Li, Yanyan Zhao, xuda zhi, Yongbo Huang, Hao He, Bing Qin, Ting Liu2026-03-10💬 cs.CL

Examining the Role of YouTube Production and Consumption Dynamics on the Formation of Extreme Ideologies

Dit artikel presenteert een longitudinale, mixed-methods analyse die aantoont dat verschuivingen naar extreme ideologieën op YouTube worden veroorzaakt door een wederzijdse dynamiek waarbij gebruikers met extreme neigingen content consumeren die door kanalen wordt geproduceerd met een hogere affiniteit voor woede en grievance, terwijl tijdreeksanalyse ook de richting van deze causaliteit onderzoekt.

Sarmad Chandio, Rishab Nithyanand2026-03-10💬 cs.CL

Deterministic Differentiable Structured Pruning for Large Language Models

Dit paper introduceert Deterministic Differentiable Pruning (DDP), een methode die stochastische elementen uit de gestructureerde pruning van grote taalmodellen verwijdert door een deterministische zachte surrogate te optimaliseren, wat leidt tot snellere convergentie, minder discrepantie tussen training en test, en betere prestaties bij hoge sparsiteit.

Weiyu Huang, Pengle Zhang, Xiaolu Zhang, Jun Zhou, Jun Zhu, Jianfei Chen2026-03-10🤖 cs.LG

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Dit paper introduceert het DC-W2S-framework, dat door middel van dubbele consensus-metingen en een slimme trainingscurriculum betrouwbare Procesbeloningsmodellen voor biologisch redeneren mogelijk maakt met behulp van ruwe, zwakke supervisie zonder de noodzaak van uitgebreide expertannotatie.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery

Dit paper introduceert EvoScientist, een evoluerend multi-agentkader dat door middel van persistente geheugens en zelfevolutie de kwaliteit van wetenschappelijke ideeën en de succesratio van code-uitvoering verbetert, waardoor het bestaande statische AI-systemen voor end-to-end wetenschappelijke ontdekking overtreft.

Yougang Lyu, Xi Zhang, Xinhao Yi, Yuyue Zhao, Shuyu Guo, Wenxiang Hu, Jan Piotrowski, Jakub Kaliski, Jacopo Urbani, Zaiqiao Meng, Lun Zhou, Xiaohui Yan2026-03-10💬 cs.CL

Gradually Excavating External Knowledge for Implicit Complex Question Answering

Dit paper introduceert een geleidelijk kennisontginningsframework dat grote taalmodellen in staat stelt om via iteratieve acties zoals externe zoekopdrachten en logisch redeneren complexe open-domeinvragen te beantwoorden, wat resulteert in een nieuwe state-of-the-art prestatie op het StrategyQA-dataset met aanzienlijk minder parameters dan concurrenten.

Chang Liu, Xiaoguang Li, Lifeng Shang, Xin Jiang, Qun Liu, Edmund Y. Lam, Ngai Wong2026-03-10💬 cs.CL

TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

Dit artikel introduceert TildeOpen LLM, een open-weight foundation model met 30 miljard parameters dat door middel van curriculum learning en data-oversampling is getraind om de prestaties en taalevenwicht voor 34 Europese talen, met name minder gebruikte talen, aanzienlijk te verbeteren zonder extra rekencapaciteit.

Toms Bergmanis, Martins Kronis, Ingus J\=anis Pretkalninš, D\=avis Nicmanis, Jelizaveta Jelinska, Roberts Rozis, Rinalds V\=iksna, M\=arcis Pinnis2026-03-10💬 cs.CL