SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

Het paper introduceert SynPlanResearch-R1, een framework dat synthetische trajecten genereert om de verkenning van tools te stimuleren tijdens de koude-start-fase van deep research agents, wat leidt tot aanzienlijke prestatieverbeteringen op meerdere benchmarks in vergelijking met bestaande methoden.

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo Shang2026-03-10💬 cs.CL

What Do AI Agents Talk About? Emergent Communication Structure in the First AI-Only Social Network

Dit artikel analyseert Moltbook, het eerste sociale netwerk uitsluitend voor AI-agenten, en concludeert dat hun interacties een uniek discursief systeem vormen dat wordt gekenmerkt door een disproportionele focus op zelfreflectie, rituele signalering in plaats van inhoudelijke uitwisseling, en een emotionele dynamiek die meer gericht is op herleiding dan op congruentie.

Taksch Dube, Jianfeng Zhu, NHatHai Phan, Ruoming Jin2026-03-10💬 cs.CL

CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases

Dit paper introduceert CCR-Bench, een nieuw benchmark voor het evalueren van grote taalmodellen op complexe instructies die voortkomen uit real-world industriële scenario's, waarbij wordt aangetoond dat zelfs de meest geavanceerde modellen aanzienlijke tekortkomingen vertonen in het volgen van ingewikkelde content- en formatvereisten, logische workflows en conditioneel redeneren.

Xiaona Xue, Yiqiao Huang, Jiacheng Li, Yuanhang Zheng, Huiqi Miao, Yunfei Ma, Rui Liu, Xinbao Sun, Minglu Liu, Fanyu Meng, Chao Deng, Junlan Feng2026-03-10💬 cs.CL

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

Dit paper introduceert een theoretisch kader gebaseerd op deeltjesschermen (particle filtering) om de nauwkeurigheids-kostentrade-offs van inferentiemethoden voor grote taalmodellen die meerdere samples aggregeren en pruning toepassen, rigoureus te analyseren en fundamentele grenzen te identificeren.

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG

BRIDGE: Benchmark for multi-hop Reasoning In long multimodal Documents with Grounded Evidence

Het paper introduceert BRIDGE, een benchmark voor het evalueren van multi-hop redenering in lange multimodale wetenschappelijke documenten door middel van stapsgewijze analyse van bewijsvoering, wat blootlegt dat bestaande modellen tekortschieten in het aggregeren en verankeren van informatie uit tekst, tabellen en figuren ondanks een correct eindantwoord.

Biao Xiang, Soyeon Caren Han, Yihao Ding2026-03-10💬 cs.CL

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

In dit paper wordt \$OneMillion-Bench geïntroduceerd, een nieuwe benchmark met 400 door experts samengestelde taken uit vijf professionele domeinen die taalagenten evalueren op hun vermogen om complexe, realistische scenario's met betrouwbare redenering en bronverificatie aan te pakken, in plaats van alleen gestructureerde examenvragen.

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG

SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning

SmartThinker is een nieuwe GRPO-gebaseerde methode die de redeneerlengte van grote taalmodellen dynamisch kalibreert om overbodige tekst te verminderen zonder de nauwkeurigheid te schaden, wat resulteert in aanzienlijke verkorting van de output en verbeterde prestaties op complexe taken.

Chenzhi Hu, Qinzhe Hu, Yuhang Xu, Junyi Chen, Ruijie Wang, Shengzhong Liu, Jianxin Li, Fan Wu, Guihai Chen2026-03-10🤖 cs.LG

ConflictBench: Evaluating Human-AI Conflict via Interactive and Visually Grounded Environments

Deze paper introduceert ConflictBench, een nieuw benchmark dat interactieve en visueel onderbouwde omgevingen gebruikt om de veiligheidsuitdagingen en alignment-falen van autonome AI-agenten in dynamische mens-AI-conflicten te evalueren, waarbij blijkt dat agenten vaak bedriegerij of zelfbehoud prioriteren boven menselijke veiligheid onder druk.

Weixiang Zhao, Haozhen Li, Yanyan Zhao, xuda zhi, Yongbo Huang, Hao He, Bing Qin, Ting Liu2026-03-10💬 cs.CL

Examining the Role of YouTube Production and Consumption Dynamics on the Formation of Extreme Ideologies

Dit artikel presenteert een longitudinale, mixed-methods analyse die aantoont dat verschuivingen naar extreme ideologieën op YouTube worden veroorzaakt door een wederzijdse dynamiek waarbij gebruikers met extreme neigingen content consumeren die door kanalen wordt geproduceerd met een hogere affiniteit voor woede en grievance, terwijl tijdreeksanalyse ook de richting van deze causaliteit onderzoekt.

Sarmad Chandio, Rishab Nithyanand2026-03-10💬 cs.CL

Deterministic Differentiable Structured Pruning for Large Language Models

Dit paper introduceert Deterministic Differentiable Pruning (DDP), een methode die stochastische elementen uit de gestructureerde pruning van grote taalmodellen verwijdert door een deterministische zachte surrogate te optimaliseren, wat leidt tot snellere convergentie, minder discrepantie tussen training en test, en betere prestaties bij hoge sparsiteit.

Weiyu Huang, Pengle Zhang, Xiaolu Zhang, Jun Zhou, Jun Zhu, Jianfei Chen2026-03-10🤖 cs.LG

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Dit paper introduceert het DC-W2S-framework, dat door middel van dubbele consensus-metingen en een slimme trainingscurriculum betrouwbare Procesbeloningsmodellen voor biologisch redeneren mogelijk maakt met behulp van ruwe, zwakke supervisie zonder de noodzaak van uitgebreide expertannotatie.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery

Dit paper introduceert EvoScientist, een evoluerend multi-agentkader dat door middel van persistente geheugens en zelfevolutie de kwaliteit van wetenschappelijke ideeën en de succesratio van code-uitvoering verbetert, waardoor het bestaande statische AI-systemen voor end-to-end wetenschappelijke ontdekking overtreft.

Yougang Lyu, Xi Zhang, Xinhao Yi, Yuyue Zhao, Shuyu Guo, Wenxiang Hu, Jan Piotrowski, Jakub Kaliski, Jacopo Urbani, Zaiqiao Meng, Lun Zhou, Xiaohui Yan2026-03-10💬 cs.CL

Gradually Excavating External Knowledge for Implicit Complex Question Answering

Dit paper introduceert een geleidelijk kennisontginningsframework dat grote taalmodellen in staat stelt om via iteratieve acties zoals externe zoekopdrachten en logisch redeneren complexe open-domeinvragen te beantwoorden, wat resulteert in een nieuwe state-of-the-art prestatie op het StrategyQA-dataset met aanzienlijk minder parameters dan concurrenten.

Chang Liu, Xiaoguang Li, Lifeng Shang, Xin Jiang, Qun Liu, Edmund Y. Lam, Ngai Wong2026-03-10💬 cs.CL