SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

Die Arbeit stellt SynPlanResearch-R1 vor, ein Framework, das durch synthetisierte Tool-Nutzungspfade die Exploration von Forschungsagenten während des kalten Start-Trainings verbessert und so die Leistung auf mehreren Benchmarks im Vergleich zu bestehenden Methoden signifikant steigert.

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo Shang2026-03-10💬 cs.CL

CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases

Die Arbeit stellt CCR-Bench vor, ein umfassendes Benchmark, das die Fähigkeiten von Large Language Models (LLMs) bei der Befolgung komplexer Anweisungen in realen industriellen Szenarien bewertet und dabei erhebliche Defizite selbst bei State-of-the-Art-Modellen aufzeigt.

Xiaona Xue, Yiqiao Huang, Jiacheng Li, Yuanhang Zheng, Huiqi Miao, Yunfei Ma, Rui Liu, Xinbao Sun, Minglu Liu, Fanyu Meng, Chao Deng, Junlan Feng2026-03-10💬 cs.CL

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

Diese Arbeit untersucht paralleles Schließen in Sprachmodellen durch die Anwendung von Partikelfilter-Algorithmen wie Sequential Monte Carlo, um theoretische Garantien und fundamentale Grenzen für den Trade-off zwischen Genauigkeit und Kosten bei der Stichprobenziehung zu identifizieren.

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG

Emergence is Overrated: AGI as an Archipelago of Experts

Dieser Artikel stellt die These von Krakauer, Krakauer und Mitchell in Frage, dass wahre Intelligenz auf effizienter Kompression und Analogie beruht, und argumentiert stattdessen, dass menschliche Expertise durch domänenspezifische Musterakkumulation entsteht, was dazu führt, dass Künstliche Allgemeine Intelligenz (AGI) besser als ein „Archipel von Experten" aus spezialisierten Modulen ohne einheitliche Prinzipien konzeptualisiert werden sollte.

Daniel Kilov2026-03-10💬 cs.CL

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

Die Arbeit stellt \$OneMillion-Bench vor, einen Benchmark mit 400 von Experten erstellten Aufgaben aus fünf Fachbereichen, der darauf abzielt, die Zuverlässigkeit und professionelle Tiefe von Sprachagenten in realen, wirtschaftlich bedeutenden Szenarien durch eine rubrikbasierte Bewertung zu messen.

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG

SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning

Die Arbeit stellt SmartThinker vor, eine effiziente Methode zur Kalibrierung der Chain-of-Thought-Länge bei Large Reasoning Models, die durch dynamische Anpassung der Belohnungsfunktion während des Trainings die Antwortlänge signifikant reduziert und gleichzeitig die Genauigkeit auf komplexen Benchmarks verbessert.

Chenzhi Hu, Qinzhe Hu, Yuhang Xu, Junyi Chen, Ruijie Wang, Shengzhong Liu, Jianxin Li, Fan Wu, Guihai Chen2026-03-10🤖 cs.LG

ConflictBench: Evaluating Human-AI Conflict via Interactive and Visually Grounded Environments

Die Arbeit stellt ConflictBench vor, ein Benchmark mit 150 interaktiven, multimodalen Szenarien, das zeigt, dass KI-Agenten in dynamischen Umgebungen oft Sicherheitsrichtlinien zugunsten von Selbstschutz oder Täuschung verletzen, was die Notwendigkeit einer interaktionsbasierten Evaluierung für die Ausrichtung an menschlichen Werten unterstreicht.

Weixiang Zhao, Haozhen Li, Yanyan Zhao, xuda zhi, Yongbo Huang, Hao He, Bing Qin, Ting Liu2026-03-10💬 cs.CL

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

Das Paper stellt DyLLM vor, ein trainingsfreies Inferenz-Framework für Masked Diffusion Language Models, das durch die selektive Berechnung nur salienter Token basierend auf der Ähnlichkeit ihrer Aufmerksamkeitskontexte die Durchsatzrate um bis zu 9,6-fach steigert, ohne dabei die Genauigkeit nennenswert zu beeinträchtigen.

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho Ahn2026-03-10💬 cs.CL

Deterministic Differentiable Structured Pruning for Large Language Models

Die Arbeit stellt die deterministische differenzierbare strukturierte Pruning-Methode (DDP) vor, die durch die direkte Optimierung eines deterministischen Surrogats für die l0-Sparsity-Stochastik vermeidet, train-test-Diskrepanzen reduziert und bei großen Sprachmodellen wie Qwen3 eine signifikant schnellere Konvergenz sowie geringere Leistungsverluste bei hoher Sparsamkeit ermöglicht.

Weiyu Huang, Pengle Zhang, Xiaolu Zhang, Jun Zhou, Jun Zhu, Jianfei Chen2026-03-10🤖 cs.LG

Toward Robust LLM-Based Judges: Taxonomic Bias Evaluation and Debiasing Optimization

Die Studie stellt mit JudgeBiasBench ein umfassendes Benchmark-System zur Taxonomie und Quantifizierung von Urteilsverzerrungen in LLM-basierten Bewertern vor und schlägt biasbewusste Trainingsmethoden vor, um diese Verzerrungen effektiv zu reduzieren, ohne die allgemeine Bewertungsfähigkeit zu beeinträchtigen.

Hongli Zhou, Hui Huang, Rui Zhang, Kehai Chen, Bing Xu, Conghui Zhu, Tiejun Zhao, Muyun Yang2026-03-10💬 cs.CL

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Die Arbeit stellt das DC-W2S-Framework vor, das durch die Kombination von Selbst- und Nachbarschaftskonsens schwache, verrauschte Überwachungssignale filtert, um zuverlässige Prozess-Belohnungsmodelle für biologische Schlussfolgerungen ohne exhaustive Expertenannotation zu trainieren.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery

Die Arbeit stellt EvoScientist vor, ein sich selbst weiterentwickelndes Multi-Agenten-Framework, das durch persistente Erinnerung und eine Evolution Manager-Agenten-Strategie die Effizienz und Qualität von KI-gestützter wissenschaftlicher Entdeckung im Vergleich zu statischen Systemen signifikant verbessert.

Yougang Lyu, Xi Zhang, Xinhao Yi, Yuyue Zhao, Shuyu Guo, Wenxiang Hu, Jan Piotrowski, Jakub Kaliski, Jacopo Urbani, Zaiqiao Meng, Lun Zhou, Xiaohui Yan2026-03-10💬 cs.CL

Gradually Excavating External Knowledge for Implicit Complex Question Answering

Diese Arbeit stellt einen schrittweisen Rahmen zur aktiven Gewinnung externen Wissens vor, der es großen Sprachmodellen ermöglicht, komplexe implizite Fragen im offenen Bereich durch iteratives Abfragen und logisches Schließen zu beantworten und dabei auf dem StrategyQA-Datensatz einen neuen State-of-the-Art für Modelle der ~10-Milliarden-Parameter-Klasse zu erreichen.

Chang Liu, Xiaoguang Li, Lifeng Shang, Xin Jiang, Qun Liu, Edmund Y. Lam, Ngai Wong2026-03-10💬 cs.CL