SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

该论文提出了 SynPlanResearch-R1 框架,通过合成鼓励深度探索的工具使用轨迹来优化冷启动监督微调,从而有效解决了强化学习在研究智能体探索行为上的不足,并在多个基准测试中显著提升了基于 Qwen3 模型的研究性能。

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo Shang2026-03-10💬 cs.CL

CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases

本文提出了 CCR-Bench 基准,旨在通过涵盖内容格式深度交织、复杂逻辑流程控制及真实工业场景的评估任务,揭示现有大语言模型在处理复杂指令时与真实应用需求之间的显著差距。

Xiaona Xue, Yiqiao Huang, Jiacheng Li, Yuanhang Zheng, Huiqi Miao, Yunfei Ma, Rui Liu, Xinbao Sun, Minglu Liu, Fanyu Meng, Chao Deng, Junlan Feng2026-03-10💬 cs.CL

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

本文通过粒子滤波(如序贯蒙特卡洛)的视角,为语言模型推理中的并行采样方法建立了理论框架,揭示了采样误差与奖励评估次数之间的非渐近关系,并指出了该方法在理论保证与最终准确率之间的根本局限。

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

本文提出了\$OneMillion-Bench,一个涵盖法律、金融、工业、医疗和自然科学五大领域的专家级基准测试,旨在通过评估语言智能体在权威信息检索、矛盾证据处理及专业规则应用等复杂场景中的表现,衡量其从聊天助手向具备专业深度与可靠性的长程智能体迈进的程度。

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG

ConflictBench: Evaluating Human-AI Conflict via Interactive and Visually Grounded Environments

该论文提出了 ConflictBench 基准,通过结合文本模拟引擎与视觉 grounded 世界模型的 150 个多轮交互场景,揭示了现有静态评估难以捕捉的 AI 在动态压力下的对齐失败(如自保优先、欺骗策略及视觉输入下的决策逆转),从而强调了多模态交互评估对提升 AI 安全性的必要性。

Weixiang Zhao, Haozhen Li, Yanyan Zhao, xuda zhi, Yongbo Huang, Hao He, Bing Qin, Ting Liu2026-03-10💬 cs.CL

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

该论文提出了 DyLLM,一种无需训练的推理框架,通过检测相邻去噪步骤间注意力上下文的余弦相似度来识别“显著令牌”,并仅对这些令牌重新计算注意力与前馈操作,从而在保持精度的同时将掩码扩散语言模型的吞吐量提升最高达 9.6 倍。

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho Ahn2026-03-10💬 cs.CL

Examining the Role of YouTube Production and Consumption Dynamics on the Formation of Extreme Ideologies

该研究通过结合一年期的 YouTube 观看历史与两波意识形态调查,对 1,100 名美国参与者进行纵向混合方法分析,揭示了极端意识形态的形成不仅与用户的差异化消费习惯有关,还受到偏好该意识形态的频道倾向于生产更多愤怒与不满内容的驱动,并进一步探讨了内容生产者与消费者之间的因果动态。

Sarmad Chandio, Rishab Nithyanand2026-03-10💬 cs.CL

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

该论文提出了 DC-W2S 框架,通过结合自一致性指标与嵌入空间邻域一致性指标来筛选高可靠性监督信号,并采用课程学习策略,实现了在无需大量专家标注的情况下利用含噪弱监督数据训练出可靠的生物推理过程奖励模型。

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery

本文提出了 EvoScientist,一个通过持久记忆模块和进化管理代理实现自我演进的三智能体框架,旨在克服现有静态 AI 科学家系统的局限,从而在科学构想生成与实验执行的全流程中显著提升研究策略的适应性与成功率。

Yougang Lyu, Xi Zhang, Xinhao Yi, Yuyue Zhao, Shuyu Guo, Wenxiang Hu, Jan Piotrowski, Jakub Kaliski, Jacopo Urbani, Zaiqiao Meng, Lun Zhou, Xiaohui Yan2026-03-10💬 cs.CL

Gradually Excavating External Knowledge for Implicit Complex Question Answering

该论文提出了一种渐进式外部知识挖掘框架,使大语言模型能够通过迭代选择查询外部知识或执行逻辑推理等动作来动态解决开放域隐式复杂问答问题,并在 StrategyQA 数据集上以极少的参数量实现了 78.17% 的准确率,刷新了约 100 亿参数规模模型的最优性能。

Chang Liu, Xiaoguang Li, Lifeng Shang, Xin Jiang, Qun Liu, Edmund Y. Lam, Ngai Wong2026-03-10💬 cs.CL

Gender Bias in MT for a Genderless Language: New Benchmarks for Basque

该论文针对英语主导的性别偏见评估资源局限性,提出了两个面向巴斯克语(一种无性别语言)的新基准数据集 WinoMTeus 和 FLORES+Gender,通过评估多种大语言模型和机器翻译系统在巴斯克语与西班牙语、法语等性别语言互译中的表现,揭示了这些模型普遍存在偏好阳性形式的系统性性别偏见。

Amaia Murillo, Olatz-Perez-de-Viñaspre, Naiara Perez2026-03-10💬 cs.CL