DRBench: A Realistic Benchmark for Enterprise Deep Research

本文介绍了 DRBench,这是一个面向企业场景的基准测试,旨在通过结合公开网络与私有知识库的多步骤复杂任务,评估 AI 智能体在深度研究中的事实准确性、信息召回及报告生成能力。

Amirhossein Abaskohi, Tianyi Chen, Miguel Muñoz-Mármol, Curtis Fox, Amrutha Varshini Ramesh, Étienne Marcotte, Xing Han Lù, Nicolas Chapados, Spandana Gella, Peter West, Giuseppe Carenini, Christopher Pal, Alexandre Drouin, Issam H. LaradjiWed, 11 Ma💬 cs.CL

Latent Speech-Text Transformer

该论文提出了潜语音 - 文本 Transformer(LST),通过将离散语音令牌聚合为更高阶的潜语音补丁,解决了语音与文本模态间的序列长度不平衡问题,从而在提升计算效率的同时显著增强了跨模态对齐能力,并在语音理解、生成及下游任务中实现了性能与效率的双重优化。

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

本文介绍了 AlphaApollo 系统,该系统通过多轮智能体推理、多轮智能体学习(结合工具使用强化学习)以及多轮智能体进化(提出 - 判断 - 更新循环)三大核心组件,有效解决了基础模型在复杂长程推理中的能力瓶颈及测试时演进的不可靠问题,并在多个数学基准测试中显著提升了不同规模模型的性能。

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo HanWed, 11 Ma🤖 cs.AI

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

本文提出了旨在评估导航智能体空间感知与推理能力的 NavSpace 基准及包含六个任务类别的 1,228 条轨迹 - 指令对,并通过该基准对 22 种现有模型进行了全面评估,同时推出了在 NavSpace 和真实机器人测试中均表现优异的新型空间智能导航模型 SNav。

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao DongWed, 11 Ma🤖 cs.AI

SynthWorlds: Controlled Parallel Worlds for Disentangling Reasoning and Knowledge in Language Models

本文提出了名为 SynthWorlds 的框架,通过构建具有相同逻辑结构但知识映射不同的“真实世界”与“合成世界”平行语料库,成功将语言模型的推理能力与参数化事实知识解耦,从而在受控环境中精确评估并量化了模型对记忆知识的依赖程度。

Ken Gu, Advait Bhat, Mike A Merrill, Robert West, Xin Liu, Daniel McDuff, Tim AlthoffWed, 11 Ma💬 cs.CL

Does Scientific Writing Converge to U.S. English? Evidence from Generative AI-Assisted Publications

该研究基于 565 万篇科学论文的大数据分析发现,生成式人工智能(GenAI)显著推动了非英语国家学者的学术写作向美式英语风格收敛,尤其在语言距离较远和期刊影响力较低的情境中,这一趋势表明 GenAI 正在降低科学出版中的语言壁垒,但也引发了关于这是促进包容还是加深对单一语言标准依赖的讨论。

Dragan Filimonovic, Christian Rutzer, Jeffrey Macher, Rolf WederWed, 11 Ma💬 cs.CL

PRISM of Opinions: A Persona-Reasoned Multimodal Framework for User-centric Conversational Stance Detection

该论文针对现有研究在伪多模态和用户同质化方面的局限,提出了首个用户中心的多模态立场检测数据集 U-MStance 及 PRISM 框架,通过构建纵向用户画像、利用思维链对齐多模态语境以及任务互增强机制,显著提升了复杂对话场景下的立场检测性能。

Bingbing Wang, Zhixin Bai, Zhengda Jin, Zihan Wang, Xintong Song, Jingjie Lin, Sixuan Li, Jing Li, Ruifeng XuWed, 11 Ma💬 cs.CL

From Veracity to Diffusion: Adressing Operational Challenges in Moving From Fake-News Detection to Information Disorders

本文通过对比 EVONS 和 FakeNewsNet 数据集上的虚假新闻检测与病毒式传播预测,揭示了从真实性判断转向扩散动态预测时基准表现的关键差异,并提出了在有限资源下实现高效、透明且媲美前沿水平的虚假信息预测操作化方案。

Francesco Paolo Savatteri (ENC), Chahan Vidal-Gorène (CJM, LIPN), Florian Cafiero (ENC)Wed, 11 Ma💬 cs.CL

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

本文提出了 DEER 基准,通过构建包含 101 项细粒度标准的专家级评估体系及主张验证架构,系统性地解决了深度研究代理在生成专家报告时面临的评估维度复杂、领域错误识别难及证据验证缺失等挑战,并揭示了现有系统在满足专家需求与逻辑完整性方面的改进空间。

Janghoon Han, Heegyu Kim, Changho Lee, Dahm Lee, Min Hyung Park, Hosung Song, Stanley Jungkyu Choi, Moontae Lee, Honglak LeeWed, 11 Ma💬 cs.CL

From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents

该论文提出了一种名为 EigenData 的统一框架,通过结合自进化合成数据引擎与基于验证器的强化学习(RL),有效解决了多轮交互式工具使用智能体在数据合成扩展性及训练信号噪声方面的挑战,并在 tau^2-bench 基准测试中取得了媲美或超越前沿模型的性能。

Jiaxuan Gao, Jiaao Chen, Chuyi He, Shusheng Xu, Di Jin, Yi WuWed, 11 Ma🤖 cs.AI

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

该论文提出了名为 SkillCraft 的基准测试,旨在评估大语言模型智能体在长程工作流中抽象和复用高阶工具组合(即“技能”)的能力,并通过引入轻量级评估协议验证了技能积累与复用能显著提升执行效率(最高减少 80% 的 Token 消耗)并增强任务成功率。

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye TehWed, 11 Ma💬 cs.CL