From Features to Actions: Explainability in Traditional and Agentic AI Systems

该论文通过对比静态分类任务中的归因解释与智能体基准测试中的轨迹诊断,揭示了传统特征归因方法无法有效诊断智能体执行失败,从而论证了转向轨迹级可解释性对于评估和诊断自主 AI 行为(特别是状态跟踪不一致问题)的必要性。

Sindhuja Chaduvula, Jessee Ho, Kina Kim, Aravind Narayanan, Mahshid Alinoori, Muskan Garg, Dhanesh Ramachandram, Shaina Raza2026-03-09🤖 cs.AI

Towards Autonomous Mathematics Research

本文介绍了名为 Aletheia 的自主数学研究智能体,它通过结合先进推理模型、推理时扩展定律及工具使用能力,实现了从奥林匹克竞赛题到生成无人类干预研究论文、证明新定理及解决开放问题等里程碑式的 AI 辅助数学研究突破。

Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-Tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong2026-03-09🤖 cs.AI

Why Human Guidance Matters in Collaborative Vibe Coding

这项基于 737 名参与者的研究通过对比实验发现,在“氛围编程”(vibe coding)协作中,人类主导指令而 AI 负责评估的混合模式表现最佳,且人类提供的高层指令能有效避免 AI 主导指令导致的性能崩溃,凸显了人类指导在构建未来人机协作社会中的关键作用。

Haoyu Hu, Raja Marjieh, Katherine M Collins, Chenyi Li, Thomas L. Griffiths, Ilia Sucholutsky, Nori Jacoby2026-03-09🤖 cs.AI

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

本文通过系统文献综述批判了机器学习中将人类分歧视为噪声的“共识陷阱”谬误,揭示了数据标注中存在的锚定偏差与西方中心主义霸权,并主张将分歧重新定义为构建文化胜任模型的关键信号,从而推动从追求单一“真理”向映射人类经验多样性的标注范式转型。

Sheza Munir, Benjamin Mah, Krisha Kalsi, Shivani Kapania, Julian Posada, Edith Law, Ding Wang, Syed Ishtiaque Ahmed2026-03-09🤖 cs.AI

CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

本文提出了名为 CoME 的新型移动智能体架构,通过引入四个针对特定推理阶段的专家模块、分阶段渐进式训练策略以及基于信息增益的 Info-DPO 优化方法,有效解决了现有移动智能体在屏幕总结、子任务规划等混合能力推理中难以实现解耦增强与平衡协同的问题,并在 AITZ 和 AMEX 数据集上取得了优于密集模型及混合专家方法的表现。

Yuxuan Liu, Weikai Xu, Kun Huang, Changyu Chen, Jiankun Zhao, Pengzhi Gao, Wei Liu, Jian Luan, Shuo Shang, Bo Du, Ji-Rong Wen, Rui Yan2026-03-09🤖 cs.AI

How Well Does Agent Development Reflect Real-World Work?

该论文通过系统分析 43 个基准测试与 72,342 个任务,揭示了当前 AI 代理开发过度集中于编程领域,与美国劳动力市场中实际就业和经济价值分布存在显著错位,并据此提出了涵盖性、真实性和细粒度评估三项原则,以指导设计更能反映社会重要性和技术挑战的基准测试。

Zora Zhiruo Wang, Sanidhya Vijayvargiya, Aspen Chen, Hanmo Zhang, Venu Arvind Arangarajan, Jett Chen, Valerie Chen, Diyi Yang, Daniel Fried, Graham Neubig2026-03-09🤖 cs.AI