How Well Does Agent Development Reflect Real-World Work?

该论文通过系统分析 43 个基准测试与 72,342 个任务,揭示了当前 AI 代理开发过度集中于编程领域,与美国劳动力市场中实际就业和经济价值分布存在显著错位,并据此提出了涵盖性、真实性和细粒度评估三项原则,以指导设计更能反映社会重要性和技术挑战的基准测试。

Zora Zhiruo Wang, Sanidhya Vijayvargiya, Aspen Chen, Hanmo Zhang, Venu Arvind Arangarajan, Jett Chen, Valerie Chen, Diyi Yang, Daniel Fried, Graham Neubig2026-03-09🤖 cs.AI

Multimodal Mixture-of-Experts with Retrieval Augmentation for Protein Active Site Identification

本文提出了名为 MERA 的检索增强多模态混合专家框架,通过结合分层多专家检索与基于 Dempster-Shafer 证据理论的可靠性感知融合策略,有效解决了蛋白质活性位点识别中训练数据稀疏及模态可靠性估计不足的挑战,并在多个数据集上实现了最先进的预测性能。

Jiayang Wu, Jiale Zhou, Rubo Wang, Xingyi Zhang, Xun Lin, Tianxu Lv, Leong Hou U, Yefeng Zheng2026-03-09🤖 cs.AI

"When to Hand Off, When to Work Together": Expanding Human-Agent Co-Creative Collaboration through Concurrent Interaction

该论文通过两项研究揭示了当前 AI 代理在协同创作中缺乏对并发用户动作的实时理解能力,进而提出了能解析协作意图并实时自适应的 CLEO 系统,并通过决策模型阐明了人类与代理在委托、指导及并发协作等模式间的动态切换机制。

Kihoon Son, Hyewon Lee, DaEun Choi, Yoonsu Kim, Tae Soo Kim, Yoonjoo Lee, John Joon Young Chung, HyunJoon Jung, Juho Kim2026-03-09🤖 cs.AI

Rigidity-Aware Geometric Pretraining for Protein Design and Conformational Ensembles

本文提出了名为 RigidSSL 的几何预训练框架,通过结合刚性感知流匹配目标与大规模结构扰动及分子动力学数据,有效解决了现有蛋白质生成模型在几何联合学习、全局刚性理解及动态构象建模方面的局限,显著提升了蛋白质设计的可设计性、新颖性及构象系综的物理真实性。

Zhanghan Ni, Yanjing Li, Zeju Qiu, Bernhard Schölkopf, Hongyu Guo, Weiyang Liu, Shengchao Liu2026-03-09🤖 cs.AI

Exploring Human-in-the-Loop Themes in AI Application Development: An Empirical Thematic Analysis

该论文通过对客服聊天bot的回顾性日记研究及对八位AI专家的半结构化访谈,运用五轮主题分析法提炼出AI治理与人类权威、人机循环迭代优化、AI系统生命周期与运营约束、以及人机团队协作协调四大主题,旨在为后续的人机回环(HITL)框架设计与验证提供实证依据。

Parm Suksakul, Nathan Kittichaikoonkij, Nakhin Polthai, Aung Pyae2026-03-09🤖 cs.AI

From Toil to Thought: Designing for Strategic Exploration and Responsible AI in Systematic Literature Reviews

本文通过一项涉及 20 名资深研究者的探索性设计研究,揭示了系统文献综述中存在的认知负荷与工具碎片化等挑战,并据此提出了名为 ARC 的设计原型,该原型通过多数据库集成、透明迭代搜索及可验证的 AI 辅助筛选,有效帮助研究者从繁琐的行政工作中解放出来,转向更具战略性的知识探索与负责任的人工智能辅助决策。

Runlong Ye, Naaz Sibia, Angela Zavaleta Bernuy, Tingting Zhu, Carolina Nobre, Viktoria Pammer-Schindler, Michael Liut2026-03-09🤖 cs.AI

Traversal-as-Policy: Log-Distilled Gated Behavior Trees as Externalized, Verifiable Policies for Safe, Robust, and Efficient Agents

该论文提出了“遍历即策略”(Traversal-as-Policy)框架,通过将沙盒执行日志蒸馏为可执行的门控行为树(GBT),将控制策略从隐式生成转变为显式遍历,从而在 OpenHands 基准测试中显著提升了智能体的任务成功率、安全性并降低了成本。

Peiran Li, Jiashuo Sun, Fangzhou Lin, Shuo Xing, Tianfu Fu, Suofei Feng, Chaoqun Ni, Zhengzhong Tu2026-03-09🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

本文提出了 Omni-C,一种基于单一稠密 Transformer 编码器的统一架构,它通过大规模非对齐数据的单模态对比预训练和轻量级投影头,在无需混合专家(MoE)或配对监督的情况下,有效压缩了图像、音频和文本等异构模态,显著降低了推理内存开销并实现了与专家模型相当的性能。

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de Gusmão2026-03-09🤖 cs.AI

JAWS: Enhancing Long-term Rollout of Neural Operators via Spatially-Adaptive Jacobian Regularization

本文提出了名为 JAWS 的基于空间自适应雅可比正则化的概率正则化策略,通过根据局部物理复杂度动态调整正则化强度,在抑制高频不稳定性与保留奇异特征梯度之间取得平衡,从而显著提升了神经算子在长时程推演中的稳定性、激波保真度及泛化能力,同时降低了训练计算成本。

Fengxiang Nie, Yasuhiro Suzuki2026-03-09🤖 cs.AI

Human-Data Interaction, Exploration, and Visualization in the AI Era: Challenges and Opportunities

本文探讨了人工智能时代人类 - 数据交互、探索与可视化所面临的挑战(如非结构化数据、基础模型带来的不确定性及现有交互范式局限),并提出了通过重新定义人机角色、超越传统效率指标以及融合认知与设计原则来构建面向交互式数据分析的人本 AI 系统的未来研究方向。

Jean-Daniel Fekete, Yifan Hu, Dominik Moritz, Arnab Nandi, Senjuti Basu Roy, Eugene Wu, Nikos Bikakis, George Papastefanatos, Panos K. Chrysanthis, Guoliang Li, Lingyun Yu2026-03-09🤖 cs.AI

EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

本文介绍了 EigenData,一个通过多智能体架构实现函数调用数据合成、审计与修复的自进化平台,该平台在修复 Berkeley 函数调用排行榜(BFCL-V3)基准测试的同时,引入了基于数据库状态正确性的结果感知评估协议,显著提升了模型排名与人类对功能正确性判断的相关性。

Jiaao Chen, Jingyuan Qi, Mingye Gao, Wei-Chen Wang, Hanrui Wang, Di Jin2026-03-09✓ Author reviewed 🤖 cs.AI

Towards Efficient and Stable Ocean State Forecasting: A Continuous-Time Koopman Approach

本文提出了一种连续时间 Koopman 自编码器(CT-KAE)作为双层准地转海洋系统的轻量级代理模型,通过将其非线性动力学投影为线性常微分方程,实现了比自回归 Transformer 基线更稳定、误差增长有界且推理速度快数个数量级的长时序海洋状态预测。

Rares Grozavescu, Pengyu Zhang, Mark Girolami, Etienne Meunier2026-03-09🔬 physics.app-ph