How Well Does Agent Development Reflect Real-World Work?
该论文通过系统分析 43 个基准测试与 72,342 个任务,揭示了当前 AI 代理开发过度集中于编程领域,与美国劳动力市场中实际就业和经济价值分布存在显著错位,并据此提出了涵盖性、真实性和细粒度评估三项原则,以指导设计更能反映社会重要性和技术挑战的基准测试。
5704 篇论文
该论文通过系统分析 43 个基准测试与 72,342 个任务,揭示了当前 AI 代理开发过度集中于编程领域,与美国劳动力市场中实际就业和经济价值分布存在显著错位,并据此提出了涵盖性、真实性和细粒度评估三项原则,以指导设计更能反映社会重要性和技术挑战的基准测试。
本文提出了名为 MERA 的检索增强多模态混合专家框架,通过结合分层多专家检索与基于 Dempster-Shafer 证据理论的可靠性感知融合策略,有效解决了蛋白质活性位点识别中训练数据稀疏及模态可靠性估计不足的挑战,并在多个数据集上实现了最先进的预测性能。
该论文通过两项研究揭示了当前 AI 代理在协同创作中缺乏对并发用户动作的实时理解能力,进而提出了能解析协作意图并实时自适应的 CLEO 系统,并通过决策模型阐明了人类与代理在委托、指导及并发协作等模式间的动态切换机制。
本文介绍了名为 Whisper-RIR-Mega 的配对清洁与混响语音基准数据集,该数据集通过将 LibriSpeech 语料与 RIR-Mega 真实房间脉冲响应结合,并针对混响时间和直达声混响比进行分层划分,用于评估不同规模 Whisper 模型在房间声学条件下的自动语音识别鲁棒性。
本文提出了名为 RigidSSL 的几何预训练框架,通过结合刚性感知流匹配目标与大规模结构扰动及分子动力学数据,有效解决了现有蛋白质生成模型在几何联合学习、全局刚性理解及动态构象建模方面的局限,显著提升了蛋白质设计的可设计性、新颖性及构象系综的物理真实性。
该论文提出了一种将大语言模型与约束求解器相结合的神经符号方法,通过让大语言模型迭代生成辅助引理来辅助求解涉及归纳定义的约束问题,实验表明该方法能将相关证明任务的成功率提升约 25%。
该论文通过对客服聊天bot的回顾性日记研究及对八位AI专家的半结构化访谈,运用五轮主题分析法提炼出AI治理与人类权威、人机循环迭代优化、AI系统生命周期与运营约束、以及人机团队协作协调四大主题,旨在为后续的人机回环(HITL)框架设计与验证提供实证依据。
本文介绍了名为"Companion"的艺术装置,它通过结合绘图机器人与大语言模型,利用上下文学习和实时工具调用实现人机语音与绘画的双向互动,将机器人从被动执行者转变为能推动共同视觉叙事的创造性伙伴,并经专家评估证实了其作品具备独特的审美价值与专业展览潜力。
本文通过一项涉及 20 名资深研究者的探索性设计研究,揭示了系统文献综述中存在的认知负荷与工具碎片化等挑战,并据此提出了名为 ARC 的设计原型,该原型通过多数据库集成、透明迭代搜索及可验证的 AI 辅助筛选,有效帮助研究者从繁琐的行政工作中解放出来,转向更具战略性的知识探索与负责任的人工智能辅助决策。
该论文提出了“遍历即策略”(Traversal-as-Policy)框架,通过将沙盒执行日志蒸馏为可执行的门控行为树(GBT),将控制策略从隐式生成转变为显式遍历,从而在 OpenHands 基准测试中显著提升了智能体的任务成功率、安全性并降低了成本。
RoboLayout 通过引入可微分的可达性约束和局部细化优化机制,扩展了 LayoutVLM 框架,使其能够生成既符合语义逻辑又适应不同具身智能体物理交互能力的 3D 室内场景布局。
本文从自然语言处理(NLP)研究者的视角出发,综述了化学信息学中受 NLP 启发的主流分子表示方法及其在人工智能驱动的化学与材料科学中的应用,旨在为跨领域研究人员提供一份结构表示指南。
本文提出了 Omni-C,一种基于单一稠密 Transformer 编码器的统一架构,它通过大规模非对齐数据的单模态对比预训练和轻量级投影头,在无需混合专家(MoE)或配对监督的情况下,有效压缩了图像、音频和文本等异构模态,显著降低了推理内存开销并实现了与专家模型相当的性能。
该论文提出了 NGDBench,这是一个涵盖五个领域、支持完整 Cypher 查询语言并引入现实噪声与动态操作的首个统一基准,旨在评估并揭示当前大语言模型与 RAG 方法在处理结构化图数据时存在的推理、鲁棒性及精度局限。
该研究评估了 AI 工具 Boltz-2 在药物发现中的可靠性,发现尽管其预测速度极快,但在结合亲和力预测和结构收敛性方面表现不佳,缺乏 lead 识别所需的能量分辨率,因此仍需依赖基于物理的方法进行验证与优化。
本文提出了名为 JAWS 的基于空间自适应雅可比正则化的概率正则化策略,通过根据局部物理复杂度动态调整正则化强度,在抑制高频不稳定性与保留奇异特征梯度之间取得平衡,从而显著提升了神经算子在长时程推演中的稳定性、激波保真度及泛化能力,同时降低了训练计算成本。
本文介绍了 VDCook,一个基于自然语言查询和 MCP 协议实现自动检索与合成、支持持续演进与多维元数据标注的自进化视频数据操作系统,旨在降低构建垂直领域多模态大模型训练数据集的门槛。
本文探讨了人工智能时代人类 - 数据交互、探索与可视化所面临的挑战(如非结构化数据、基础模型带来的不确定性及现有交互范式局限),并提出了通过重新定义人机角色、超越传统效率指标以及融合认知与设计原则来构建面向交互式数据分析的人本 AI 系统的未来研究方向。
本文介绍了 EigenData,一个通过多智能体架构实现函数调用数据合成、审计与修复的自进化平台,该平台在修复 Berkeley 函数调用排行榜(BFCL-V3)基准测试的同时,引入了基于数据库状态正确性的结果感知评估协议,显著提升了模型排名与人类对功能正确性判断的相关性。
本文提出了一种连续时间 Koopman 自编码器(CT-KAE)作为双层准地转海洋系统的轻量级代理模型,通过将其非线性动力学投影为线性常微分方程,实现了比自回归 Transformer 基线更稳定、误差增长有界且推理速度快数个数量级的长时序海洋状态预测。