Characterizing Faults in Agentic AI: A Taxonomy of Types, Symptoms, and Root Causes
该研究通过对 40 个开源智能体 AI 仓库的大规模实证分析,构建并验证了一套包含 37 种故障类型、13 类症状及 12 类根本原因的分类体系,揭示了概率生成与确定性约束不匹配等核心问题及其在系统中的传播模式。
3873 篇论文
该研究通过对 40 个开源智能体 AI 仓库的大规模实证分析,构建并验证了一套包含 37 种故障类型、13 类症状及 12 类根本原因的分类体系,揭示了概率生成与确定性约束不匹配等核心问题及其在系统中的传播模式。
本文介绍了名为 Twitch 的工具,该工具利用 Stitch 自动从部分失败证明或相关定理的成功证明中发现等式定理证明中有用的抽象模式,并通过扩展 Twee 求解器,在 TPTP 单位等式问题上实现了 12 个难度为 1 的问题证明及显著的速度提升。
该论文利用新开发的 LAVT 测试床,通过 180 次仿真实验揭示了基于视觉的遥操作系统在 150 至 225 毫秒单程感知延迟区间内会出现稳定性急剧崩溃的非线性退化现象,并量化了控制通道延迟对系统失效的加速作用。
本文提出了一种名为“扰动高斯集合”的主动视图选择框架,通过结合不确定性建模与序贯决策,利用随机密度缩放构建高斯密度场集合并选取预测方差最大的视角,从而在稀疏视图 CT 重建中有效消除几何伪影并提升重建质量。
该论文利用机械可解释性识别出大型音频语言模型中的“听觉”注意力头,并通过在推理阶段对最终表示进行激活干预(音频 - 静音导向),在不更新参数的情况下将模型在 MMAU 基准上的准确率提升了高达 8.0 个百分点,有效解决了模型过度依赖文本先验而忽视音频证据的问题。
该研究通过一项针对 400 名参与者的随机实验发现,在诗歌细读中,单一 AI 解读能同时提升表现与愉悦感,而多重解读仅改善表现,且过度依赖 AI 虽能提高任务表现却会削弱阅读乐趣,从而表明在文化解读中"AI 辅助少即是多”。
该研究通过评估四种多智能体拓扑结构在 302 个罕见病诊断案例中的表现,发现层级结构略优于其他配置,而对抗性结构因引入人为怀疑导致推理差距巨大且性能显著下降,表明增加系统复杂性并不必然提升推理能力,从而支持采用动态拓扑选择策略。
该论文指出当前自动漏洞修复系统因忽略包含开发者意图和根因信息的增强测试()而高估了补丁有效性,为此构建了基准并发现超 40% 的“正确”补丁在增强测试下失效,进而提出修复工具需在根因分析、规范遵循及意图捕捉三方面进行改进。
本文针对现有动态重建方法难以准确建模结肠镜下复杂蠕动运动的局限,提出了名为 ColonSplat 的动态高斯溅射框架,并构建了含真值点云的 DynamicColon 合成数据集,从而实现了在保持全局几何一致性的同时精确重建结肠蠕动运动。
本文提出了一种融合环境先验信息与双 Transformer 级联架构的新型硬件高效轨迹预测框架,通过结合工业相机采集的网球飞行数据与场地边界等先验知识,显著提升了复杂场景下飞行轨迹及落点的预测精度。
本文提出了 Robodimm 框架,该框架结合 Pinocchio 动力学与 Pink 逆运动学,利用 KKT 约束逆动力学方法,实现了针对可扩展模块化机器人(特别是含闭链结构)的自动化执行器选型与参数化缩放设计。
本文提出了名为 CAR 的跨车辆运动动力学适应框架,该框架利用 Transformer 编码器和自适应层归一化将不同车辆(从轮式到履带式)的轨迹与物理配置映射至共享潜在空间,从而仅需极少量新数据即可实现对新车辆平台的快速运动动力学迁移与预测。
该论文提出了一种名为 LEAD 的展望增强原子分解方法,通过引入短视野未来验证和重叠推演聚合,解决了长程推理中因极端分解导致的“不可恢复瓶颈”问题,显著提升了大模型在复杂算法任务中的稳定性与求解能力。
本文提出了 PICS,一种通过并行组合对象并显式建模空间交互的自监督图像合成范式,利用掩码引导的混合专家交互 Transformer 和自适应融合策略,有效解决了扩散模型在成对或序列编辑中空间关系不一致及内容覆盖的问题,并在虚拟试衣、室内及街景等场景中显著提升了合成质量与稳定性。
该研究通过实验发现,大语言模型回答的长度会调节用户对错误推理的识别能力,其中在模型推理错误时,中等长度的解释比过短或过长的解释更能帮助用户保持批判性判断的准确性。
该论文提出了一种将材料美学视为可解释性信号的设计框架,主张通过色彩、纹理和材质选择来引导人机交互预期、明确机器人角色并提升其可理解性,并通过内容分析验证了这一方法。
本文提出了“记号动画”这一交互范式,通过让用户在静态绘图上绘制表达运动意图的高层记号,结合形式化表示、自动关键帧生成及动态反馈机制,实现高效且灵活的动画创作与编辑。
该论文针对人工智能代理主导的“代理网络”对现有法律框架带来的挑战,提出了一种由自主身份、认知约束、去中心化裁决、自下而上的市场规制及可移植制度框架五层构成的分布式法律基础设施(DLI)治理范式,旨在通过互操作协议将合法性嵌入技术底层,从而在去中心化环境中实现可问责、可争议且符合法治原则的治理。
本文介绍了利用零样本 SAM 3 模型构建的开源预处理沙眼数据集 OPTED,该数据集通过自动化四步流水线从原始临床图像中提取感兴趣区域,旨在解决撒哈拉以南非洲地区缺乏高质量预训练数据的问题,以推动沙眼自动分类研究。
本文提出了一种名为 VertiAdaptor 的在线适应框架,通过融合高程与语义嵌入信息并利用神经常微分方程基函数,实现了非结构化越野环境中车辆运动动力学的快速自适应建模与规划,从而显著提升了预测精度与适应速度。