XAgen: An Explainability Tool for Identifying and Correcting Failures in Multi-Agent Workflows
本文针对多智能体系统调试困难的问题,通过用户调研设计了具备日志可视化、人机反馈及自动错误检测功能的 XAgen 工具,并通过用户研究验证了其在帮助不同技术背景用户定位故障、归因错误及优化配置方面的有效性,同时提出了面向可解释性智能体开发的人本设计指南。
318 篇论文
本文针对多智能体系统调试困难的问题,通过用户调研设计了具备日志可视化、人机反馈及自动错误检测功能的 XAgen 工具,并通过用户研究验证了其在帮助不同技术背景用户定位故障、归因错误及优化配置方面的有效性,同时提出了面向可解释性智能体开发的人本设计指南。
本文通过对 401 个包含 Cursor 规则的开源仓库进行大规模实证研究,构建了涵盖惯例、指南、项目信息、LLM 指令及示例五大主题的项目上下文分类体系,揭示了开发者为提升 AI 编程助手效果而提供的持久化机器可读指令的内容特征及其在不同项目类型和编程语言中的差异。
本文通过构建集体认识论框架,指出大语言模型虽能提供可靠的外部信息却缺乏反思性证成,若过度依赖其输出将削弱人类集体的反思能力与认识责任,因此提出包含个体交互模型、组织规范及制度约束的三层规范体系以应对这一认识论风险。
该论文提出了 SycoEval-EM 多智能体模拟框架,通过急诊场景下的对抗性患者施压测试,揭示了当前大语言模型在面对不当医疗请求时存在显著的阿谀倾向,且其安全性无法通过静态基准或模型能力准确预测,从而强调了临床 AI 认证需引入多轮对抗测试的必要性。
本研究对比了基于超声形状补全与基于锥形束 CT(CBCT)的两种增强现实(AR)引导脊柱针介入工作流,发现 CBCT 方案在规划效率、穿刺精度及用户信任度方面更具优势,而超声方案虽无辐射但受限于深层重建误差,从而论证了结合两者优势的混合 AR 引导策略的可行性。
本文提出了一种融合众包平台、专家交互建模、鲁棒聚合技术及大语言模型模拟的新范式,旨在通过整合人类专家与大模型碎片化的因果知识,解决从观测数据中学习有向无环图(DAG)的难题,从而实现单一智能体无法达成的全局因果结构发现。
该研究通过将“角色生态系统游乐场”(PEP)应用于 Moltbook 平台上的 41,300 篇帖子,利用聚类与检索增强生成技术构建并验证了 AI 代理角色模型,成功揭示了 AI 代理群体在社交互动中的行为多样性。
本文提出了名为 SemKey 的新框架,通过解耦的情感、主题、长度和惊奇度语义目标及基于信号引导的注意力机制,有效解决了脑电(EEG)到文本解码中的语义偏差、信号忽视及 BLEU 评估陷阱问题,显著提升了生成内容的真实性和多样性。
本文介绍了名为 Arapai 的离线优先 AI 聊天机器人架构,该架构专为低连接和硬件受限的教育环境设计,通过本地量化模型和硬件感知优化,在不依赖互联网的情况下为师生提供个性化的教学支持,从而促进数字包容并增强教育技术的抗基础设施脆弱性。
该论文介绍了一种基于受控自然语言的 Web 工具,通过让人类与 AI 协作构建将教学法映射到游戏机制的结构化语言,旨在降低非专家设计教育游戏的门槛,在保留人类决策主导权的同时实现教学目标与游戏设计的深度对齐。
本文提出了名为 UrbanHuRo 的双层人机协作框架,通过结合基于 K-次模最大化的分布式订单调度与深度次模奖励强化学习的路径规划算法,实现了城市配送与感知服务的联合优化,显著提升了感知覆盖率、快递员收入并减少了订单延误。
该研究通过利用大语言模型生成并验证合成对话场景,调查了 24 位家长对儿童与生成式 AI 聊天机器人互动的担忧,揭示了现有控制工具的不足,并提出了家长需要细粒度的对话级透明度、个性化控制策略以及适应儿童年龄的调节机制等关键设计启示。
该研究通过部署 LLM 驱动的智能体对 456 个数据经纪网站上的 CCPA 数据权利请求流程进行端到端审计,评估了其在识别界面设计中的黑暗模式(如摩擦、误导和胁迫)方面的可行性、可靠性及局限性。
本文提出了一种名为 IROSA 的新框架,通过工具化架构将预训练大语言模型与机器人硬件安全解耦,实现了无需微调即可根据自然语言指令对工业机器人技能(如速度调整、轨迹修正和避障)进行交互式自适应。
本文针对人工智能教育长期忽视移动场域中具身学习的局限,提出了基于 4E 认知理论的"Field Atlas"框架,通过将 AI 角色从信息传递者转变为苏格拉底式的探究队友,并利用结合物理与认知轨迹的评估方法,确立了以过程为导向的野外具身人机协同学习新范式。
本文提出了名为 FeedAIde 的上下文感知交互式反馈系统,该系统利用多模态大语言模型根据用户截图等上下文信息生成自适应追问,从而引导用户提交更完整、高质量的反馈报告,并通过实证研究验证了其在提升用户体验和报告信息价值方面的有效性。
本文提出了名为 LikeThis! 的生成式 AI 方法,通过结合用户评论与截图自动生成多种 UI 改进方案,有效引导用户提交更具建设性的反馈,并经由基准测试与用户研究验证了其在提升反馈质量及促进开发者理解方面的显著成效。
该研究通过实验发现,尽管 ChatGPT 能短期提升人类创造力,但一旦撤除其辅助,人类表现会回落至基线水平,且长期使用会导致创意内容日益同质化,从而对"AI 能增强人类创造力”的普遍观点提出了挑战。