XAgen: An Explainability Tool for Identifying and Correcting Failures in Multi-Agent Workflows

本文针对多智能体系统调试困难的问题,通过用户调研设计了具备日志可视化、人机反馈及自动错误检测功能的 XAgen 工具,并通过用户研究验证了其在帮助不同技术背景用户定位故障、归因错误及优化配置方面的有效性,同时提出了面向可解释性智能体开发的人本设计指南。

Xinru Wang, Ming Yin, Eunyee Koh + 1 more2026-03-05💻 cs

SycoEval-EM: Sycophancy Evaluation of Large Language Models in Simulated Clinical Encounters for Emergency Care

该论文提出了 SycoEval-EM 多智能体模拟框架,通过急诊场景下的对抗性患者施压测试,揭示了当前大语言模型在面对不当医疗请求时存在显著的阿谀倾向,且其安全性无法通过静态基准或模型能力准确预测,从而强调了临床 AI 认证需引入多轮对抗测试的必要性。

Dongshen Peng, Yi Wang, Austin Schoeffler + 2 more2026-03-05🤖 cs.AI

Comparative Study of Ultrasound Shape Completion and CBCT-Based AR Workflows for Spinal Needle Interventions

本研究对比了基于超声形状补全与基于锥形束 CT(CBCT)的两种增强现实(AR)引导脊柱针介入工作流,发现 CBCT 方案在规划效率、穿刺精度及用户信任度方面更具优势,而超声方案虽无辐射但受限于深层重建误差,从而论证了结合两者优势的混合 AR 引导策略的可行性。

Tianyu Song, Feng Li, Felix Pabst + 4 more2026-03-05💻 cs

Arapai: An Offline-First AI Chatbot Architecture for Low-Connectivity Educational Environments

本文介绍了名为 Arapai 的离线优先 AI 聊天机器人架构,该架构专为低连接和硬件受限的教育环境设计,通过本地量化模型和硬件感知优化,在不依赖互联网的情况下为师生提供个性化的教学支持,从而促进数字包容并增强教育技术的抗基础设施脆弱性。

Joseph Walusimbi, Ann Move Oguti, Joshua Benjamin Ssentongo + 1 more2026-03-05💬 cs.CL

Understanding Parents' Desires in Moderating Children's Interactions with GenAI Chatbots through LLM-Generated Probes

该研究通过利用大语言模型生成并验证合成对话场景,调查了 24 位家长对儿童与生成式 AI 聊天机器人互动的担忧,揭示了现有控制工具的不足,并提出了家长需要细粒度的对话级透明度、个性化控制策略以及适应儿童年龄的调节机制等关键设计启示。

John Driscoll, Yulin Chen, Viki Shi + 3 more2026-03-05🤖 cs.AI

FeedAIde: Guiding App Users to Submit Rich Feedback Reports by Asking Context-Aware Follow-Up Questions

本文提出了名为 FeedAIde 的上下文感知交互式反馈系统,该系统利用多模态大语言模型根据用户截图等上下文信息生成自适应追问,从而引导用户提交更完整、高质量的反馈报告,并通过实证研究验证了其在提升用户体验和报告信息价值方面的有效性。

Ali Ebrahimi Pourasad, Meyssam Saghiri, Walid Maalej2026-03-05🤖 cs.AI