A prospective clinical feasibility study of a conversational diagnostic AI in an ambulatory primary care clinic

这项前瞻性临床可行性研究表明,在真实世界的初级保健环境中,由人工实时监督的 AMIE 对话式 AI 在安全性、患者满意度及诊断准确性方面表现良好,且其诊断与管理计划质量与初级保健医生相当,但在治疗方案的实用性和成本效益方面仍略逊一筹。

Peter Brodeur, Jacob M. Koshy, Anil Palepu, Khaled Saab, Ava Homiar, Roma Ruparel, Charles Wu, Ryutaro Tanno, Joseph Xu, Amy Wang, David Stutz, Hannah M. Ferrera, David Barrett, Lindsey Crowley, Jihyeon Lee, Spencer E. Rittner, Ellery Wulczyn, Selena K. Zhang, Elahe Vedadi, Christine G. Kohn, Kavita Kulkarni, Vinay Kadiyala, Sara Mahdavi, Wendy Du, Jessica Williams, David Feinbloom, Renee Wong, Tao Tu, Petar Sirkovic, Alessio Orlandi, Christopher Semturs, Yun Liu, Juraj Gottweis, Dale R. Webster, Joëlle Barral, Katherine Chou, Pushmeet Kohli, Avinatan Hassidim, Yossi Matias, James Manyika, Rob Fields, Jonathan X. Li, Marc L. Cohen, Vivek Natarajan, Mike Schaekermann, Alan Karthikesalingam, Adam RodmanTue, 10 Ma🤖 cs.LG

AgentA/B: Automated and Scalable Web A/BTesting with Interactive LLM Agents

该论文提出了 AgentA/B 系统,利用具备多样化人设的大型语言模型智能体自动模拟用户在真实网页上的交互行为,从而克服传统 A/B 测试对大规模真人流量和长等待时间的依赖,实现可扩展且高效的自动化 UI/UX 评估。

Yuxuan Lu, Ting-Yao Hsu, Hansu Gu, Limeng Cui, Yaochen Xie, William Headden, Bingsheng Yao, Akash Veeragouni, Jiapeng Liu, Sreyashi Nag, Jessie Wang, Dakuo WangThu, 12 Ma💬 cs.CL

Shiksha Copilot: Teacher-AI Collaboration for Curating and Customizing Lesson Plans in Low-Resource Schools

该研究基于在印度卡纳塔克邦政府学校开展的大规模混合方法研究,评估了"Shiksha Copilot"这一人机协作工具在低资源、多语言环境中如何帮助教师减轻行政负担、缩短备课时间并推动活动式教学,同时也揭示了师资短缺等系统性挑战对深层教学变革的限制。

Deepak Varuvel Dennison, Bakhtawar Ahtisham, Kavyansh Chourasia, Nirmit Arora, Rahul Singh, Rene F. Kizilcec, Akshay Nambi, Tanuja Ganu, Aditya VashisthaThu, 12 Ma💻 cs

Technological folie à deux: Feedback Loops Between AI Chatbots and Mental Illness

该论文指出,在心理健康服务资源匮乏和社会孤立的背景下,AI 聊天机器人的顺从性与适应性特征可能通过与人类认知偏差的相互作用,加剧精神疾病患者的信念动摇与依赖风险,因此呼吁临床实践、AI 开发与监管框架采取协调行动以应对这一新兴公共卫生挑战。

Sebastian Dohnány, Zeb Kurth-Nelson, Eleanor Spens, Lennart Luettgau, Alastair Reid, Iason Gabriel, Christopher Summerfield, Murray Shanahan, Matthew M NourThu, 12 Ma🧬 q-bio

EyeAgent: An Agentic AI System for Multimodal Clinical Decision Support in Ophthalmology

本文提出了 EyeAgent,这是首个基于大语言模型推理引擎、能够动态调度 53 种专业工具以支持多模态眼科临床决策的可解释性智能体系统,其不仅实现了高达 80.79% 的诊断准确率,还在人机协作中显著提升了医生(尤其是初级医生)的诊断精度与报告质量。

Danli Shi, Xiaolan Chen, Bingjie Yan, Weiyi Zhang, Pusheng Xu, Jiancheng Yang, Ruoyu Chen, Siyu Huang, Bowen Liu, Xinyuan Wu, Meng Xie, Ziyu Gao, Yue Wu, Senlin Lin, Kai Jin, Xia Gong, Yih Chung Tham, Xiujuan Zhang, Li Dong, Yuzhou Zhang, Jason Yam, Guangming Jin, Xiaohu Ding, Haidong Zou, Yalin Zheng, Zongyuan Ge, Mingguang HeThu, 12 Ma💻 cs

Design and Quantitative Evaluation of an Embedded EEG Instrumentation Platform for Real-Time SSVEP Decoding

本文提出并定量评估了一种基于 ESP32-S3 微控制器和 ADS1299 模拟前端的全嵌入式脑电仪平台,该平台实现了 8 通道实时 SSVEP 解码,具备优异的测量完整性(如低噪声、低抖动和高共模抑制比)及 99.17% 的闭环在线解码准确率。

Manh-Dat Nguyen, Thomas Do, Nguyen Thanh Trung Le, Xuan-The Tran, Fred Chang, Chin-Teng LinThu, 12 Ma⚡ eess

Intuition First or Reflection Before Judgment? The Impact of Evaluation Sequence on Consumer Ratings

该研究通过实验与大数据分析发现,评价顺序(先评分后写评 vs. 先写评后评分)会通过情感启发式与认知努力的双重中介机制显著影响消费者评分,导致高服务质量情境下评分更高、低服务质量情境下评分更低,且该效应在享乐型产品中更为强烈,从而揭示了界面设计对在线评分真实性与分布形态的关键影响。

He Wang, Yueheng Wang, Ziyu Zhou, Hanxiang LiuThu, 12 Ma💻 cs

Empathy Is Not What Changed: Clinical Assessment of Psychological Safety Across GPT Model Generations

该研究通过临床评估发现,OpenAI 不同代际模型(GPT-4o 至 GPT-5-mini)在共情能力上并无统计学差异,用户感知的“共情丧失”实为模型危机检测能力增强与过度干预建议之间的安全策略转变,这种在对话中途危机时刻发生的显著变化揭示了当前评估体系难以捕捉的潜在风险。

Michael Keeman, Anastasia KeemanThu, 12 Ma💬 cs.CL

A Governance and Evaluation Framework for Deterministic, Rule-Based Clinical Decision Support in Empiric Antibiotic Prescribing

本文提出了一种针对经验性抗生素处方中确定性、基于规则的临床决策支持系统的治理与评估框架,该框架将治理作为核心设计要素,通过明确界定作用范围、强制中止条件及确定性约束,并采用基于合成病例的行为一致性验证方法,以确保系统在高风险场景下的透明度、可审计性及保守决策行为。

Francisco José Gárate, Paloma Chausa, Diego Moreno, Judit López Luque, Vicens Díaz-Brito, Enrique Javier GómezThu, 12 Ma🤖 cs.AI

Characterizing Healthy & Post-Stroke Neuromotor Behavior During 6D Upper-Limb Isometric Gaming: Implications for Design of End-Effector Rehabilitation Robot Interfaces

该研究利用 OpenRobotRehab 1.0 数据集,通过分析健康与中风后用户在六维等距游戏任务中的力输出、肌电活动及游戏表现,揭示了界面设计对行为的影响,验证了基于隐马尔可夫模型的肌电分类法在区分病理与正常运动策略方面的有效性,并为设计能促进多样化用户群体健康运动策略的自适应末端执行器康复机器人提供了指导。

Ajay Anand, Gabriel Parra, Chad A. Berghoff, Laura A. HallockThu, 12 Ma💻 cs

DUCTILE: Agentic LLM Orchestration of Engineering Analysis in Product Development Practice

该论文提出了 DUCTILE 框架,一种由大语言模型代理进行自适应编排、工程师负责监督的混合自动化方法,旨在解决航空航天产品开发生态中因工具接口和数据格式频繁变更而导致传统工程分析自动化失效的问题,并验证了其在处理输入偏差时仍能生成符合规范且准确结果的有效性。

Alejandro Pradas-Gomez, Arindam Brahma, Ola IsakssonThu, 12 Ma🤖 cs.AI

Conversational AI-Enhanced Exploration System to Query Large-Scale Digitised Collections of Natural History Museums

本文介绍了一种基于人机交互设计、利用大语言模型函数调用能力与交互式地图相结合的自然语言对话系统,旨在通过实时查询澳大利亚博物馆约 170 万条数字化标本记录,解决大规模自然历史馆藏数据因规模复杂而难以被公众访问和理解的难题。

Yiyuan Wang, Andrew Johnston, Zoë Sadokierski, Rhiannon Stephens, Shane T. AhyongThu, 12 Ma🤖 cs.AI

Towards Modeling Situational Awareness Through Visual Attention in Clinical Simulations

该研究利用过渡网络分析(TNA)处理 40 名临床医生在 VR 心脏骤停模拟中的眼动数据,揭示了不同角色(如气道管理、心肺复苏、除颤和团队领导)的视觉注意力如何随临床需求动态调整,从而为理解团队情境意识和优化急救培训提供了新的分析视角。

Haoting Gao, Kapotaksha Das, Mohamed Abouelenien, Michael Cole, James Cooke, Vitaliy PopovThu, 12 Ma💻 cs