cs.HC 篇论文 | Gist.Science

A prospective clinical feasibility study of a conversational diagnostic AI in an ambulatory primary care clinic

这项前瞻性临床可行性研究表明，在真实世界的初级保健环境中，由人工实时监督的 AMIE 对话式 AI 在安全性、患者满意度及诊断准确性方面表现良好，且其诊断与管理计划质量与初级保健医生相当，但在治疗方案的实用性和成本效益方面仍略逊一筹。

Peter Brodeur, Jacob M. Koshy, Anil Palepu, Khaled Saab, Ava Homiar, Roma Ruparel, Charles Wu, Ryutaro Tanno, Joseph Xu, Amy Wang, David Stutz, Hannah M. Ferrera, David Barrett, Lindsey Crowley, Jihyeon Lee, Spencer E. Rittner, Ellery Wulczyn, Selena K. Zhang, Elahe Vedadi, Christine G. Kohn, Kavita Kulkarni, Vinay Kadiyala, Sara Mahdavi, Wendy Du, Jessica Williams, David Feinbloom, Renee Wong, Tao Tu, Petar Sirkovic, Alessio Orlandi, Christopher Semturs, Yun Liu, Juraj Gottweis, Dale R. Webster, Joëlle Barral, Katherine Chou, Pushmeet Kohli, Avinatan Hassidim, Yossi Matias, James Manyika, Rob Fields, Jonathan X. Li, Marc L. Cohen, Vivek Natarajan, Mike Schaekermann, Alan Karthikesalingam, Adam RodmanTue, 10 Ma🤖 cs.LG

Personalizing explanations of AI-driven hints to users' characteristics: an empirical evaluation

该研究通过实证评估发现，针对低认知需求和低尽责性学生个性化定制 AI 驱动提示的解释，能有效提升其互动意愿、理解能力及学习效果，从而验证了教育领域个性化可解释人工智能（PXAI）的价值。

Vedant Bahel, Harshinee Sriram, Cristina ConatiThu, 12 Ma🤖 cs.AI

AgentA/B: Automated and Scalable Web A/BTesting with Interactive LLM Agents

该论文提出了 AgentA/B 系统，利用具备多样化人设的大型语言模型智能体自动模拟用户在真实网页上的交互行为，从而克服传统 A/B 测试对大规模真人流量和长等待时间的依赖，实现可扩展且高效的自动化 UI/UX 评估。

Yuxuan Lu, Ting-Yao Hsu, Hansu Gu, Limeng Cui, Yaochen Xie, William Headden, Bingsheng Yao, Akash Veeragouni, Jiapeng Liu, Sreyashi Nag, Jessie Wang, Dakuo WangThu, 12 Ma💬 cs.CL

Large Language Model Psychometrics: A Systematic Review of Evaluation, Validation, and Enhancement

这篇综述论文系统性地介绍了新兴的跨学科领域"LLM 心理测量学”，通过整合心理测量学的理论、工具与原则，为评估、验证和提升大语言模型在人类心理构念（如人格、价值观和智力）方面的表现提供了结构化框架与行动指南。

Haoran Ye, Jing Jin, Yuhang Xie, Xin Zhang, Guojie SongThu, 12 Ma💬 cs.CL

Shiksha Copilot: Teacher-AI Collaboration for Curating and Customizing Lesson Plans in Low-Resource Schools

该研究基于在印度卡纳塔克邦政府学校开展的大规模混合方法研究，评估了"Shiksha Copilot"这一人机协作工具在低资源、多语言环境中如何帮助教师减轻行政负担、缩短备课时间并推动活动式教学，同时也揭示了师资短缺等系统性挑战对深层教学变革的限制。

Deepak Varuvel Dennison, Bakhtawar Ahtisham, Kavyansh Chourasia, Nirmit Arora, Rahul Singh, Rene F. Kizilcec, Akshay Nambi, Tanuja Ganu, Aditya VashisthaThu, 12 Ma💻 cs

Recommender systems, representativeness, and online music: a psychosocial analysis of Italian listeners

该研究通过对意大利音乐听众的访谈与情感文本分析，揭示了听众虽习惯使用推荐系统却缺乏对其运作机制的批判性理解，且对性别代表性问题认知有限，从而强调了在音乐推荐系统设计中融合心理社会视角的重要性。

Lorenzo Porcaro, Chiara MonaldiThu, 12 Ma💻 cs

Technological folie à deux: Feedback Loops Between AI Chatbots and Mental Illness

该论文指出，在心理健康服务资源匮乏和社会孤立的背景下，AI 聊天机器人的顺从性与适应性特征可能通过与人类认知偏差的相互作用，加剧精神疾病患者的信念动摇与依赖风险，因此呼吁临床实践、AI 开发与监管框架采取协调行动以应对这一新兴公共卫生挑战。

Sebastian Dohnány, Zeb Kurth-Nelson, Eleanor Spens, Lennart Luettgau, Alastair Reid, Iason Gabriel, Christopher Summerfield, Murray Shanahan, Matthew M NourThu, 12 Ma🧬 q-bio

A Systematic Evaluation of Self-Supervised Learning for Label-Efficient Sleep Staging with Wearable EEG

本文首次系统评估了自监督学习在可穿戴 EEG 睡眠分期中的应用，提出了一种专用流程，证明其仅需 5% 至 10% 的标注数据即可实现超过 80% 的临床级准确率，显著优于监督基线及通用 EEG 基础模型。

Emilio Estevan, María Sierra-Torralba, Eduardo López-Larraz, Luis MontesanoThu, 12 Ma🤖 cs.AI

EyeAgent: An Agentic AI System for Multimodal Clinical Decision Support in Ophthalmology

本文提出了 EyeAgent，这是首个基于大语言模型推理引擎、能够动态调度 53 种专业工具以支持多模态眼科临床决策的可解释性智能体系统，其不仅实现了高达 80.79% 的诊断准确率，还在人机协作中显著提升了医生（尤其是初级医生）的诊断精度与报告质量。

Danli Shi, Xiaolan Chen, Bingjie Yan, Weiyi Zhang, Pusheng Xu, Jiancheng Yang, Ruoyu Chen, Siyu Huang, Bowen Liu, Xinyuan Wu, Meng Xie, Ziyu Gao, Yue Wu, Senlin Lin, Kai Jin, Xia Gong, Yih Chung Tham, Xiujuan Zhang, Li Dong, Yuzhou Zhang, Jason Yam, Guangming Jin, Xiaohu Ding, Haidong Zou, Yalin Zheng, Zongyuan Ge, Mingguang HeThu, 12 Ma💻 cs

Design and Quantitative Evaluation of an Embedded EEG Instrumentation Platform for Real-Time SSVEP Decoding

本文提出并定量评估了一种基于 ESP32-S3 微控制器和 ADS1299 模拟前端的全嵌入式脑电仪平台，该平台实现了 8 通道实时 SSVEP 解码，具备优异的测量完整性（如低噪声、低抖动和高共模抑制比）及 99.17% 的闭环在线解码准确率。

Manh-Dat Nguyen, Thomas Do, Nguyen Thanh Trung Le, Xuan-The Tran, Fred Chang, Chin-Teng LinThu, 12 Ma⚡ eess

Intuition First or Reflection Before Judgment? The Impact of Evaluation Sequence on Consumer Ratings

该研究通过实验与大数据分析发现，评价顺序（先评分后写评 vs. 先写评后评分）会通过情感启发式与认知努力的双重中介机制显著影响消费者评分，导致高服务质量情境下评分更高、低服务质量情境下评分更低，且该效应在享乐型产品中更为强烈，从而揭示了界面设计对在线评分真实性与分布形态的关键影响。

He Wang, Yueheng Wang, Ziyu Zhou, Hanxiang LiuThu, 12 Ma💻 cs

Empathy Is Not What Changed: Clinical Assessment of Psychological Safety Across GPT Model Generations

该研究通过临床评估发现，OpenAI 不同代际模型（GPT-4o 至 GPT-5-mini）在共情能力上并无统计学差异，用户感知的“共情丧失”实为模型危机检测能力增强与过度干预建议之间的安全策略转变，这种在对话中途危机时刻发生的显著变化揭示了当前评估体系难以捕捉的潜在风险。

Michael Keeman, Anastasia KeemanThu, 12 Ma💬 cs.CL

Dark Patterns and Consumer Protection Law for App Makers

本文探讨了应用开发中可能有意或无意产生的暗黑模式对消费者自主权的损害，并提出了通过优化选择架构和透明设计原则来规避法律风险、建立用户信任的策略。

Gregory M. DickinsonThu, 12 Ma💻 cs

A Governance and Evaluation Framework for Deterministic, Rule-Based Clinical Decision Support in Empiric Antibiotic Prescribing

本文提出了一种针对经验性抗生素处方中确定性、基于规则的临床决策支持系统的治理与评估框架，该框架将治理作为核心设计要素，通过明确界定作用范围、强制中止条件及确定性约束，并采用基于合成病例的行为一致性验证方法，以确保系统在高风险场景下的透明度、可审计性及保守决策行为。

Francisco José Gárate, Paloma Chausa, Diego Moreno, Judit López Luque, Vicens Díaz-Brito, Enrique Javier GómezThu, 12 Ma🤖 cs.AI

Toward Epistemic Stability: Engineering Consistent Procedures for Industrial LLM Hallucination Reduction

本文提出并评估了五种旨在减少工业大语言模型幻觉的提示工程策略，通过“增强数据注册”等方法在基准测试中显著提升了输出的一致性与事实准确性，从而在不修改模型权重的情况下推动工业流程向认知稳定性迈进。

Brian Freeman, Adam Kicklighter, Matt Erdman, Zach GordonThu, 12 Ma🤖 cs.AI

Dance2Hesitate: A Multi-Modal Dataset of Dancer-Taught Hesitancy for Understandable Robot Motion

本文介绍了名为"Dance2Hesitate"的开源多模态数据集，该数据集通过舞蹈家的动作捕捉与机器人的力觉示教，收集了涵盖不同犹豫程度的人机协作运动轨迹，旨在解决机器人犹豫动作设计难以泛化及理解的问题。

Srikrishna Bangalore Raghu, Anna Soukhovei, Divya Sai Sindhuja Vankineni, Alexandra Bacula, Alessandro RonconeThu, 12 Ma💻 cs

Characterizing Healthy & Post-Stroke Neuromotor Behavior During 6D Upper-Limb Isometric Gaming: Implications for Design of End-Effector Rehabilitation Robot Interfaces

该研究利用 OpenRobotRehab 1.0 数据集，通过分析健康与中风后用户在六维等距游戏任务中的力输出、肌电活动及游戏表现，揭示了界面设计对行为的影响，验证了基于隐马尔可夫模型的肌电分类法在区分病理与正常运动策略方面的有效性，并为设计能促进多样化用户群体健康运动策略的自适应末端执行器康复机器人提供了指导。

Ajay Anand, Gabriel Parra, Chad A. Berghoff, Laura A. HallockThu, 12 Ma💻 cs

cs.HC