Agentic Explainable Artificial Intelligence (Agentic XAI) Approach To Explore Better Explanation

该研究提出了一种结合 SHAP 可解释性与多模态大语言模型迭代优化的“代理式可解释人工智能(Agentic XAI)”框架,并通过日本水稻产量案例证实,该方法能显著提升面向非专业人士的解释质量,但同时也揭示了过度迭代会导致质量下降,从而确立了早期停止策略对于优化实用性的关键作用。

Tomoaki Yamaguchi, Yutong Zhou, Masahiro Ryo, Keisuke KatsuraFri, 13 Ma🤖 cs.AI

Evaluating Zero-Shot and One-Shot Adaptation of Small Language Models in Leader-Follower Interaction

该论文提出了一种针对人机交互中领导者 - 跟随者角色分类的小语言模型基准,通过引入合成数据增强的数据集,证实了经过微调的小模型(如 Qwen2.5-0.5B)在零样本模式下能以低延迟实现高精度分类,优于提示工程方法,但在单样本模式下因上下文长度增加而面临性能下降的挑战。

Rafael R. Baptista, André de Lima Salgado, Ricardo V. Godoy, Marcelo Becker, Thiago Boaventura, Gustavo J. G. LahrFri, 13 Ma⚡ eess

"I followed what felt right, not what I was told": Autonomy, Coaching, and Recognizing Bias Through AI-Mediated Dialogue

该研究通过一项涉及 160 名参与者的实验表明,基于对话的 AI 干预比单纯阅读更能促进对能力歧视微侵犯的识别,其中包容性引导在保持平衡的同时提供了有效的认知支架,而带有偏见的引导虽能提升区分度却增加了负面情绪,从而揭示了在 AI 对话系统中整合偏见提示所面临的权衡。

Atieh Taheri, Hamza El Alaoui, Patrick Carrington, Jeffrey P. BighamFri, 13 Ma🤖 cs.AI

Evaluation format, not model capability, drives triage failure in the assessment of consumer health AI

该论文指出,Ramaswamy 等人关于消费级健康 AI 存在严重漏诊风险的结论主要源于其不切实际的考试式评估格式(如强制选项和禁止追问),而模拟真实用户交互的评估显示 AI 的分诊准确率显著提升,表明评估方法而非模型能力才是导致“分诊失败”假象的关键因素。

David Fraile Navarro, Farah Magrabi, Enrico CoieraFri, 13 Ma🤖 cs.AI

Managing Cognitive Bias in Human Labeling Operations for Rare-Event AI: Evidence from a Field Experiment

该论文通过在医疗众包平台开展的实地实验证明,采用平衡反馈机制、概率标注界面以及流水线层面的线性对数几率重校准方法,能有效缓解人类标注者在罕见事件检测中的认知偏差,从而显著提升下游卷积神经网络的分类性能与概率校准可靠性。

Gunnar P. Epping, Andrew Caplin, Erik Duhaime, William R. Holmes, Daniel Martin, Jennifer S. TruebloodFri, 13 Ma💰 q-fin

AI Knows What's Wrong But Cannot Fix It: Helicoid Dynamics in Frontier LLMs Under High-Stakes Decisions

该论文指出,前沿大语言模型在临床诊断、投资决策等高 stakes 且无法即时验证的决策场景中,会陷入一种被称为“螺旋动力学”的特定失效模式:即系统虽能准确识别自身错误与循环,却因训练结构的局限而倾向于选择“舒适”而非“严谨”,导致在风险最高时可靠性反而下降,并据此提出了十二项可验证假设以指导未来的 AI 监督与人机协作。

Alejandro R JadadFri, 13 Ma🤖 cs.AI

A technology-oriented mapping of the language and translation industry: Analysing stakeholder values and their potential implication for translation pedagogy

该论文基于 LT-LiDER 项目的访谈数据,运用切斯特曼的翻译伦理框架,分析了自动化背景下语言与翻译行业中效率、技术价值与人类价值(如专业知识、监督与问责)的重新定位及“适应性”作为核心中介价值的兴起,并论证了自动化并非取代而是重塑了翻译价值,形成了技术效率赋能人类沟通工作的相互依存格局。

María Isabel Rivas Ginel, Janiça Hackenbuchner, Alina Secar\u{a}, Ralph Krüger, Caroline RossiFri, 13 Ma💬 cs.CL

An Intent of Collaboration: On Agencies between Designers and Emerging (Intelligent) Technologies

该论文通过三位设计师与 Google 大语言模型为期三个月的共创实验,揭示了人机协作中设计师易丧失创意能动性的权力动态,并主张通过反思创作过程、深入理解技术特性以及调整人机工作关系,来重建设计师在新兴智能技术环境下的主体性与创造力。

Pei-Ying Lin, Julie Heij, Iris Borst, Britt Joosten, Kristina Andersen, Wijnand IJsselsteijnFri, 13 Ma🤖 cs.AI

A Temporal-Spectral Fusion Transformer with Subject-Specific Adapter for Enhancing RSVP-BCI Decoding

本文提出了一种结合跨视图交互、注意力融合及多视图一致性损失的时序 - 频谱融合 Transformer 模型,并引入特定于受试者的适配器,旨在利用现有受试者数据快速迁移知识,从而在仅需少量新受试者训练数据的情况下显著提升 RSVP-BCI 系统的解码性能并缩短部署准备时间。

Xujin Li, Wei Wei, Shuang Qiu + 1 more2026-03-11🤖 cs.AI