Decomposing Physician Disagreement in HealthBench

该研究通过分解 HealthBench 数据集中的医师分歧发现,尽管大部分分歧源于病例本身的结构性特征且难以通过常规元数据消除,但区分“可消除的不确定性”(如信息缺失)与“不可消除的不确定性”(如固有医学模糊性)为优化评估设计提供了关键方向,即通过填补信息缺口可在不增加固有模糊性的情况下降低分歧。

Satya Borgohain, Roy Mariathas2026-03-10💻 cs

Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

该论文通过利用经过优化的微调大语言模型生成数百万条文本相关性标签,有效解决了专家标注稀缺的难题,并在 App Store 搜索排序中实现了行为相关性与文本相关性的同步提升,最终在全球 A/B 测试中显著提高了转化率,尤其在长尾查询场景下效果最为突出。

Evangelia Christakopoulou, Vivekkumar Patel, Hemanth Velaga, Sandip Gaikwad, Sean Suchter, Venkat Sundaranatha2026-03-10🤖 cs.LG

How Well Do Multimodal Models Reason on ECG Signals?

本文提出了一种可复现的评估框架,通过将心电图推理分解为“感知”(利用代理框架生成代码验证时序结构)和“推理”(基于检索比对临床准则)两个独立组件,实现了对多模态模型在心电图信号上真实推理能力的可扩展验证。

Maxwell A. Xu, Harish Haresamudram, Catherine W. Liu, Patrick Langer, Jathurshan Pradeepkumar, Wanting Mao, Sunita J. Ferns, Aradhana Verma, Jimeng Sun, Paul Schmiedmayer, Xin Liu, Daniel McDuff, Emily B. Fox, James M. Rehg2026-03-10🤖 cs.LG

HarmonyCell: Automating Single-Cell Perturbation Modeling under Semantic and Distribution Shifts

HarmonyCell 是一个端到端智能体框架,通过大语言模型驱动的语义统一器和自适应蒙特卡洛树搜索引擎,分别解决单细胞扰动研究中的语义异构与分布偏移挑战,实现了无需人工干预的自动化虚拟细胞建模。

Wenxuan Huang, Mingyu Tsoi, Yanhao Huang, Xinjie Mao, Xue Xia, Hao Wu, Jiaqi Wei, Yuejin Yang, Lang Yu, Cheng Tan, Xiang Zhang, Zhangyang Gao, Siqi Sun2026-03-10💻 cs

LLM-assisted Semantic Option Discovery for Facilitating Adaptive Deep Reinforcement Learning

本文提出了一种由大语言模型驱动的闭环框架,通过将自然语言指令映射为可执行规则并自动语义标注选项,有效解决了深度强化学习在数据效率、可解释性及跨环境迁移方面的关键挑战,并在 Office World 和 Montezuma's Revenge 任务中验证了其在约束合规与任务迁移上的优越性能。

Chang Yao, Jinghui Qin, Kebing Jin, Hankz Hankui Zhuo2026-03-10💻 cs