Human-AI Co-reasoning for Clinical Diagnosis with Evidence-Integrated Language Agent

本文介绍了名为 PULSE 的医疗推理智能体,该智能体通过结合领域微调的大语言模型与科学文献检索,在复杂内分泌病例诊断中展现出媲美资深专家且不受疾病罕见度影响的性能,并揭示了人机协作在提升诊断准确率的同时也伴随着自动化偏见风险。

Zhongzhen Huang, Yan Ling, Hong Chen, Ye Feng, Li Wu, Linjie Mu, Shaoting Zhang, Xiaofan Zhang, Kun Qian, Xiaomu Li2026-03-12💬 cs.CL

VERI-DPO: Evidence-Aware Alignment for Clinical Summarization via Claim Verification and Direct Preference Optimization

本文提出了 VERI-DPO 框架,通过利用声明验证器从检索增强证据中挖掘偏好数据并结合直接偏好优化(DPO)技术,显著提升了临床摘要的忠实度,将不支持的声明率从 10.7% 大幅降低至 1.9%。

Weixin Liu, Congning Ni, Qingyuan Song, Susannah L. Rose, Christopher Symons, Murat Kantarcioglu, Bradley A. Malin, Zhijun Yin2026-03-12💬 cs.CL

IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs

该论文提出了名为 IH-Challenge 的强化学习训练数据集,旨在解决大语言模型指令层级冲突的鲁棒性难题,通过微调显著提升了模型在对抗攻击下的安全性与指令遵循能力,并开源了该数据集以推动相关研究。

Chuan Guo (Michael Pokorny), Juan Felipe Ceron Uribe (Michael Pokorny), Sicheng Zhu (Michael Pokorny), Christopher A. Choquette-Choo (Michael Pokorny), Steph Lin (Michael Pokorny), Nikhil Kandpal (Michael Pokorny), Milad Nasr (Michael Pokorny), Rai (Michael Pokorny), Sam Toyer, Miles Wang, Yaodong Yu, Alex Beutel, Kai Xiao2026-03-12🤖 cs.AI

Tackling Length Inflation Without Trade-offs: Group Relative Reward Rescaling for Reinforcement Learning

该论文提出了组相对奖励重缩放(GR³)方法,通过将长度控制重构为乘性重缩放范式并结合组相对正则化与优势感知校准,在无需牺牲优化效果的前提下有效解决了强化学习中大语言模型的长度膨胀问题。

Zichao Li, Jie Lou, Fangchen Dong, Zhiyuan Fan, Mengjie Ren, Hongyu Lin, Xianpei Han, Debing Zhang, Le Sun, Yaojie Lu, Xing Yu2026-03-12🤖 cs.LG

Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning

该论文通过实证研究反驳了道德推理任务必须依赖多样性算法的假设,发现基于奖励最大化的 RLVR 方法在道德对齐任务中同样有效,因为与数学推理不同,道德推理的高奖励响应在语义空间中呈现更集中的分布。

Zhaowei Zhang, Xiaohan Liu, Xuekai Zhu, Junchao Huang, Ceyao Zhang, Zhiyuan Feng, Yaodong Yang, Xiaoyuan Yi, Xing Xie2026-03-12🤖 cs.AI

Emulating Clinician Cognition via Self-Evolving Deep Clinical Research

本文提出了名为 DxEvolve 的自我演进诊断智能体,通过模拟临床医生的动态认知过程与交互式深度研究工作流,实现了可审计的持续学习,在 MIMIC-CDM 基准及外部独立队列中显著提升了诊断准确率并达到了与临床专家相当的水平。

Ruiyang Ren, Yuhao Wang, Yunsen Liang, Lan Luo, Jing Liu, Haifeng Wang, Cong Feng, Yinan Zhang, Chunyan Miao, Ji-Rong Wen, Wayne Xin Zhao2026-03-12🤖 cs.AI

Prism-Δ\Delta: Differential Subspace Steering for Prompt Highlighting in Large Language Models

本文提出了 PRISM-Δ\Delta方法,通过分解正负交叉协方差矩阵的差异来提取判别性 steering 方向,并结合软重要性加权与 Value 表示扩展,在多个基准测试中显著提升了大语言模型的提示高亮性能,同时降低了流畅性成本并支持长上下文检索。

Yuyao Ge, Shenghua Liu, Yiwei Wang, Tianyu Liu, Baolong Bi, Lingrui Mei, Jiayu Yao, Jiafeng Guo, Xueqi Cheng2026-03-12💬 cs.CL