COACH meets QUORUM: A Framework and Pipeline for Aligning User, Expert and Developer Perspectives in LLM-generated Health Counselling

本文提出了名为 QUORUM 的统一评估框架和名为 COACH 的生成式管道,通过整合用户、医学专家及开发者视角,验证了其在癌症患者健康咨询场景中生成高质量、个性化且可靠建议的有效性,同时揭示了不同利益相关者在语气、错误敏感度及幻觉问题上的认知差异。

Yee Man Ng, Bram van Dijk, Pieter Beynen, Otto Boekesteijn, Joris Jansen, Gerard van Oortmerssen, Max van Duijn, Marco Spruit2026-03-10💬 cs.CL

Revealing Behavioral Plasticity in Large Language Models: A Token-Conditional Perspective

该论文揭示了大语言模型具有类似变色龙的内在行为可塑性,并提出了一种名为 Token-Conditioned Reinforcement Learning (ToCoRL) 的框架,通过利用基于 Token 前缀的条件生成与强化学习,将推理时的行为适应转化为稳定的可学习模式,从而在不损害模型能力的情况下实现精确的行为控制(例如让擅长推理的模型也能高效回答事实性问题)。

Liyuan Mao, Le Yu, Jing Zhou, Chujie Zheng, Bowen Yu, Chang Gao, Shixuan Liu, An Yang, Weinan Zhang, JunYang Lin2026-03-10🤖 cs.LG

Sandpiper: Orchestrated AI-Annotation for Educational Discourse at Scale

本文介绍了 Sandpiper,这是一个将交互式研究人员仪表板与代理式大语言模型引擎紧密结合的混合倡议系统,旨在通过自动化脱敏、防幻觉机制及持续评估引擎,在确保数据隐私和方法论严谨性的前提下,解决教育领域大规模对话数据定性分析中人力瓶颈的问题。

Daryl Hedley, Doug Pietrzak, Jorge Dias, Ian Burden, Bakhtawar Ahtisham, Zhuqian Zhou, Kirk Vanacore, Josh Marland, Rachel Slama, Justin Reich, Kenneth Koedinger, René Kizilcec2026-03-10💬 cs.CL

A prospective clinical feasibility study of a conversational diagnostic AI in an ambulatory primary care clinic

这项前瞻性临床可行性研究表明,在真实世界的初级保健环境中,由人工实时监督的 AMIE 对话式 AI 在安全性、患者满意度及诊断准确性方面表现良好,且其诊断与管理计划质量与初级保健医生相当,但在治疗方案的实用性和成本效益方面仍略逊一筹。

Peter Brodeur, Jacob M. Koshy, Anil Palepu, Khaled Saab, Ava Homiar, Roma Ruparel, Charles Wu, Ryutaro Tanno, Joseph Xu, Amy Wang, David Stutz, Hannah M. Ferrera, David Barrett, Lindsey Crowley, Jihyeon Lee, Spencer E. Rittner, Ellery Wulczyn, Selena K. Zhang, Elahe Vedadi, Christine G. Kohn, Kavita Kulkarni, Vinay Kadiyala, Sara Mahdavi, Wendy Du, Jessica Williams, David Feinbloom, Renee Wong, Tao Tu, Petar Sirkovic, Alessio Orlandi, Christopher Semturs, Yun Liu, Juraj Gottweis, Dale R. Webster, Joëlle Barral, Katherine Chou, Pushmeet Kohli, Avinatan Hassidim, Yossi Matias, James Manyika, Rob Fields, Jonathan X. Li, Marc L. Cohen, Vivek Natarajan, Mike Schaekermann, Alan Karthikesalingam, Adam Rodman2026-03-10🤖 cs.LG

Fanar-Sadiq: A Multi-Agent Architecture for Grounded Islamic QA

本文介绍了 Fanar-Sadiq,一种面向伊斯兰知识问答的双语多智能体架构,它通过意图路由将查询分发至专用模块,以提供基于经训引用的法理学解答、精确经文检索以及符合不同教法学派的法定计算(如天课和遗产),从而有效解决大语言模型在宗教领域常见的幻觉与溯源问题。

Ummar Abbas, Mourad Ouzzani, Mohamed Y. Eltabakh, Omar Sinan, Gagan Bhatia, Hamdy Mubarak, Majd Hawasly, Mohammed Qusay Hashim, Kareem Darwish, Firoj Alam2026-03-10💬 cs.CL

OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

本文介绍了 OfficeQA Pro,这是一个基于近百年美国财政部公报(含 89,000 页文档和 2600 万个数值)构建的企业级基准,旨在评估 AI 代理在跨多文档、混合非结构化文本与表格数据的接地推理能力,结果显示当前前沿大模型在此类任务上表现不佳,而采用结构化文档表示可显著提升性能,但距离企业级可靠应用仍有较大差距。

Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing Chen2026-03-10💬 cs.CL

How Far Can Unsupervised RLVR Scale LLM Training?

该论文通过理论分析与实验证实,无监督强化学习中的内在奖励方法虽能短期提升模型,但受限于初始分布的“置信度 - 正确性”对齐问题而必然导致性能先升后降的崩溃,而基于计算不对称性的外部奖励方法则有望突破这一瓶颈。

Bingxiang He, Yuxin Zuo, Zeyuan Liu, Shangziqi Zhao, Zixuan Fu, Junlin Yang, Cheng Qian, Kaiyan Zhang, Yuchen Fan, Ganqu Cui, Xiusi Chen, Youbang Sun, Xingtai Lv, Xuekai Zhu, Li Sheng, Ran Li, Huan-ang Gao, Yuchen Zhang, Bowen Zhou, Zhiyuan Liu, Ning Ding2026-03-10🤖 cs.LG