cs.CL 篇论文 | Gist.Science

Speech Codec Probing from Semantic and Phonetic Perspectives

该论文通过词级探测、逐层表示分析及跨模态对齐指标，系统揭示了当前主流语音分词器主要编码语音学特征而非文本语义，从而指出了其与文本语义不匹配的问题并为下一代语音分词方法的设计提供了实践指导。

Xuan Shi, Chang Zeng, Tiantian Feng, Shih-Heng Wang, Jianbo Ma, Shrikanth Narayanan2026-03-12⚡ eess

Aligning Large Language Models with Searcher Preferences

本文提出了首个面向开放式生成式搜索的大语言模型 SearchLLM，通过设计分层多维奖励系统与门控聚合策略，在 RedNote 平台上实现了生成质量与用户参与度的显著提升，同时严格保障了安全性与事实准确性。

Wei Wu, Peilun Zhou, Liyi Chen, Qimeng Wang, Chengqiang Lu, Yan Gao, Yi Wu, Yao Hu, Hui Xiong2026-03-12💬 cs.CL

Learning to Negotiate: Multi-Agent Deliberation for Collective Value Alignment in LLMs

该论文提出了一种基于多智能体协商的框架，通过让同一 LLM 扮演对立角色进行结构化对话并利用 RLAIF 优化策略，在保持集体能动性（CA）对齐水平的同时，显著提升了模型在价值冲突场景下的协商与冲突解决能力。

Panatchakorn Anantaprayoon, Nataliia Babina, Nima Asgharbeygi, Jad Tarifi2026-03-12💬 cs.CL

PEEM: Prompt Engineering Evaluation Metrics for Interpretable Joint Evaluation of Prompts and Responses

该论文提出了 PEEM（提示工程评估指标）框架，通过结合提示词与响应的多维度结构化评分及可解释性理由，不仅实现了对大语言模型交互效果的精准诊断，还显著优于现有方法地推动了零样本提示词优化。

Minki Hong, Eunsoo Lee, Sohyun Park, Jihie Kim2026-03-12💬 cs.CL

Human-AI Co-reasoning for Clinical Diagnosis with Evidence-Integrated Language Agent

本文介绍了名为 PULSE 的医疗推理智能体，该智能体通过结合领域微调的大语言模型与科学文献检索，在复杂内分泌病例诊断中展现出媲美资深专家且不受疾病罕见度影响的性能，并揭示了人机协作在提升诊断准确率的同时也伴随着自动化偏见风险。

Zhongzhen Huang, Yan Ling, Hong Chen, Ye Feng, Li Wu, Linjie Mu, Shaoting Zhang, Xiaofan Zhang, Kun Qian, Xiaomu Li2026-03-12💬 cs.CL

VERI-DPO: Evidence-Aware Alignment for Clinical Summarization via Claim Verification and Direct Preference Optimization

本文提出了 VERI-DPO 框架，通过利用声明验证器从检索增强证据中挖掘偏好数据并结合直接偏好优化（DPO）技术，显著提升了临床摘要的忠实度，将不支持的声明率从 10.7% 大幅降低至 1.9%。

Weixin Liu, Congning Ni, Qingyuan Song, Susannah L. Rose, Christopher Symons, Murat Kantarcioglu, Bradley A. Malin, Zhijun Yin2026-03-12💬 cs.CL

Safe and Scalable Web Agent Learning via Recreated Websites

本文提出了 VeriEnv 框架，通过利用语言模型自动将真实网站克隆为可执行且可验证的合成环境，使智能体能够在安全、可扩展且无需启发式评判的条件下进行自我演化训练，从而显著提升其在未见网站上的泛化能力与特定站点掌握度。

Hyungjoo Chae, Jungsoo Park, Alan Ritter2026-03-12💬 cs.CL

IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs

该论文提出了名为 IH-Challenge 的强化学习训练数据集，旨在解决大语言模型指令层级冲突的鲁棒性难题，通过微调显著提升了模型在对抗攻击下的安全性与指令遵循能力，并开源了该数据集以推动相关研究。

Chuan Guo (Michael Pokorny), Juan Felipe Ceron Uribe (Michael Pokorny), Sicheng Zhu (Michael Pokorny), Christopher A. Choquette-Choo (Michael Pokorny), Steph Lin (Michael Pokorny), Nikhil Kandpal (Michael Pokorny), Milad Nasr (Michael Pokorny), Rai (Michael Pokorny), Sam Toyer, Miles Wang, Yaodong Yu, Alex Beutel, Kai Xiao2026-03-12🤖 cs.AI

AILS-NTUA at SemEval-2026 Task 8: Evaluating Multi-Turn RAG Conversations

本文介绍了 AILS-NTUA 团队在 SemEval-2026 任务 8 中提出的统一架构，该架构通过“查询多样性优于检索器多样性”策略及多阶段生成流程，在段落检索子任务中取得第一名，并在基于引用的回复生成子任务中获得第二名。

Dimosthenis Athanasiou, Maria Lymperaiou, Giorgos Filandrianos, Athanasios Voulodimos, Giorgos Stamou2026-03-12💬 cs.CL

Tackling Length Inflation Without Trade-offs: Group Relative Reward Rescaling for Reinforcement Learning

该论文提出了组相对奖励重缩放（GR³）方法，通过将长度控制重构为乘性重缩放范式并结合组相对正则化与优势感知校准，在无需牺牲优化效果的前提下有效解决了强化学习中大语言模型的长度膨胀问题。

Zichao Li, Jie Lou, Fangchen Dong, Zhiyuan Fan, Mengjie Ren, Hongyu Lin, Xianpei Han, Debing Zhang, Le Sun, Yaojie Lu, Xing Yu2026-03-12🤖 cs.LG

Automatic End-to-End Data Integration using Large Language Models

该论文提出了一种基于 GPT-5.2 的端到端自动数据集成框架，能够自动生成模式映射、值映射及训练数据等关键组件，实验表明其在视频游戏、音乐和公司数据集成任务中的效果与人工设计的管道相当甚至更优，且成本仅为后者的极小部分。

Aaron Steiner, Christian Bizer2026-03-12💬 cs.CL

End-to-End Chatbot Evaluation with Adaptive Reasoning and Uncertainty Filtering

该论文提出了一种端到端的自动评估框架，通过从知识库生成问答对、利用大语言模型进行判断以及应用置信度过滤，显著降低了人工成本，为领域特定聊天机器人提供了可扩展且语言无关的评估解决方案。

Nhi Dang, Tung Le, Huy Tien Nguyen2026-03-12💬 cs.CL

Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning

该论文通过实证研究反驳了道德推理任务必须依赖多样性算法的假设，发现基于奖励最大化的 RLVR 方法在道德对齐任务中同样有效，因为与数学推理不同，道德推理的高奖励响应在语义空间中呈现更集中的分布。

Zhaowei Zhang, Xiaohan Liu, Xuekai Zhu, Junchao Huang, Ceyao Zhang, Zhiyuan Feng, Yaodong Yang, Xiaoyuan Yi, Xing Xie2026-03-12🤖 cs.AI

MUNIChus: Multilingual News Image Captioning Benchmark

本文提出了首个涵盖 9 种语言（包括僧伽罗语和乌尔都语等低资源语言）的多语言新闻图像描述基准 MUNIChus，旨在解决该领域非英语数据稀缺的问题，并评估了多种先进模型的表现以推动相关技术的发展。

Yuji Chen, Alistair Plum, Hansi Hettiarachchi, Diptesh Kanojia, Saroj Basnet, Marcos Zampieri, Tharindu Ranasinghe2026-03-12💬 cs.CL

Disentangling Similarity and Relatedness in Topic Models

该论文通过构建基于大语言模型标注的合成基准与神经评分函数，成功解耦了主题模型中“语义相似性”与“主题关联性”这两个维度，揭示了不同模型家族在捕捉语义结构上的差异，并证明了这两个维度能有效预测下游任务表现，从而为评估主题模型提供了新的核心指标。

Hanlin Xiao, Mauricio A. Álvarez, Rainer Breitling2026-03-12💬 cs.CL

Reinforcement Learning with Conditional Expectation Reward

该论文提出了一种名为条件期望奖励（CER）的新方法，利用大语言模型自身作为隐式验证器，通过计算生成答案对参考答案的条件似然期望来提供软性奖励信号，从而克服了传统基于规则验证器在自由形式答案领域应用受限的问题，显著提升了大模型在数学及通用推理任务中的表现。

Changyi Xiao, Caijun Xu, Yixin Cao2026-03-12🤖 cs.LG

Making Bielik LLM Reason (Better): A Field Report

该论文介绍了一项致力于评估和提升波兰大语言模型 Bielik 推理能力的研究计划，涵盖了基准测试、评估方法构建、与其他模型的对比分析以及针对当前分析局限性的未来展望，旨在确保 Bielik 在竞争激烈的 AI 领域中保持竞争力。

Adam Trybus, Bartosz Bartnicki, Remigiusz Kinas2026-03-12💬 cs.CL

Emulating Clinician Cognition via Self-Evolving Deep Clinical Research

本文提出了名为 DxEvolve 的自我演进诊断智能体，通过模拟临床医生的动态认知过程与交互式深度研究工作流，实现了可审计的持续学习，在 MIMIC-CDM 基准及外部独立队列中显著提升了诊断准确率并达到了与临床专家相当的水平。

Ruiyang Ren, Yuhao Wang, Yunsen Liang, Lan Luo, Jing Liu, Haifeng Wang, Cong Feng, Yinan Zhang, Chunyan Miao, Ji-Rong Wen, Wayne Xin Zhao2026-03-12🤖 cs.AI

EvoSchema: Towards Text-to-SQL Robustness Against Schema Evolution

本文提出了 EvoSchema 基准，通过引入涵盖十种列级和表级扰动的新颖模式演化分类法，系统评估并提升了文本转 SQL 模型在真实世界数据库模式动态变化下的鲁棒性。

Tianshu Zhang, Kun Qian, Siddhartha Sahai, Yuan Tian, Shaddy Garg, Huan Sun, Yunyao Li2026-03-12💬 cs.CL

Prism- $\Delta$ : Differential Subspace Steering for Prompt Highlighting in Large Language Models

本文提出了 PRISM- $\Delta$ 方法，通过分解正负交叉协方差矩阵的差异来提取判别性 steering 方向，并结合软重要性加权与 Value 表示扩展，在多个基准测试中显著提升了大语言模型的提示高亮性能，同时降低了流畅性成本并支持长上下文检索。

Yuyao Ge, Shenghua Liu, Yiwei Wang, Tianyu Liu, Baolong Bi, Lingrui Mei, Jiayu Yao, Jiafeng Guo, Xueqi Cheng2026-03-12💬 cs.CL

cs.CL