cs.CL 篇论文 | Gist.Science

GUMBridge: a Corpus for Varieties of Bridging Anaphora

本文介绍了 GUMBridge，这是一个涵盖 16 种英语体裁、提供细粒度子类别标注的新语料库，旨在解决现有桥接指代资源覆盖不足的问题，并评估了当前大语言模型在桥接解析和子类别分类任务上的表现。

Lauren Levine, Amir Zeldes2026-03-04💬 cs.CL

Activation Steering for Masked Diffusion Language Models

该论文提出了一种针对掩码扩散语言模型（MDLMs）的激活导向机制，通过提取单一低维方向并在去噪过程中施加全局干预，实现了无需优化即可高效、系统地控制模型行为（如安全拒绝），并揭示了该机制在扩散模型中特有的可访问性及跨语言迁移能力，同时指出其难以直接迁移至自回归架构。

Adi Shnaidman, Erin Feiglin, Osher Yaari + 3 more2026-03-04💬 cs.CL

Entropy Sentinel: Continuous LLM Accuracy Monitoring from Decoding Entropy Traces in STEM

该论文提出并验证了一种基于推理时解码熵迹的轻量级方法，能够利用输出熵分布有效预测大语言模型在 STEM 领域不同子集上的准确率，从而为模型性能监控和针对性数据获取提供了可扩展的解决方案。

Pedro Memoli Buffa, Luciano Del Corro2026-03-04💬 cs.CL

Contextual Drag: How Errors in the Context Affect LLM Reasoning

该论文揭示了“上下文拖曳”现象，即大语言模型在推理过程中因上下文包含失败尝试而倾向于重复类似的结构化错误，导致性能显著下降且难以通过常规反馈或验证机制消除。

Yun Cheng, Xingyu Zhu, Haoyu Zhao + 1 more2026-03-04💬 cs.CL

Can LLMs Discern the Traits Influencing Your Preferences? Evaluating Personality-Driven Preference Alignment in LLMs

该论文提出利用大五人格特质作为潜在信号来指导偏好选择，构建了包含 1200 条标注数据的 PACIFIC 数据集及相应框架，显著提升了大语言模型在个性化问答中的答案选择准确率。

Tianyu Zhao, Siqi Li, Yasser Shoukry + 1 more2026-03-04💬 cs.CL

Steer2Edit: From Activation Steering to Component-Level Editing

Steer2Edit 提出了一种无需训练的框架，将推理时的激活导向向量转化为诊断信号，通过选择性地对注意力头和 MLP 神经元进行秩 1 权重编辑，在保持推理效率的同时显著改善了大语言模型在安全性、真实性和推理效率方面的属性 - 效用权衡。

Chung-En Sun, Ge Yan, Zimo Wang + 1 more2026-03-04💬 cs.CL

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

本文介绍了 MedXIAOHE，一种通过实体感知持续预训练、强化学习与工具增强智能体训练，以及证据导向的低幻觉报告生成等综合策略构建的医疗多模态大模型，其在多项基准测试中超越了领先的闭源系统，显著提升了医疗理解、推理及临床应用的可靠性。

Baorong Shi, Bo Cui, Boyuan Jiang + 17 more2026-03-04⚡ eess

Rethinking the Role of LLMs in Time Series Forecasting

该论文通过涵盖 80 亿观测值的大规模实证研究，推翻了以往关于大语言模型（LLM）在时间序列预测中无效的负面评估，证明了 LLM 在跨域泛化及复杂动态建模中的显著优势，并明确了预训练知识与模型架构在应对分布偏移时的互补作用，为有效模型设计提供了实践指导。

Xin Qiu, Junlong Tong, Yirong Sun + 3 more2026-03-04💬 cs.CL

Spilled Energy in Large Language Models

该论文提出了一种无需训练的“溢出能量”方法，通过将大语言模型的 softmax 分类器重新解释为能量模型，利用输出 logits 直接计算能量指标，从而有效检测事实性错误、偏见及幻觉。

Adrian Robert Minut, Hazem Dewidar, Iacopo Masi2026-03-04💬 cs.CL

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

本文提出了名为 CFE-Bench 的多模态基准测试，该测试基于 20 多个 STEM 领域的真实大学考题与教师参考答案，旨在评估大语言模型的推理能力，研究发现尽管前沿模型表现尚可，但在多步推理中仍难以维持中间状态的正确性且步骤效率较低。

Chongyang Gao, Diji Yang, Shuyan Zhou + 4 more2026-03-04💬 cs.CL

RuCL: Stratified Rubric-Based Curriculum Learning for Multimodal Large Language Model Reasoning

本文提出了 RuCL 框架，通过将课程学习从数据选择转向奖励设计，利用基于模型能力分层的泛化评分标准动态调整训练权重，有效解决了多模态大模型推理中的奖励黑客问题，并在视觉推理基准测试中实现了显著的性能提升。

Yukun Chen, Jiaming Li, Longze Chen + 10 more2026-03-04💬 cs.CL

Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion

本文提出了一种利用语音与文本融合输入的大语言模型框架，通过自进化机制生成并优化合成语音数据，在无需依赖稀缺多模态图像数据的情况下，于多模态及通用机器翻译任务中实现了新的最先进性能。

Yexing Du, Youcheng Pan, Zekun Wang + 7 more2026-03-04💬 cs.CL

DeepXiv-SDK: An Agentic Data Interface for Scientific Literature

本文介绍了 DeepXiv-SDK，这是一个专为科学文献设计的三层代理数据接口，旨在通过将非结构化数据转化为结构化格式并提供多模式访问工具，解决大语言模型代理在科研中面临的数据检索效率低、Token 消耗大及证据查找脆弱等瓶颈问题。

Hongjin Qian, Ziyi Xia, Ze Liu + 11 more2026-03-04💬 cs.CL

Super Research: Answering Highly Complex Questions with Large Language Models through Super Deep and Super Wide Research

该论文提出了名为"Super Research"的新任务与基准，旨在通过结构化规划、超广域检索和超深度迭代调查来评估大语言模型解决需要长程规划、海量证据收集及跨源综合的复杂研究问题的能力。

Yubo Dong, Nianhao You, Yuxuan Hou + 5 more2026-03-04💬 cs.CL

Piecing Together Cross-Document Coreference Resolution Datasets: Systematic Dataset Analysis and Unification

该论文提出了名为 uCDCR 的统一数据集，通过整合多样化的英文跨文档核心ference语料库、统一格式与评估标准，并深入分析其词汇属性与复杂性，旨在解决当前研究碎片化问题并提升模型的泛化能力。

Anastasia Zhukova, Terry Ruas, Jan Philip Wahle + 1 more2026-03-04💬 cs.CL

QIME: Constructing Interpretable Medical Text Embeddings via Ontology-Grounded Questions

本文提出了 QIME 框架，通过利用本体论引导的聚类特定概念签名生成语义原子化的临床问答，构建了可解释的医学文本嵌入，在保持可解释性的同时显著提升了性能并缩小了与黑盒模型之间的差距。

Yixuan Tang, Zhenghong Lin, Yandong Sun + 3 more2026-03-04💬 cs.CL

ClinConsensus: A Consensus-Based Benchmark for Evaluating Chinese Medical LLMs across Difficulty Levels

本文提出了由临床专家构建的中文医疗基准 ClinConsensus，该基准涵盖全周期护理、多专科及多任务类型，并通过双裁判评估框架与一致性评分指标，揭示了当前主流大模型在复杂临床场景中的能力差异与局限性。

Xiang Zheng, Han Li, Wenjie Luo + 9 more2026-03-04💬 cs.CL

Recursive Think-Answer Process for LLMs and VLMs

本文提出了一种高效的递归思考 - 回答过程（R-TAP），通过引入置信度生成器与双重奖励机制，使大语言模型和视觉语言模型能够进行迭代推理，从而在提升答案准确性的同时显著减少自我反思错误并优化推理效率。

Byung-Kwan Lee, Youngchae Chee, Yong Man Ro2026-03-04💬 cs.CL

A Zipf-preserving, long-range correlated surrogate for written language and other symbolic sequences

该论文提出了一种新的代理模型，通过分形高斯噪声映射到经验直方图的方法，成功生成了同时保留原始符号序列（如文本和基因组 DNA）词频分布（符合齐普夫定律）和长程相关性的合成序列，从而为研究这些系统的结构特征及标度律起源提供了有效工具。

Marcelo A. Montemurro, Mirko Degli Esposti2026-03-04🧬 q-bio

Self-Play Only Evolves When Self-Synthetic Pipeline Ensures Learnable Information Gain

该论文指出，大语言模型的自我进化若要避免陷入停滞，必须构建包含提议者、求解者和验证者三角色的自合成数据流水线，并通过非对称协同进化、容量增长及主动信息获取等机制，确保迭代过程中可学习信息量的持续增长。

Wei Liu, Siya Qi, Yali Du + 1 more2026-03-04💬 cs.CL