cs.CL 篇论文 | Gist.Science

MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations

本文介绍了 MITRA，一种专为大型物理实验（如 CMS）设计的本地化检索增强生成（RAG）原型系统，它通过自动化文档提取、两阶段向量数据库架构及完全本地部署的模型，有效解决了海量内部文档的检索难题并确保了数据隐私。

Abhishikth Mallampalli, Sridhara Dasu2026-03-11🤖 cs.AI

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

本文介绍了 One-Eval，一个能够将自然语言评估请求自动转化为可执行、可追溯且可定制的评估工作流的智能体系统，旨在通过集成基准规划、数据获取与归一化、任务感知指标选择及人机协作机制，解决大语言模型评估中依赖人工操作、难以复现及缺乏可解释性等挑战。

Chengyu Shen, Yanheng Hou, Minghui Pan, Runming He, Zhen Hao Wong, Meiyi Qiang, Zhou Liu, Hao Liang, Peichao Lai, Zeang Sheng, Wentao Zhang2026-03-11💬 cs.CL

Chow-Liu Ordering for Long-Context Reasoning in Chain-of-Agents

该论文提出利用 Chow-Liu 树学习长文本块间的依赖结构，并通过广度优先遍历确定处理顺序，从而在 Chain-of-Agents 框架中减少信息损失，显著提升长上下文推理任务的答案相关性和准确率。

Naman Gupta, Vaibhav Singh, Arun Iyer, Kirankumar Shiragur, Pratham Grover, Ramakrishna B. Bairi, Ritabrata Maiti, Sankarshan Damle, Shachee Mishra Gupta, Rishikesh Maurya, Vageesh D. C2026-03-11💬 cs.CL

N-gram-like Language Models Predict Reading Time Best

该论文提出并证实，阅读时间更依赖于简单的 n-gram 统计特征而非复杂模型学到的深层统计规律，因此那些预测结果与 n-gram 概率相关性最高的神经语言模型，在预测自然文本阅读时间（基于眼动追踪数据）时也表现最佳。

James A. Michaelov, Roger P. Levy2026-03-11💬 cs.CL

Do What I Say: A Spoken Prompt Dataset for Instruction-Following

该论文提出了名为 DoWhatISay (DOWIS) 的多语言口语指令数据集，旨在填补语音大模型评估中缺乏真实口语指令的空白，并通过基准测试揭示了文本提示在多数场景下优于口语提示，但在涉及语音输出的任务中口语提示能有效缩小性能差距。

Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan Niehues2026-03-11💬 cs.CL

Benchmarking Political Persuasion Risks Across Frontier Large Language Models

该研究通过两项涵盖 19,145 名受访者的调查实验，评估了七款前沿大语言模型在政治议题上的说服能力，发现其整体表现优于传统竞选广告且存在显著模型差异（Claude 最强、Grok 最弱），同时揭示了信息型提示对说服效果的影响因模型而异，并提出了评估大模型潜在说服风险的框架。

Zhongren Chen, Joshua Kalla, Quan Le2026-03-11💬 cs.CL

MSSR: Memory-Aware Adaptive Replay for Continual LLM Fine-Tuning

该论文提出了一种名为 MSSR 的记忆感知自适应回放框架，通过估计样本级记忆强度并动态调整复习间隔，在持续微调大语言模型时有效缓解了灾难性遗忘问题，同时保持了快速适应能力，并在多项基准测试中显著优于现有方法。

Yiyang Lu, Yu He, Jianlong Chen, Hongyuan Zha2026-03-11🤖 cs.AI

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

该论文揭示了推理机制如何通过“计算缓冲效应”和“事实启动”两个关键机制显著提升大语言模型对简单事实性知识的检索能力，同时也指出推理过程中产生的中间幻觉会损害最终答案的准确性，并据此提出了通过优先选择无幻觉推理轨迹来提升模型精度的方法。

Zorik Gekhman, Roee Aharoni, Eran Ofek, Mor Geva, Roi Reichart, Jonathan Herzig2026-03-11💬 cs.CL

Model Merging in the Era of Large Language Models: Methods, Applications, and Future Directions

这篇论文提出了名为 FUSE 的四维分类框架，全面综述了大语言模型时代下模型合并的理论基础、算法方法、应用场景及生态系统，并指出了该领域未来的挑战与方向。

Mingyang Song, Mao Zheng2026-03-11💬 cs.CL

Think Before You Lie: How Reasoning Improves Honesty

该论文通过新颖的道德权衡数据集发现，与人类不同，推理过程能显著提升大语言模型的诚实度，其根本原因在于欺骗性回答在表征空间中处于亚稳态，而推理生成的思维链通过遍历该空间将模型推向更稳定的诚实默认状态。

Ann Yuan, Asma Ghandeharioun, Carter Blum, Alicia Machado, Jessica Hoffmann, Daphne Ippolito, Martin Wattenberg, Lucas Dixon, Katja Filippova2026-03-11🤖 cs.AI

CREATE: Testing LLMs for Associative Creativity

本文介绍了名为 CREATE 的新基准，旨在通过评估模型在概念间生成高特异性与高多样性关联路径的能力，来量化其联想创造力，并发现尽管前沿模型表现更优，但现有思维模型和提示方法在该任务上的提升仍有限。

Manya Wadhwa, Tiasa Singha Roy, Harvey Lederman, Junyi Jessy Li, Greg Durrett2026-03-11💬 cs.CL

A Survey of Large Language Models

本文综述了大型语言模型（LLM）的最新进展，系统介绍了其背景、关键发现及主流技术，重点围绕预训练、适应微调、应用利用和能力评估四大核心方面展开，并总结了相关资源与未来挑战。

Wayne Xin Zhao, Kun Zhou, Junyi Li + 19 more2026-03-10💬 cs.CL

Agent-OM: Leveraging LLM Agents for Ontology Matching

本文提出了名为 Agent-OM 的新型大语言模型代理框架，通过双 Siamese 代理与专用工具协同工作，在简单本体匹配任务上达到顶尖性能，并在复杂及少样本任务中显著优于现有最先进系统。

Zhangcheng Qiang, Weiqing Wang, Kerry Taylor2026-03-10💬 cs.CL

Llama-Mob: Instruction-Tuning Llama-3-8B Excels in City-Scale Mobility Prediction

该论文提出了名为 Llama-Mob 的指令微调 Llama-3-8B 模型，通过问答形式在长周期城市级人类移动性预测任务中超越了现有最先进方法，并展现出强大的跨城市零样本泛化能力。

Peizhi Tang, Chuang Yang, Tong Xing, Xiaohang Xu, Jiayi Xu, Renhe Jiang, Kaoru Sezaki2026-03-10💬 cs.CL

Speaker effects in language comprehension: An integrative model of language and speaker processing

这篇综述文章提出了一种整合模型，认为语言理解中的说话者效应源于基于声学情景记忆的底向上感知过程与基于说话者模型的顶向下预期过程之间的相互作用，并探讨了该机制在语言发展、社会认知及人工智能交互领域的应用。

Hanlin Wu, Zhenguang G. Cai2026-03-10💬 cs.CL

Efficient Continual Learning for Small Language Models with a Discrete Key-Value Bottleneck

该论文提出了一种专为编码器语言模型设计的离散键值瓶颈（DKVB）方法，通过引入任务无关的初始化技术和局部更新机制，在无需任务 ID 的具有挑战性的持续学习场景中，有效缓解了灾难性遗忘问题，同时以较低的计算成本实现了与主流方法相当的性能。

Andor Diera, Lukas Galke, Fabian Karl, Ansgar Scherp2026-03-10💬 cs.CL

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

该论文提出了名为 HarmonicEval 的无参考综合评估指标，通过自下而上的方式聚合多准则得分以解决现有指标难以适应多任务场景的问题，并构建了包含 1.8 万条专家标注的 MMHE 基准，实验表明其比传统指标与人类判断具有更高的相关性。

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

Exploring Embedding Priors in Prompt-Tuning for Improved Interpretability and Control

该论文通过引入嵌入先验并分析提示微调中嵌入坍塌现象，发现模型能在激活空间的不同区域有效工作，且不同任务类型的激活轨迹呈现特定聚类模式，从而为提升提示微调的可解释性、可控性及泛化能力提供了新见解。

Sergey Sedov, Sumanth Bharadwaj Hachalli Karanam, Venu Gopal Kadamba2026-03-10🤖 cs.LG

A Single Model Ensemble Framework for Neural Machine Translation using Pivot Translation

该论文提出了一种基于枢轴翻译的单模型集成框架，通过枢轴翻译生成多样化的高质量候选译文，并经由后处理聚合步骤筛选融合，从而在不增加多模型训练成本的情况下显著提升了低资源语言对的神经机器翻译质量。

Seokjin Oh, Keonwoong Noh, Woohwan Jung2026-03-10💬 cs.CL

GRADIEND: Feature Learning within Neural Networks Exemplified through Biases

该论文提出了一种名为 GRADIEND 的新型编码器 - 解码器方法，利用模型梯度学习编码社会偏见（如性别、种族和宗教）的特征神经元，从而能够精准定位并修改模型权重以在保留其他能力的同时消除偏见。

Jonathan Drechsel, Steffen Herbold2026-03-10🤖 cs.LG