cs.CL 篇论文 | Gist.Science

Build, Borrow, or Just Fine-Tune? A Political Scientist's Guide to Choosing NLP Models

该论文通过以冲突事件分类为例，对比了从零构建、借用现有模型与微调通用模型三种策略，发现微调后的 ModernBERT 在高频事件分类上与领域专用模型表现相当，仅在罕见类别存在微小差距，据此为政治学家提出了一个基于类别分布、误差容忍度及资源约束的实用决策框架。

Shreyas MeherWed, 11 Ma💬 cs.CL

Surgical Repair of Collapsed Attention Heads in ALiBi Transformers

该论文揭示了 BLOOM 系列模型中由 ALiBi 位置编码引发的注意力头系统性坍塌现象，并提出了一种针对 Q/K/V 的重初始化“手术”修复技术，在单消费级 GPU 上成功恢复了 98.7% 的注意力头功能，证明了预训练注意力配置存在次优局部极小值。

Palmer SchallonWed, 11 Ma💬 cs.CL

X-GS: An Extensible Open Framework Unifying 3DGS Architectures with Downstream Multimodal Models

本文提出了 X-GS 框架，通过其高效的 X-GS-Perceiver 管线将未标注视频流实时转化为富含语义的 3D 高斯表示，并借助 X-GS-Thinker 组件与多模态模型结合，从而统一了在线 SLAM 与下游视觉语言任务。

Yueen Ma, Irwin KingWed, 11 Ma💬 cs.CL

Tracking Cancer Through Text: Longitudinal Extraction From Radiology Reports Using Open-Source Large Language Models

该研究提出了一种基于开源大语言模型（qwen2.5-72b）和 llm_extractinator 框架的本地化部署管道，用于从放射学报告中按 RECIST 标准提取纵向肿瘤信息，在荷兰 CT 报告测试中实现了高准确率，证明了开源模型在保障数据隐私的同时能有效支持临床纵向数据分析。

Luc Builtjes, Alessa HeringWed, 11 Ma💬 cs.CL

Understanding the Interplay between LLMs' Utilisation of Parametric and Contextual Knowledge: A keynote at ECIR 2025

这篇 ECIR 2025 主题演讲摘要探讨了大型语言模型在知识密集型任务中如何协调参数化知识与上下文检索知识之间的复杂互动，重点分析了知识冲突（包括参数内冲突及与上下文的冲突）的成因，并介绍了评估模型知识状态、诊断冲突及理解上下文知识有效利用特征的研究成果。

Isabelle AugensteinWed, 11 Ma💬 cs.CL

Automatic Cardiac Risk Management Classification using large-context Electronic Patients Health Records

该研究提出了一种基于大型上下文电子健康记录的自动心血管风险管理分类框架，通过对比传统机器学习、专用深度学习架构及生成式大语言模型，证实了定制 Transformer 模型在捕捉医疗文本长程依赖方面表现最优，为老年心血管风险分层提供了高效的自动化替代方案。

Jacopo Vitale, David Della Morte, Luca Bacco, Mario Merone, Mark de Groot, Saskia Haitjema, Leandro Pecchia, Bram van EsWed, 11 Ma🤖 cs.AI

Fusing Semantic, Lexical, and Domain Perspectives for Recipe Similarity Estimation

该研究通过融合语义、词汇和领域（营养）视角来评估食谱相似度，并借助专家验证确定了各维度在决策中的影响力，从而为个性化饮食推荐和自动化食谱生成提供了支持。

Denica Kjorvezir, Danilo Najkov, Eva Valencič, Erika Jesenko, Barbara Koroišic Seljak, Tome Eftimov, Riste StojanovWed, 11 Ma💬 cs.CL

ESAinsTOD: A Unified End-to-End Schema-Aware Instruction-Tuning Framework for Task-Oriented Dialog Modeling

本文提出了 ESAinsTOD，一种统一的全参数微调端到端指令微调框架，通过引入指令对齐与模式对齐机制，显著提升了任务型对话模型在跨数据集基准测试、低资源零样本泛化及抗噪鲁棒性方面的性能。

Dechuan Teng, Chunlin Lu, Libo Qin, Wanxiang CheWed, 11 Ma🤖 cs.AI

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

该论文提出了 ActiveUltraFeedback，一种利用主动学习动态筛选高信息量样本以生成偏好数据的模块化流程，通过引入 DRTS 和 DeltaUCB 等新颖方法，仅用六分之一的标注数据即可实现与静态基线相当甚至更优的大语言模型对齐效果。

Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas KrauseWed, 11 Ma🤖 cs.AI

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

本文提出了名为 Mousse 的新型优化器，它通过结合 Shampoo 的曲率感知预条件技术与 Muon 的谱优化方法，在黎曼流形上实现了各向异性的信任区域约束，从而在几乎不增加计算开销的情况下显著提升了语言模型的训练效率。

Yechen Zhang, Shuhao Xing, Junhao Huang, Kai Lv, Yunhua Zhou, Xipeng Qiu, Qipeng Guo, Kai ChenWed, 11 Ma🤖 cs.AI

Evaluation of LLMs in retrieving food and nutritional context for RAG systems

该论文评估了四种大语言模型在将自然语言查询转化为结构化元数据以检索专业食品营养数据库方面的表现，发现其在处理可明确表达的约束时效果显著，能有效降低领域专家的使用门槛，但在涉及无法通过元数据格式表达的复杂约束时仍面临挑战。

Maks Požarnik Vavken, Matevž Ogrinc, Tome Eftimov, Barbara Koroušic SeljakWed, 11 Ma💬 cs.CL

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

该论文提出了 MUGEN 基准以评估大音频语言模型的多音频理解能力，揭示了其在并发输入增加时性能显著下降的瓶颈，并发现结合音频排列自洽性与思维链策略可显著提升模型表现。

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation

该论文提出了名为 RbtAct 的新方法，通过利用同行评审中的反驳（rebuttal）作为隐式监督信号，并构建 RMR-75K 数据集，训练大语言模型生成更具可操作性和具体性的论文评审反馈。

Sihong Wu, Yiling Ma, Yilun Zhao, Tiansheng Hu, Owen Jiang, Manasi Patwardhan, Arman CohanWed, 11 Ma🤖 cs.AI

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

本文提出了 EXPLORE-Bench 基准，旨在评估多模态大语言模型在从第一人称视角预测长序列动作后的最终场景方面的能力，揭示了当前模型在长程推理上与人类存在的显著差距，并验证了通过逐步推理分解任务虽能提升性能但会带来计算开销。

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun ZhaWed, 11 Ma🤖 cs.AI

Beyond Fine-Tuning: Robust Food Entity Linking under Ontology Drift with FoodOntoRAG

本文提出了 FoodOntoRAG，一种无需微调且与本体无关的管道，通过检索增强生成（RAG）结合多智能体协作机制，有效解决了食品命名实体链接中因本体漂移导致的鲁棒性问题，同时实现了高准确率与可解释的决策。

Jan Drole, Ana Gjorgjevikj, Barbara Korouši'c Seljak, Tome EftimovWed, 11 Ma💬 cs.CL

EPIC-EuroParl-UdS: Information-Theoretic Perspectives on Translation and Interpreting

本文介绍了 EPIC-EuroParl-UdS 语料库的更新版本，该资源整合并修正了欧洲议会的英德双向口笔译数据，新增了词对齐和惊奇度等标注层，旨在支持基于信息论的语言变异研究及翻译共性分析，并通过填充词预测任务验证了语料质量与模型评估效果。

Maria Kunilovskaya, Christina PollkläsenerWed, 11 Ma💬 cs.CL

MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations

本文介绍了 MITRA，一种专为大型物理实验（如 CMS）设计的本地化检索增强生成（RAG）原型系统，它通过自动化文档提取、两阶段向量数据库架构及完全本地部署的模型，有效解决了海量内部文档的检索难题并确保了数据隐私。

Abhishikth Mallampalli, Sridhara DasuWed, 11 Ma🤖 cs.AI

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

本文介绍了 One-Eval，一个能够将自然语言评估请求自动转化为可执行、可追溯且可定制的评估工作流的智能体系统，旨在通过集成基准规划、数据获取与归一化、任务感知指标选择及人机协作机制，解决大语言模型评估中依赖人工操作、难以复现及缺乏可解释性等挑战。

Chengyu Shen, Yanheng Hou, Minghui Pan, Runming He, Zhen Hao Wong, Meiyi Qiang, Zhou Liu, Hao Liang, Peichao Lai, Zeang Sheng, Wentao ZhangWed, 11 Ma💬 cs.CL

Chow-Liu Ordering for Long-Context Reasoning in Chain-of-Agents

该论文提出利用 Chow-Liu 树学习长文本块间的依赖结构，并通过广度优先遍历确定处理顺序，从而在 Chain-of-Agents 框架中减少信息损失，显著提升长上下文推理任务的答案相关性和准确率。

Naman Gupta, Vaibhav Singh, Arun Iyer, Kirankumar Shiragur, Pratham Grover, Ramakrishna B. Bairi, Ritabrata Maiti, Sankarshan Damle, Shachee Mishra Gupta, Rishikesh Maurya, Vageesh D. CWed, 11 Ma💬 cs.CL

N-gram-like Language Models Predict Reading Time Best

该论文提出并证实，阅读时间更依赖于简单的 n-gram 统计特征而非复杂模型学到的深层统计规律，因此那些预测结果与 n-gram 概率相关性最高的神经语言模型，在预测自然文本阅读时间（基于眼动追踪数据）时也表现最佳。

James A. Michaelov, Roger P. LevyWed, 11 Ma💬 cs.CL