cs.CL 篇论文 | Gist.Science

Modelling the Diachronic Emergence of Phoneme Frequency Distributions

本文通过引入功能负荷效应和趋向特定音系规模稳定性的随机演化模型，证明了语音频率分布的统计规律及音系规模与相对熵的负相关关系可能是历时音变过程的自然产物，而非源于显式的优化或补偿机制。

Fermín Moscoso del Prado Martín, Suchir Salhan2026-03-11💬 cs.CL

You Didn't Have to Say It like That: Subliminal Learning from Faithful Paraphrases

该论文揭示了语言模型在仅通过语义无关甚至内容相悖的忠实改写数据进行训练时，仍会隐式习得生成模型（教师模型）的特定偏好（如动物喜好），表明基于内容审查的过滤机制无法有效阻断此类“潜意学习”风险。

Isaia Gisler (ETH Zürich), Zhonghao He (University of Cambridge), Tianyi Qiu (Peking University)2026-03-11🤖 cs.LG

Enhancing Debunking Effectiveness through LLM-based Personality Adaptation

该研究提出了一种利用大语言模型（LLM）结合大五人格特质生成个性化辟谣信息的新方法，并通过模拟相应人格的 LLM 评估器验证了此类定制化信息通常比通用信息更具说服力，同时指出了该技术带来的伦理挑战。

Pietro Dell'Oglio, Alessandro Bondielli, Francesco Marcelloni, Lucia C. Passaro2026-03-11🤖 cs.AI

ALARM: Audio-Language Alignment for Reasoning Models

该论文提出了名为 ALARM 的音频 - 语言对齐框架，通过自重述技术解决推理大模型在音频任务中的分布不匹配问题，并融合多音频编码器与构建大规模多任务语料库，成功训练出在保持文本能力同时超越多数更大规模模型的 4B 参数音频语言模型。

Petr Grinberg, Hassan Shahmohammadi2026-03-11💬 cs.CL

Build, Borrow, or Just Fine-Tune? A Political Scientist's Guide to Choosing NLP Models

该论文通过以冲突事件分类为例，对比了从零构建、借用现有模型与微调通用模型三种策略，发现微调后的 ModernBERT 在高频事件分类上与领域专用模型表现相当，仅在罕见类别存在微小差距，据此为政治学家提出了一个基于类别分布、误差容忍度及资源约束的实用决策框架。

Shreyas Meher2026-03-11💬 cs.CL

Surgical Repair of Collapsed Attention Heads in ALiBi Transformers

该论文揭示了 BLOOM 系列模型中由 ALiBi 位置编码引发的注意力头系统性坍塌现象，并提出了一种针对 Q/K/V 的重初始化“手术”修复技术，在单消费级 GPU 上成功恢复了 98.7% 的注意力头功能，证明了预训练注意力配置存在次优局部极小值。

Palmer Schallon2026-03-11💬 cs.CL

X-GS: An Extensible Open Framework Unifying 3DGS Architectures with Downstream Multimodal Models

本文提出了 X-GS 框架，通过其高效的 X-GS-Perceiver 管线将未标注视频流实时转化为富含语义的 3D 高斯表示，并借助 X-GS-Thinker 组件与多模态模型结合，从而统一了在线 SLAM 与下游视觉语言任务。

Yueen Ma, Irwin King2026-03-11💬 cs.CL

Tracking Cancer Through Text: Longitudinal Extraction From Radiology Reports Using Open-Source Large Language Models

该研究提出了一种基于开源大语言模型（qwen2.5-72b）和 llm_extractinator 框架的本地化部署管道，用于从放射学报告中按 RECIST 标准提取纵向肿瘤信息，在荷兰 CT 报告测试中实现了高准确率，证明了开源模型在保障数据隐私的同时能有效支持临床纵向数据分析。

Luc Builtjes, Alessa Hering2026-03-11💬 cs.CL

Understanding the Interplay between LLMs' Utilisation of Parametric and Contextual Knowledge: A keynote at ECIR 2025

这篇 ECIR 2025 主题演讲摘要探讨了大型语言模型在知识密集型任务中如何协调参数化知识与上下文检索知识之间的复杂互动，重点分析了知识冲突（包括参数内冲突及与上下文的冲突）的成因，并介绍了评估模型知识状态、诊断冲突及理解上下文知识有效利用特征的研究成果。

Isabelle Augenstein2026-03-11💬 cs.CL

Automatic Cardiac Risk Management Classification using large-context Electronic Patients Health Records

该研究提出了一种基于大型上下文电子健康记录的自动心血管风险管理分类框架，通过对比传统机器学习、专用深度学习架构及生成式大语言模型，证实了定制 Transformer 模型在捕捉医疗文本长程依赖方面表现最优，为老年心血管风险分层提供了高效的自动化替代方案。

Jacopo Vitale, David Della Morte, Luca Bacco, Mario Merone, Mark de Groot, Saskia Haitjema, Leandro Pecchia, Bram van Es2026-03-11🤖 cs.AI

Fusing Semantic, Lexical, and Domain Perspectives for Recipe Similarity Estimation

该研究通过融合语义、词汇和领域（营养）视角来评估食谱相似度，并借助专家验证确定了各维度在决策中的影响力，从而为个性化饮食推荐和自动化食谱生成提供了支持。

Denica Kjorvezir, Danilo Najkov, Eva Valencič, Erika Jesenko, Barbara Koroišic Seljak, Tome Eftimov, Riste Stojanov2026-03-11💬 cs.CL

ESAinsTOD: A Unified End-to-End Schema-Aware Instruction-Tuning Framework for Task-Oriented Dialog Modeling

本文提出了 ESAinsTOD，一种统一的全参数微调端到端指令微调框架，通过引入指令对齐与模式对齐机制，显著提升了任务型对话模型在跨数据集基准测试、低资源零样本泛化及抗噪鲁棒性方面的性能。

Dechuan Teng, Chunlin Lu, Libo Qin, Wanxiang Che2026-03-11🤖 cs.AI

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

该论文提出了 ActiveUltraFeedback，一种利用主动学习动态筛选高信息量样本以生成偏好数据的模块化流程，通过引入 DRTS 和 DeltaUCB 等新颖方法，仅用六分之一的标注数据即可实现与静态基线相当甚至更优的大语言模型对齐效果。

Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas Krause2026-03-11🤖 cs.AI

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

本文提出了名为 Mousse 的新型优化器，它通过结合 Shampoo 的曲率感知预条件技术与 Muon 的谱优化方法，在黎曼流形上实现了各向异性的信任区域约束，从而在几乎不增加计算开销的情况下显著提升了语言模型的训练效率。

Yechen Zhang, Shuhao Xing, Junhao Huang, Kai Lv, Yunhua Zhou, Xipeng Qiu, Qipeng Guo, Kai Chen2026-03-11🤖 cs.AI

Evaluation of LLMs in retrieving food and nutritional context for RAG systems

该论文评估了四种大语言模型在将自然语言查询转化为结构化元数据以检索专业食品营养数据库方面的表现，发现其在处理可明确表达的约束时效果显著，能有效降低领域专家的使用门槛，但在涉及无法通过元数据格式表达的复杂约束时仍面临挑战。

Maks Požarnik Vavken, Matevž Ogrinc, Tome Eftimov, Barbara Koroušic Seljak2026-03-11💬 cs.CL

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

该论文提出了 MUGEN 基准以评估大音频语言模型的多音频理解能力，揭示了其在并发输入增加时性能显著下降的瓶颈，并发现结合音频排列自洽性与思维链策略可显著提升模型表现。

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi Lee2026-03-11🤖 cs.AI

RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation

该论文提出了名为 RbtAct 的新方法，通过利用同行评审中的反驳（rebuttal）作为隐式监督信号，并构建 RMR-75K 数据集，训练大语言模型生成更具可操作性和具体性的论文评审反馈。

Sihong Wu, Yiling Ma, Yilun Zhao, Tiansheng Hu, Owen Jiang, Manasi Patwardhan, Arman Cohan2026-03-11🤖 cs.AI

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

本文提出了 EXPLORE-Bench 基准，旨在评估多模态大语言模型在从第一人称视角预测长序列动作后的最终场景方面的能力，揭示了当前模型在长程推理上与人类存在的显著差距，并验证了通过逐步推理分解任务虽能提升性能但会带来计算开销。

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun Zha2026-03-11🤖 cs.AI

Beyond Fine-Tuning: Robust Food Entity Linking under Ontology Drift with FoodOntoRAG

本文提出了 FoodOntoRAG，一种无需微调且与本体无关的管道，通过检索增强生成（RAG）结合多智能体协作机制，有效解决了食品命名实体链接中因本体漂移导致的鲁棒性问题，同时实现了高准确率与可解释的决策。

Jan Drole, Ana Gjorgjevikj, Barbara Korouši'c Seljak, Tome Eftimov2026-03-11💬 cs.CL

EPIC-EuroParl-UdS: Information-Theoretic Perspectives on Translation and Interpreting

本文介绍了 EPIC-EuroParl-UdS 语料库的更新版本，该资源整合并修正了欧洲议会的英德双向口笔译数据，新增了词对齐和惊奇度等标注层，旨在支持基于信息论的语言变异研究及翻译共性分析，并通过填充词预测任务验证了语料质量与模型评估效果。

Maria Kunilovskaya, Christina Pollkläsener2026-03-11💬 cs.CL