cs.CL 篇论文 | Gist.Science

MERLIN: Multi-Stage Curriculum Alignment for Multilingual Encoder-LLM Integration in Cross-Lingual Reasoning

本文提出了名为 MERLIN 的两阶段模型堆叠框架，通过从通用双语语料到特定任务数据的课程学习策略，并仅微调少量 DoRA 权重，显著提升了多语言编码器与大语言模型在低资源语言复杂推理任务中的表现，在 AfriMGSM 等基准测试中超越了现有方法及 GPT-4o-mini。

Kosei Uemura, David Guzmán, Quang Phuoc Nguyen, Jesujoba Oluwadara Alabi, En-shiun Annie Lee, David Ifeoluwa Adelani2026-03-09💬 cs.CL

Better Late Than Never: Meta-Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation

该论文针对现有同时性语音翻译延迟评估指标在短文本场景下因分词偏差导致结果不一致的问题，提出了首个涵盖多语言与系统的元评估，并引入了新型指标 YAAL 与 LongYAAL 及重分词工具 SoftSegmenter，显著提升了延迟评估的准确性与可靠性。

Peter Polák, Sara Papi, Luisa Bentivogli, Ondřej Bojar2026-03-09🤖 cs.AI

Decoding Partial Differential Equations: Cross-Modal Adaptation of Decoder-only Models to PDEs

该论文系统比较了仅编码器与仅解码器大语言模型在偏微分方程跨模态适应任务中的表现，发现未加改进的仅解码器模型效果远逊于仅编码器模型且无法通过单纯扩展规模提升，为此提出了“并行翻转”和“序列加倍”两种模拟双向性的新方法，成功缩小了两者性能差距并提升了所有任务的表现。

Paloma García-de-Herreros, Philipp Slusallek, Dietrich Klakow, Vagrant Gautam2026-03-09🤖 cs.LG

How Reliable is Language Model Micro-Benchmarking?

该论文通过引入元评估指标研究发现，现有的语言模型微基准测试方法在评估模型性能差异较小时（如 MMLU-Pro 上相差 3.5 个百分点）往往无法提供可靠的排序，且为了达到与随机采样相当的可靠性，通常需要多达 250 个样本，从而揭示了微基准测试在效率与可靠性之间的严峻权衡。

Gregory Yauney, Shahzaib Saqib Warraich, Swabha Swayamdipta2026-03-09🤖 cs.LG

Do LLMs Really Know What They Don't Know? Internal States Mainly Reflect Knowledge Recall Rather Than Truthfulness

该论文提出幻觉可分为“无关联幻觉”与“由虚假关联驱动的关联幻觉”，并通过机制分析发现大语言模型的内部状态主要反映参数知识的调用而非输出真实性，导致基于内部信号的传统检测方法难以区分事实性输出与由虚假关联引发的幻觉。

Chi Seng Cheang, Hou Pong Chan, Wenxuan Zhang, Yang Deng2026-03-09💬 cs.CL

Just-In-Time Objectives: A General Approach for Specialized AI Interactions

该论文提出了一种“即时目标”（Just-In-Time Objectives）方法，通过被动观察用户行为实时推断并优化其特定目标，从而引导大语言模型动态生成高度个性化的专用工具与高质量交互响应，显著优于传统通用模型。

Michelle S. Lam, Omar Shaikh, Hallie Xu, Alice Guo, Diyi Yang, Jeffrey Heer, James A. Landay, Michael S. Bernstein2026-03-09🤖 cs.AI

Chain-of-Thought Reasoning Improves Context-Aware Translation with Large Language Models

该论文评估了大语言模型在包含跨句依赖的英法翻译任务中的表现，发现链式思维推理能显著提升模型区分正确翻译和生成高质量翻译的能力，且原本表现较好的模型通过推理获得的提升幅度更大。

Shabnam Ataee, Hugo Huart, Andrei Popescu-Belis2026-03-09💬 cs.CL

Automated Coding of Communication Data Using ChatGPT: Consistency Across Subgroups

该研究通过引入三项子群一致性检验，证实了 ChatGPT 在基于性别和种族/民族群体的协作沟通数据编码中，其表现与人类评分者保持一致，从而验证了其在大规模协作评估中的应用潜力。

Jiangang Hao, Wenju Cui, Patrick Kyllonen, Emily Kerzabi2026-03-09🤖 cs.AI

Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People

该论文提出了一种受贝叶斯实验设计启发的蒙特卡洛推理策略，通过“协作战舰”等任务显著提升了语言模型在信息寻求任务中的提问质量与决策理性，使其在成本极低的情况下甚至能超越人类和前沿模型的表现。

Gabriel Grand, Valerio Pepe, Jacob Andreas, Joshua B. Tenenbaum2026-03-09🤖 cs.AI

DETECT: Determining Ease and Textual Clarity of German Text Simplifications

本文提出了首个专为德语自动文本简化设计的评估指标 DETECT，该指标利用大语言模型生成合成数据以克服德语标注语料匮乏的难题，并在简洁性、语义保留和流畅度三个维度上实现了对人类判断的更高相关性。

Maria Korobeynikova, Alessia Battisti, Lukas Fischer, Yingqiang Gao2026-03-09💬 cs.CL

AfriMTEB and AfriE5: Benchmarking and Adapting Text Embedding Models for African Languages

本文提出了覆盖 59 种非洲语言、包含 14 项任务和 38 个数据集的 AfriMTEB 基准，并发布了通过跨语言对比蒸馏适配的 AfriE5 模型，该模型在多项评估中超越了 Gemini-Embeddings 和 mE5 等强基线，实现了非洲语言文本嵌入领域的最新最佳性能。

Kosei Uemura, Miaoran Zhang, David Ifeoluwa Adelani2026-03-09💬 cs.CL

Activation-Space Personality Steering: Hybrid Layer Selection for Stable Trait Control in LLMs

该论文提出了一种基于大五人格特质的混合层选择激活空间人格导向框架，通过挖掘模型隐藏状态中的低秩子空间并动态选择最优层进行扰动，实现了对大语言模型人格特质的精准、稳定控制，同时保持了其流畅性与通用能力。

Pranav Bhandari, Nicolas Fay, Sanjeevan Selvaganapathy, Amitava Datta, Usman Naseem, Mehwish Nasim2026-03-09💬 cs.CL

Critical Confabulation: Can LLMs Hallucinate for Social Good?

该论文提出“批判性虚构”（critical confabulation）概念，论证了通过精心约束的大型语言模型幻觉，可以在不牺牲历史准确性的前提下，填补因社会政治不平等而造成的档案空白，从而重构被遮蔽历史人物的多元叙事。

Peiqi Sui, Eamon Duede, Hoyt Long, Richard Jean So2026-03-09💬 cs.CL

Co-Layout: LLM-driven Co-optimization for Interior Layout

该论文提出了一种名为 Co-Layout 的新框架，通过结合大语言模型与基于网格的整数规划，采用由粗到细的优化策略，实现了对室内布局与家具摆放的联合自动优化，在提升设计质量的同时显著提高了计算效率。

Chucheng Xiang, Ruchao Bao, Biyin Feng, Wenzheng Wu, Zhongyuan Liu, Yirui Guan, Ligang Liu2026-03-09💬 cs.CL

SPINE: Token-Selective Test-Time Reinforcement Learning with Entropy-Band Regularization

本文提出了 SPINE，一种无需标签的测试时强化学习框架，它通过仅更新决定推理分支的关键高熵令牌并施加熵带正则化，有效解决了现有方法在测试时因分布偏移导致的响应缩短和性能下降问题，从而在多种大模型上实现了更稳定且高效的推理能力。

Jianghao Wu, Yasmeen George, Jin Ye, Yicheng Wu, Daniel F. Schmidt, Jianfei Cai2026-03-09🤖 cs.LG

Agent Tools Orchestration Leaks More: Dataset, Benchmark, and Mitigation

该论文首次系统研究了由大语言模型驱动的单智能体多工具架构中存在的“工具编排隐私风险”（TOP-R），通过构建基准测试揭示其普遍性并分析成因，进而提出了针对输出、推理和审查阶段的有效缓解策略。

Yuxuan Qiao, Dongqin Liu, Hongchang Yang, Wei Zhou, Songlin Hu2026-03-09🤖 cs.AI

Window-based Membership Inference Attacks Against Fine-tuned Large Language Models

该论文提出了一种名为 WBC 的基于滑动窗口的成员推断攻击方法，通过聚合不同尺度局部上下文中的损失比较信号，显著提升了在微调大语言模型中识别训练数据的能力，并揭示了局部证据聚合比全局平均更有效的隐私漏洞。

Yuetian Chen, Yuntao Du, Kaiyuan Zhang, Ashish Kundu, Charles Fleming, Bruno Ribeiro, Ninghui Li2026-03-09🤖 cs.AI

Classroom AI: Large Language Models as Grade-Specific Teachers

该论文提出了一种通过集成七种可读性指标和聚类方法微调大语言模型的框架，成功生成了涵盖六个教育阶段的适龄教学内容，在保持事实准确性的同时将年级对齐度相比提示方法提升了 35.64 个百分点，从而有效应对全球师资短缺并促进教育公平。

Jio Oh, Steven Euijong Whang, James Evans, Jindong Wang2026-03-09🤖 cs.AI

Creating a Hybrid Rule and Neural Network Based Semantic Tagger using Silver Standard Data: the PyMUSAS framework for Multilingual Semantic Annotation

本文提出了 PyMUSAS 框架，通过构建银标准数据集并融合规则系统与神经网络模型，在五种语言上实现了对 USAS 语义框架的大规模多语言语义标注评估与增强。

Andrew Moore, Paul Rayson, Dawn Archer, Tim Czerniak, Dawn Knight, Daisy Lal, Gearóid Ó Donnchadha, Mícheál Ó Meachair, Scott Piao, Elaine Uí Dhonnchadha, Johanna Vuorinen, Yan Yabo, Xiaobin Yang2026-03-09💬 cs.CL

Restoring Exploration after Post-Training: Latent Exploration Decoding for Large Reasoning Models

该论文指出大推理模型在强化学习后训练中出现了探索崩溃现象，并提出了无需额外训练或参数的“潜在探索解码”（LED）方法，通过聚合中间层后验分布并选择熵最大的深度配置，有效提升了模型在多个推理基准上的准确率。

Wenhui Tan, Fiorenzo Parascandolo, Enver Sangineto, Jianzhong Ju, Zhenbo Luo, Qian Cao, Rita Cucchiara, Ruihua Song, Jian Luan2026-03-09🤖 cs.LG