MERLIN: Multi-Stage Curriculum Alignment for Multilingual Encoder-LLM Integration in Cross-Lingual Reasoning

本文提出了名为 MERLIN 的两阶段模型堆叠框架,通过从通用双语语料到特定任务数据的课程学习策略,并仅微调少量 DoRA 权重,显著提升了多语言编码器与大语言模型在低资源语言复杂推理任务中的表现,在 AfriMGSM 等基准测试中超越了现有方法及 GPT-4o-mini。

Kosei Uemura, David Guzmán, Quang Phuoc Nguyen, Jesujoba Oluwadara Alabi, En-shiun Annie Lee, David Ifeoluwa Adelani2026-03-09💬 cs.CL

Decoding Partial Differential Equations: Cross-Modal Adaptation of Decoder-only Models to PDEs

该论文系统比较了仅编码器与仅解码器大语言模型在偏微分方程跨模态适应任务中的表现,发现未加改进的仅解码器模型效果远逊于仅编码器模型且无法通过单纯扩展规模提升,为此提出了“并行翻转”和“序列加倍”两种模拟双向性的新方法,成功缩小了两者性能差距并提升了所有任务的表现。

Paloma García-de-Herreros, Philipp Slusallek, Dietrich Klakow, Vagrant Gautam2026-03-09🤖 cs.LG

Do LLMs Really Know What They Don't Know? Internal States Mainly Reflect Knowledge Recall Rather Than Truthfulness

该论文提出幻觉可分为“无关联幻觉”与“由虚假关联驱动的关联幻觉”,并通过机制分析发现大语言模型的内部状态主要反映参数知识的调用而非输出真实性,导致基于内部信号的传统检测方法难以区分事实性输出与由虚假关联引发的幻觉。

Chi Seng Cheang, Hou Pong Chan, Wenxuan Zhang, Yang Deng2026-03-09💬 cs.CL

Activation-Space Personality Steering: Hybrid Layer Selection for Stable Trait Control in LLMs

该论文提出了一种基于大五人格特质的混合层选择激活空间人格导向框架,通过挖掘模型隐藏状态中的低秩子空间并动态选择最优层进行扰动,实现了对大语言模型人格特质的精准、稳定控制,同时保持了其流畅性与通用能力。

Pranav Bhandari, Nicolas Fay, Sanjeevan Selvaganapathy, Amitava Datta, Usman Naseem, Mehwish Nasim2026-03-09💬 cs.CL

SPINE: Token-Selective Test-Time Reinforcement Learning with Entropy-Band Regularization

本文提出了 SPINE,一种无需标签的测试时强化学习框架,它通过仅更新决定推理分支的关键高熵令牌并施加熵带正则化,有效解决了现有方法在测试时因分布偏移导致的响应缩短和性能下降问题,从而在多种大模型上实现了更稳定且高效的推理能力。

Jianghao Wu, Yasmeen George, Jin Ye, Yicheng Wu, Daniel F. Schmidt, Jianfei Cai2026-03-09🤖 cs.LG

Creating a Hybrid Rule and Neural Network Based Semantic Tagger using Silver Standard Data: the PyMUSAS framework for Multilingual Semantic Annotation

本文提出了 PyMUSAS 框架,通过构建银标准数据集并融合规则系统与神经网络模型,在五种语言上实现了对 USAS 语义框架的大规模多语言语义标注评估与增强。

Andrew Moore, Paul Rayson, Dawn Archer, Tim Czerniak, Dawn Knight, Daisy Lal, Gearóid Ó Donnchadha, Mícheál Ó Meachair, Scott Piao, Elaine Uí Dhonnchadha, Johanna Vuorinen, Yan Yabo, Xiaobin Yang2026-03-09💬 cs.CL

Restoring Exploration after Post-Training: Latent Exploration Decoding for Large Reasoning Models

该论文指出大推理模型在强化学习后训练中出现了探索崩溃现象,并提出了无需额外训练或参数的“潜在探索解码”(LED)方法,通过聚合中间层后验分布并选择熵最大的深度配置,有效提升了模型在多个推理基准上的准确率。

Wenhui Tan, Fiorenzo Parascandolo, Enver Sangineto, Jianzhong Ju, Zhenbo Luo, Qian Cao, Rita Cucchiara, Ruihua Song, Jian Luan2026-03-09🤖 cs.LG