cs.CL 篇论文 | Gist.Science

GLoRIA: Gated Low-Rank Interpretable Adaptation for Dialectal ASR

本文提出了 GLoRIA 框架，通过利用元数据门控机制动态调节预训练编码器中的低秩更新，在仅需更新不到 10% 参数的情况下，实现了方言自动语音识别任务中优于现有方法的性能、良好的泛化能力及可解释的地理空间适应模式。

Pouya Mehralian, Melissa Farasyn, Anne Breitbarth + 2 more2026-03-04💬 cs.CL

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

本文提出了 MUSE，一个开源的以运行流程为核心的多模态统一安全评估平台，通过集成自动跨模态载荷生成、多轮攻击算法及模态切换机制，揭示了现有大语言模型在多轮交互及跨模态场景下对齐泛化能力的显著不足。

Zhongxi Wang, Yueqian Lin, Jingyang Zhang + 2 more2026-03-04⚡ eess

CoDAR: Continuous Diffusion Language Models are More Powerful Than You Think

该论文指出连续扩散语言模型性能受限的主要瓶颈在于将去噪嵌入投影为离散 token 的“分词”过程，并提出了 CoDAR 框架，通过结合连续扩散与上下文自回归解码器来优化这一过程，从而显著提升了生成质量并使其竞争力媲美强基线离散扩散模型。

Junzhe Shen, Jieru Zhao, Ziwei He + 1 more2026-03-04💬 cs.CL

Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs

该论文提出了名为 VC-STaR 的新框架，利用对比视觉问答对来缓解视觉语言模型推理中的幻觉问题，并基于此构建了 VisCoR-55K 数据集，显著提升了模型的视觉推理能力。

Zhiyu Pan, Yizheng Wu, Jiashen Hua + 5 more2026-03-04💬 cs.CL

FlashEvaluator: Expanding Search Space with Parallel Evaluation

本文提出了 FlashEvaluator，一种通过单次前向传播实现序列间信息交互与并行评估的框架，有效解决了传统生成器 - 评估器范式在跨序列比较和并行化效率上的局限，并在快手在线推荐系统中实现了显著的营收增长。

Chao Feng, Yuanhao Pu, Chenghao Zhang + 8 more2026-03-04💬 cs.CL

How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities

本文提出了名为 SteerEval 的分层基准测试，通过语言特征、情感和人格三个领域及从意图到输出的三级粒度，系统评估了大语言模型的可控性，揭示了现有控制在细粒度层面的退化问题，并为安全可控的模型行为研究提供了统一框架。

Ziwen Xu, Kewei Xu, Haoming Xu + 8 more2026-03-04💬 cs.CL

ExpGuard: LLM Content Moderation in Specialized Domains

本文提出了专为金融、医疗和法律等垂直领域设计的 LLM 内容安全模型 ExpGuard 及其配套数据集 ExpGuardMix，旨在解决通用模型在专业语境下防御能力不足的问题，实验表明其在对抗特定领域攻击方面显著优于现有最先进模型。

Minseok Choi, Dongjin Kim, Seungbin Yang + 5 more2026-03-04💬 cs.CL

GPUTOK: GPU Accelerated Byte Level BPE Tokenization

本文提出了 GPUTOK，一种基于 GPU 加速的字节级 BPE 分词器，它在保持与 CPU 版本输出一致性的同时，显著提升了长上下文场景下的分词速度，为百万级 token 的大语言模型推理提供了更高效的解决方案。

Venu Gopal Kadamba, Kanishkha Jaisankar2026-03-04💬 cs.CL

Think, But Don't Overthink: Reproducing Recursive Language Models

该研究复现并扩展了递归语言模型（RLM）框架，发现虽然深度为 1 的递归能提升复杂推理任务的表现，但增加递归深度会导致模型“过度思考”，反而在简单任务上降低准确率并显著增加执行时间和成本。

Daren Wang2026-03-04💬 cs.CL

StitchCUDA: An Automated Multi-Agents End-to-End GPU Programing Framework with Rubric-based Agentic Reinforcement Learning

本文提出了 StitchCUDA，这是一个基于多智能体架构与基于准则的代理强化学习框架，旨在通过规划、编码和验证三个专用智能体的协同工作，实现高效且鲁棒的端到端 GPU 程序自动生成，并在 KernelBench 基准测试中取得了显著的性能提升。

Shiyang Li, Zijian Zhang, Winson Chen + 3 more2026-03-04💬 cs.CL

Credibility Governance: A Social Mechanism for Collective Self-Correction under Weak Truth Signals

本文提出了一种名为“可信度治理”（Credibility Governance）的社会机制，通过动态评估并奖励与公共证据长期一致的参与者及观点，有效克服了在线平台在弱真理信号下因噪音、误导和操纵导致的集体判断脆弱性，从而显著提升了群体在不确定环境下的自我纠错能力与鲁棒性。

Wanying He, Yanxi Lin, Ziheng Zhou + 5 more2026-03-04💬 cs.CL

Real-Time Generation of Game Video Commentary with Multimodal LLMs: Pause-Aware Decoding Approaches

该论文提出了一种无需微调的暂停感知解码策略，利用多模态大语言模型通过动态调整生成间隔，实现了在赛车和格斗游戏等场景中既语义相关又时机精准的实时视频解说生成。

Anum Afzal, Yuki Saito, Hiroya Takamura + 5 more2026-03-04💬 cs.CL

Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

该论文提出了一种多模态多维项目反应理论框架（M3IRT），通过解耦图像、文本及跨模态能力与难度，有效识别并剔除现有基准中的捷径问题，从而在降低评估成本的同时显著提升了多模态大语言模型跨模态推理能力的评估可靠性。

Shunki Uebayashi, Kento Masui, Kyohei Atarashi + 5 more2026-03-04💬 cs.CL

ITLC at SemEval-2026 Task 11: Normalization and Deterministic Parsing for Formal Reasoning in LLMs

该论文提出了一种通过将三段论转换为规范逻辑表示并应用确定性解析来消除大语言模型推理中内容效应的创新方法，在 SemEval-2026 第 11 项任务的多语言基准测试中取得了各子任务前五名的优异表现。

Wicaksono Leksono Muhamad, Joanito Agili Lopo, Tack Hwa Wong + 2 more2026-03-04💬 cs.CL

HateMirage: An Explainable Multi-Dimensional Dataset for Decoding Faux Hate and Subtle Online Abuse

本文提出了 HateMirage 数据集，该数据集通过从事实核查来源识别被广泛辟谣的虚假信息并追踪相关 YouTube 评论，构建了包含 4,530 条注释的“伪仇恨”语料，旨在通过目标、意图和影响三个可解释维度，推动对基于虚假叙事产生的微妙仇恨言论的检测与推理研究。

Sai Kartheek Reddy Kasu, Shankar Biradar, Sunil Saumya + 1 more2026-03-04💬 cs.CL

Graph-GRPO: Stabilizing Multi-Agent Topology Learning via Group Relative Policy Optimization

本文提出了 Graph-GRPO 框架，通过引入组相对策略优化（Group Relative Policy Optimization）对多智能体通信拓扑进行相对性能评估，有效解决了传统强化学习方法中因任务难度差异导致的梯度方差大和信用分配困难问题，从而显著提升了基于大语言模型的多智能体系统的训练稳定性与通信拓扑学习效率。

Yueyang Cang, Xiaoteng Zhang, Erlu Zhao + 7 more2026-03-04💬 cs.CL

Sensory-Aware Sequential Recommendation via Review-Distilled Representations

本文提出了一种名为 ASEGR 的框架，通过利用大语言模型从产品评论中提取感官属性并蒸馏为紧凑的感官嵌入，从而增强序列推荐模型对物品体验语义的理解能力，显著提升了推荐性能并增强了结果的可解释性。

Yeo Chan Yoon2026-03-04💬 cs.CL

Efficient Self-Evaluation for Diffusion Language Models via Sequence Regeneration

本文提出了 DiSE 方法，通过计算序列再生概率来量化扩散语言模型（dLLMs）的置信度，从而实现了高效的自我评估、不确定性量化以及基于自适应长度控制的灵活生成。

Linhao Zhong, Linyu Wu, Wen Wang + 5 more2026-03-04💬 cs.CL

From Solver to Tutor: Evaluating the Pedagogical Intelligence of LLMs with KMP-Bench

本文提出了涵盖对话评估与技能细粒度测试的 K-8 数学教学基准 KMP-Bench，揭示了当前大语言模型在数学辅导中虽擅长解题却缺乏 nuanced 教学原则应用的差距，并展示了通过大规模教学语料 KMP-Pile 微调可显著提升模型教学能力的成果。

Weikang Shi, Houxing Ren, Junting Pan + 8 more2026-03-04💬 cs.CL

OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets

该论文通过大规模基准测试和自动化分层错误分析，发现对于强大的多模态大语言模型而言，仅凭图像输入即可达到与传统 OCR 增强方案相当的业务文档信息提取性能，且精心设计的提示策略能进一步提升效果。

Jiyuan Shen, Peiyue Yuan, Atin Ghosh + 2 more2026-03-04💬 cs.CL