cs.CL 篇论文 | Gist.Science

MuSaG: A Multimodal German Sarcasm Dataset with Full-Modal Annotations

本文介绍了首个德语多模态讽刺检测数据集 MuSaG，该数据集包含来自德国电视节目的文本、音频和视频对齐标注，并通过基准测试揭示了当前模型在文本模态上表现优异但未能像人类一样充分利用音频线索的差距，从而为推动更贴合现实场景的多模态讽刺检测研究提供了资源与方向。

Aaron Scott, Maike Züfle, Jan Niehues2026-03-05🤖 cs.AI

Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents

该论文提出了轻量级的“代理数据协议”（ADP），作为一种统一不同来源异构数据的中间语言，成功整合了 13 个现有数据集进行监督微调，使大语言模型代理在无需领域特定调整的情况下，在代码、浏览及工具使用等基准测试中实现了约 20% 的性能提升并达到或接近最先进水平。

Yueqi Song, Ketan Ramaneti, Zaid Sheikh + 18 more2026-03-05🤖 cs.AI

CareMedEval dataset: Evaluating Critical Appraisal and Reasoning in the Biomedical Field

本文介绍了 CareMedEval 数据集，该数据集源自法国医学生真实考试，旨在通过评估大型语言模型在生物医学文献批判性评价与推理任务中的表现，揭示当前模型在理解研究局限性和统计分析等方面的局限性，并为开发自动化批判性评价工具提供基准。

Doria Bonzi, Alexandre Guiggi, Frédéric Béchet + 2 more2026-03-05🤖 cs.AI

Dutch Metaphor Extraction from Cancer Patients' Interviews and Forum Data using LLMs and Human in the Loop

本文利用大语言模型结合人工反馈机制，从荷兰语癌症患者的访谈和论坛数据中提取隐喻，构建了名为 HealthQuote.NL 的语料库，旨在通过深入理解患者的隐喻表达来优化医患沟通、辅助共同决策并提升患者健康素养。

Lifeng Han, David Lindevelt, Sander Puts + 2 more2026-03-05💬 cs.CL

Categorical Emotions or Appraisals - Which Emotion Model Explains Argument Convincingness Better?

本文基于 ContArgA 语料库，通过零样本提示实验首次系统比较了情感模型在论证说服力预测中的表现，发现相较于情感类别，基于评估理论（Appraisal theories）的主观认知评估能更显著地提升预测效果。

Lynn Greschner, Meike Bauer, Sabine Weber + 1 more2026-03-05💬 cs.CL

Multimodal Large Language Models for Low-Resource Languages: A Case Study for Basque

本文通过构建专属图文数据集并对比实验，证明了仅需约 20% 的巴斯克语多模态数据即可训练出高性能模型，且无需使用巴斯克语指令微调的大语言模型作为骨干，从而为低资源语言的多模态大模型开发提供了新路径。

Lukas Arana, Julen Etxaniz, Ander Salaberria + 1 more2026-03-05🤖 cs.AI

Dripper: Token-Efficient Main HTML Extraction with a Lightweight LM

本文提出了 Dripper 框架，通过利用轻量级小语言模型将网页主内容提取重构为约束序列标注任务，在实现极高吞吐量的同时，凭借 WebMainBench 基准验证了其超越传统启发式方法并媲美超大模型的性能，且开源了模型权重与代码以推动高质量语料构建。

Mengjie Liu, Jiahui Peng, Wenchang Ning + 14 more2026-03-05💬 cs.CL

What Triggers my Model? Contrastive Explanations Inform Gender Choices by Translation Models

该研究利用对比解释方法分析神经机器翻译模型在性别歧义输入下的决策机制，发现模型对源语言词汇的显著性归因与人类性别感知高度一致，从而揭示了性别偏见的成因并为缓解偏见提供了依据。

Janiça Hackenbuchner, Arda Tezcan, Joke Daems2026-03-05💬 cs.CL

NRR-Core: Non-Resolution Reasoning as a Computational Framework for Contextual Identity and Ambiguity Preservation

本文提出了非解析推理（NRR）框架，通过引入非同一性、近似同一性和非解析三大原则，旨在解决当前人工智能系统过早消除歧义的根本局限，从而在推理过程中保留多重解释的共存性与上下文灵活性。

Kei Saito2026-03-05🤖 cs.AI

A Systematic Analysis of Biases in Large Language Models

该研究通过一系列实验系统分析了四种主流大语言模型在政治、意识形态、地缘联盟、语言及性别维度的潜在偏见，发现尽管这些模型经过对齐以追求中立，但在实际应用中仍表现出不同类型的倾向性。

Xulang Zhang, Rui Mao, Erik Cambria2026-03-05🤖 cs.AI

Generalization of RLVR Using Causal Reasoning as a Testbed

本文通过因果推理实验发现，强化学习验证奖励（RLVR）相较于监督微调（SFT）能显著提升大语言模型在概率查询中的泛化能力，但其效果取决于模型规模与训练查询层级的匹配，且仅在模型具备足够初始推理能力时，RLVR 才能通过优化边缘化策略和减少中间计算错误来改善复杂推理任务的表现。

Brian Lu, Hongyu Zhao, Shuo Sun + 3 more2026-03-05🤖 cs.AI

Succeeding at Scale: Automated Dataset Construction and Query-Side Adaptation for Multi-Tenant Search

该论文提出了 DevRev-Search 基准及一种索引保持的自适应策略，通过自动化管道构建数据集并仅微调查询编码器，从而在不重新索引文档的前提下实现了多租户搜索系统的高效领域适应。

Prateek Jain, Shabari S Nair, Ritesh Goru + 4 more2026-03-05🤖 cs.AI

Knowledge Graphs are Implicit Reward Models: Path-Derived Signals Enable Compositional Reasoning

该论文提出了一种将知识图谱作为隐式奖励模型的后训练范式，通过从图谱路径中提取可验证的奖励信号引导模型学习基于公理事实的组合推理，从而在医疗领域实现了超越更大规模前沿模型（如 GPT-5.2 和 Gemini 3 Pro）的复杂多跳推理能力。

Yuval Kansal, Niraj K. Jha2026-03-05✓ Author reviewed ⓘ🤖 cs.AI

NRR-Phi: Text-to-State Mapping for Ambiguity Preservation in LLM Inference

本文提出了名为 NRR-Phi 的文本到状态映射框架，通过结合规则与 LLM 的混合提取流程，将自然语言转化为保留多重解释的非坍缩状态空间，从而有效解决了大语言模型在推理过程中过早进行语义承诺的问题。

Kei Saito2026-03-05🤖 cs.AI

When Silence Is Golden: Can LLMs Learn to Abstain in Temporal QA and Beyond?

本文首次通过结合思维链监督与基于拒答奖励的强化学习，系统研究了大语言模型在时序问答中的拒答能力，发现该方法不仅显著提升了推理准确率并大幅改善了模型对不可回答问题的识别能力，还揭示了监督微调易导致过度自信而隐式推理线索作用有限等关键洞察。

Xinyu Zhou, Chang Jin, Carsten Eickhoff + 2 more2026-03-05🤖 cs.AI

Rewards as Labels: Revisiting RLVR from a Classification Perspective

本文提出了名为 REAL 的新框架，通过将可验证奖励重新定义为分类标签而非标量权重，有效解决了现有 RLVR 方法中的梯度分配失衡问题，从而在数学推理基准测试中显著提升了模型训练的稳定性与性能。

Zepeng Zhai, Meilin Chen, Jiaxuan Zhao + 3 more2026-03-05🤖 cs.LG

Stopping Computation for Converged Tokens in Masked Diffusion-LM Decoding

本文提出了名为 SureLock 的方法，通过在掩码扩散语言模型解码过程中锁定后验概率已稳定的 token 位置并跳过其部分计算，将每轮迭代的主导计算复杂度从 $O(N^2d)$ 降低至 $O(MNd)$ ，从而在保持生成质量的同时显著减少了计算开销。

Daisuke Oba, Danushka Bollegala, Masahiro Kaneko + 1 more2026-03-05🤖 cs.LG

To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks

该研究通过系统评估发现，大型推理模型在心理理论任务中并未展现出优于非推理模型的表现，反而因过度推理导致性能下降并依赖选项匹配捷径，表明现有的形式推理能力无法直接迁移至社会推理领域，亟需发展独特的心理理论能力。

Nanxu Gong, Haotian Li, Sixun Dong + 3 more2026-03-05🤖 cs.AI

Meenz bleibt Meenz, but Large Language Models Do Not Speak Its Dialect

该论文首次针对德国美因茨方言（Meenzerisch）开展自然语言处理研究，通过构建首个数字词典数据集并评估大语言模型的表现，发现现有模型在方言定义生成与词汇生成任务中准确率极低（均低于 10%），从而凸显了亟需更多资源与研究投入以挽救濒危德语方言的紧迫性。

Minh Duc Bui, Manuel Mager, Peter Herbert Kann + 1 more2026-03-05💬 cs.CL

Extending Czech Aspect-Based Sentiment Analysis with Opinion Terms: Dataset and LLM Benchmarks

本文提出了一个包含意见术语标注的捷克餐厅领域方面级情感分析新数据集，并通过大规模实验评估了多种模型性能，同时提出了一种利用大语言模型进行翻译与标签对齐的方法，有效解决了低资源语言跨语言适配的挑战。

Jakub Šmíd, Pavel Přibáň, Pavel Král2026-03-05💬 cs.CL