MuSaG: A Multimodal German Sarcasm Dataset with Full-Modal Annotations

本文介绍了首个德语多模态讽刺检测数据集 MuSaG,该数据集包含来自德国电视节目的文本、音频和视频对齐标注,并通过基准测试揭示了当前模型在文本模态上表现优异但未能像人类一样充分利用音频线索的差距,从而为推动更贴合现实场景的多模态讽刺检测研究提供了资源与方向。

Aaron Scott, Maike Züfle, Jan Niehues2026-03-05🤖 cs.AI

Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents

该论文提出了轻量级的“代理数据协议”(ADP),作为一种统一不同来源异构数据的中间语言,成功整合了 13 个现有数据集进行监督微调,使大语言模型代理在无需领域特定调整的情况下,在代码、浏览及工具使用等基准测试中实现了约 20% 的性能提升并达到或接近最先进水平。

Yueqi Song, Ketan Ramaneti, Zaid Sheikh + 18 more2026-03-05🤖 cs.AI

Generalization of RLVR Using Causal Reasoning as a Testbed

本文通过因果推理实验发现,强化学习验证奖励(RLVR)相较于监督微调(SFT)能显著提升大语言模型在概率查询中的泛化能力,但其效果取决于模型规模与训练查询层级的匹配,且仅在模型具备足够初始推理能力时,RLVR 才能通过优化边缘化策略和减少中间计算错误来改善复杂推理任务的表现。

Brian Lu, Hongyu Zhao, Shuo Sun + 3 more2026-03-05🤖 cs.AI

Meenz bleibt Meenz, but Large Language Models Do Not Speak Its Dialect

该论文首次针对德国美因茨方言(Meenzerisch)开展自然语言处理研究,通过构建首个数字词典数据集并评估大语言模型的表现,发现现有模型在方言定义生成与词汇生成任务中准确率极低(均低于 10%),从而凸显了亟需更多资源与研究投入以挽救濒危德语方言的紧迫性。

Minh Duc Bui, Manuel Mager, Peter Herbert Kann + 1 more2026-03-05💬 cs.CL