cs.CL 篇论文 | Gist.Science

HatePrototypes: Interpretable and Transferable Representations for Implicit and Explicit Hate Speech Detection

该论文提出了一种名为 HatePrototypes 的可解释且可迁移的表示方法，仅需每类少量样本即可在无需重复微调的情况下，有效实现显性与隐性仇恨言论的跨任务检测与参数化早期退出。

Irina Proskurina, Marc-Antoine Carpentier, Julien Velcin2026-03-10💬 cs.CL

SPOT: An Annotated French Corpus and Benchmark for Detecting Critical Interventions in Online Conversations

本文介绍了首个将社会学概念“停止点”转化为可复现 NLP 任务的法语标注语料库 SPOT，该数据集包含 4 万多条与虚假信息相关的 Facebook 评论，并通过基准测试证明微调编码器模型在结合上下文元数据后，能显著优于提示式大语言模型，从而有效识别在线对话中常被忽视的普通关键干预。

Manon Berriche, Célia Nouri, Chloée Clavel, Jean-Philippe Cointet2026-03-10💬 cs.CL

Multimodal LLMs Do Not Compose Skills Optimally Across Modalities

该论文指出，尽管通过思维链提示和特定微调策略能部分缓解问题，但现有的多模态大语言模型在跨模态技能组合方面仍存在显著差距，表明该领域仍需进一步研究。

Paula Ontalvilla, Aitor Ormazabal, Gorka Azkune2026-03-10💬 cs.CL

Stealth Fine-Tuning: Efficiently Breaking Alignment in RVLMs Using Self-Generated CoT

该论文提出了一种名为“隐蔽微调”的新攻击方法，通过分段干扰诱导推理增强型视觉语言模型生成有害思维链，并利用自生成数据在极低资源消耗下高效破坏其安全对齐，同时保持模型的通用推理能力。

Le Yu, Zhengyue Zhao, Yawen Zheng, Yunhao Liu2026-03-10💬 cs.CL

Process-Centric Analysis of Agentic Software Systems

该论文提出了名为 Graphectory 的图结构表示法以系统分析智能体软件系统的执行轨迹，通过大规模实证研究揭示了不同模型与提示词下的策略差异，并进一步开发了实时监测与干预机制，显著提升了智能体解决软件工程问题的成功率并缩短了执行路径。

Shuyang Liu, Yang Chen, Rahul Krishna, Saurabh Sinha, Jatin Ganhotra, Reyhan Jabbarvand2026-03-10💬 cs.CL

SETUP: Sentence-level English-To-Uniform Meaning Representation Parser

本文提出了名为 SETUP 的英语到统一意义表示（UMR）解析器，通过微调抽象意义表示（AMR）解析器或利用通用依赖（UD）转换器，实现了在 AnCast 和 SMATCH++ 指标上取得显著突破的自动解析性能。

Emma Markle, Javier Gutierrez Bach, Shira Wein2026-03-10💬 cs.CL

Parallel Decoder Transformer: Planner-Seeded Latent Coordination for Synchronized Parallel Decoding

该论文提出了平行解码器 Transformer（PDT），这是一种在冻结主干架构中引入规划器引导的潜在工作空间与同步多流输出协议的模型，通过将并行任务分解从外部提示策略转变为模型内部的协调机制，实现了多流生成间的状态同步、所有权解析及信息等待。

Logan Robbins2026-03-10💬 cs.CL

CompanionCast: Toward Social Collaboration with Multi-Agent Systems in Shared Experiences

本文提出了 CompanionCast 框架，通过整合多模态事件检测、滚动上下文缓存和空间音频等技术，将多个专用 AI 智能体编排为社交协作者，从而在共享体验（如足球观赛）中显著增强用户的社交临场感与情感共鸣。

Yiyang Wang, Chen Chen, Tica Lin, Vishnu Raj, Josh Kimball, Alex Cabral, Josiah Hester2026-03-10💬 cs.CL

Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

这篇论文提出了一种涵盖智能体与工具适应的四范式框架，系统综述了大语言模型智能体在预训练后通过微调、偏好优化、强化学习以及记忆和技能系统实现持续进化的最新进展、权衡与评估实践。

Pengcheng Jiang, Jiacheng Lin, Zhiyi Shi, Zifeng Wang, Luxi He, Yichen Wu, Ming Zhong, Peiyang Song, Qizheng Zhang, Heng Wang, Xueqiang Xu, Hanwen Xu, Pengrui Han, Dylan Zhang, Jiashuo Sun, Chaoqi Yang, Kun Qian, Tian Wang, Changran Hu, Manling Li, Quanzheng Li, Hao Peng, Sheng Wang, Jingbo Shang, Chao Zhang, Jiaxuan You, Liyuan Liu, Pan Lu, Yu Zhang, Heng Ji, Yejin Choi, Dawn Song, Jimeng Sun, Jiawei Han2026-03-10💬 cs.CL

A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering

该论文提出了一种基于 Swin Transformer 和序列到序列解码器的轻量级两阶段多任务视觉语言框架，通过先训练后冻结视觉编码器的策略，在作物病害视觉问答任务中实现了接近完美的分类精度、优异的语言生成能力及良好的可解释性，并在外部基准测试中展现了出色的泛化性能。

Md. Zahid Hossain, Most. Sharmin Sultana Samu, Md. Rakibul Islam, Md. Siam Ansary2026-03-10💬 cs.CL

NC-Bench: An LLM Benchmark for Evaluating Conversational Competence

本文提出了基于 IBM 自然对话框架的 NC-Bench 基准，通过评估大语言模型在基础对话、检索增强生成及复杂请求等场景下的对话形式与结构管理能力，填补了现有评测在通用对话胜任力方面的空白。

Robert J. Moore, Sungeun An, Farhan Ahmed, Jay Pankaj Gala2026-03-10💬 cs.CL

A Component-Based Survey of Interactions between Large Language Models and Multi-Armed Bandits

这篇论文是首篇从组件层面系统综述大语言模型与多臂老虎机双向交互的文献，深入探讨了两者在解决各自关键挑战（如从预训练到个性化）及优化核心决策组件方面的互补优势、现有方法、性能表现及未来研究方向。

Siguang Chen, Chunli Lv, Miao Xie2026-03-10🤖 cs.LG

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

该论文提出了名为 MAS-Orchestra 的训练框架，通过将多智能体编排建模为函数调用强化学习问题来实现全局系统推理，并引入 MASBENCH 基准从五个维度严格评估任务特性，从而揭示了多智能体系统的收益取决于任务结构而非普遍适用，最终在数学推理等任务中实现了显著的性能提升与效率优化。

Zixuan Ke, Yifei Ming, Austin Xu, Ryan Chin, Xuan-Phi Nguyen, Prathyusha Jwalapuram, Jiayu Wang, Semih Yavuz, Caiming Xiong, Shafiq Joty2026-03-10💬 cs.CL

Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents

该论文提出了确定性 - 忠实性保障框架（DFAH），通过包含 4700 多次运行的实证研究揭示了金融领域工具型 LLM 代理的决策确定性与任务准确性之间缺乏相关性，从而论证了必须独立测量这两个指标以满足监管审计回放要求，并发布了相应的开源基准测试与压力测试工具。

Raffi Khatchadourian2026-03-10💬 cs.CL

EFT-CoT: A Multi-Agent Chain-of-Thought Framework for Emotion-Focused Therapy

本文提出了基于情绪聚焦疗法（EFT）的多智能体思维链框架 EFT-CoT，通过构建包含 6.7 万条真实求助文本的指令数据集 EFT-Instruct 并微调专用模型 EFT-LLM，显著提升了大语言模型在心理健康问答中的共情深度与结构专业性。

Lanqing Du, Yunong Li, YuJie Long, Shihong Chen2026-03-10💬 cs.CL

Improving X-Codec-2.0 for Multi-Lingual Speech: 25 Hz Latent Rate and 24 kHz Sampling

该论文提出了一种通过增加池化和解码器步长，将 X-Codec-2.0 的潜在码率从 50 Hz 降至 25 Hz 同时将采样率提升至 24 kHz 的简单有效改进方案，在保持核心架构不变的情况下显著提升了多语言语音的感知质量与效率。

Husein Zolkepli2026-03-10💬 cs.CL

RedSage: A Cybersecurity Generalist LLM

本文提出了开源本地部署的网络安全通用大模型 RedSage，通过构建大规模领域持续预训练数据与智能体增强微调流程，并引入 RedSage-Bench 基准测试，显著提升了模型在网络安全专业能力及通用推理任务上的表现。

Naufal Suryanto, Muzammal Naseer, Pengfei Li, Syed Talal Wasim, Jinhui Yi, Juergen Gall, Paolo Ceravolo, Ernesto Damiani2026-03-10💬 cs.CL

Mem-T: Densifying Rewards for Long-Horizon Memory Agents

本文提出了 Mem-T 自主记忆代理及其配套的 MoT-GRPO 树引导强化学习框架，通过构建记忆操作树实现稀疏奖励的稠密化与端到端优化，显著提升了长程记忆管理性能并降低了推理成本。

Yanwei Yue, Boci Peng, Xuanbo Fan, Jiaxin Guo, Qiankun Li, Yan Zhang2026-03-10🤖 cs.LG

Do Schwartz Higher-Order Values Help Sentence-Level Human Value Detection? A Study of Hierarchical Gating and Calibration

该研究表明，在句子级人类价值观检测任务中，施瓦茨高阶价值观结构更适合作为归纳偏置而非刚性路由规则，且通过阈值调整和集成等校准方法比层级门控或独立使用紧凑大语言模型能带来更显著的性能提升。

Víctor Yeste, Paolo Rosso2026-03-10🤖 cs.LG

LatentMem: Customizing Latent Memory for Multi-Agent Systems

本文提出了名为 LatentMem 的可学习多智能体记忆框架，通过引入经验库、记忆合成器及 Latent Memory 策略优化（LMPO）技术，有效解决了现有系统中记忆同质化与信息过载问题，实现了无需修改底层框架即可显著提升多智能体系统性能的定制化记忆机制。

Muxin Fu, Xiangyuan Xue, Yafu Li, Zefeng He, Siyuan Huang, Xiaoye Qu, Yu Cheng, Yang Yang2026-03-10🤖 cs.LG