cs.CL 篇论文 | Gist.Science

A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering

该论文提出了一种基于 Swin Transformer 和序列到序列解码器的轻量级两阶段多任务视觉语言框架，通过先训练后冻结视觉编码器的策略，在作物病害视觉问答任务中实现了接近完美的分类精度、优异的语言生成能力及良好的可解释性，并在外部基准测试中展现了出色的泛化性能。

Md. Zahid Hossain, Most. Sharmin Sultana Samu, Md. Rakibul Islam, Md. Siam AnsaryTue, 10 Ma💬 cs.CL

NC-Bench: An LLM Benchmark for Evaluating Conversational Competence

本文提出了基于 IBM 自然对话框架的 NC-Bench 基准，通过评估大语言模型在基础对话、检索增强生成及复杂请求等场景下的对话形式与结构管理能力，填补了现有评测在通用对话胜任力方面的空白。

Robert J. Moore, Sungeun An, Farhan Ahmed, Jay Pankaj GalaTue, 10 Ma💬 cs.CL

A Component-Based Survey of Interactions between Large Language Models and Multi-Armed Bandits

这篇论文是首篇从组件层面系统综述大语言模型与多臂老虎机双向交互的文献，深入探讨了两者在解决各自关键挑战（如从预训练到个性化）及优化核心决策组件方面的互补优势、现有方法、性能表现及未来研究方向。

Siguang Chen, Chunli Lv, Miao XieTue, 10 Ma🤖 cs.LG

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

该论文提出了名为 MAS-Orchestra 的训练框架，通过将多智能体编排建模为函数调用强化学习问题来实现全局系统推理，并引入 MASBENCH 基准从五个维度严格评估任务特性，从而揭示了多智能体系统的收益取决于任务结构而非普遍适用，最终在数学推理等任务中实现了显著的性能提升与效率优化。

Zixuan Ke, Yifei Ming, Austin Xu, Ryan Chin, Xuan-Phi Nguyen, Prathyusha Jwalapuram, Jiayu Wang, Semih Yavuz, Caiming Xiong, Shafiq JotyTue, 10 Ma💬 cs.CL

Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents

该论文提出了确定性 - 忠实性保障框架（DFAH），通过包含 4700 多次运行的实证研究揭示了金融领域工具型 LLM 代理的决策确定性与任务准确性之间缺乏相关性，从而论证了必须独立测量这两个指标以满足监管审计回放要求，并发布了相应的开源基准测试与压力测试工具。

Raffi KhatchadourianTue, 10 Ma💬 cs.CL

EFT-CoT: A Multi-Agent Chain-of-Thought Framework for Emotion-Focused Therapy

本文提出了基于情绪聚焦疗法（EFT）的多智能体思维链框架 EFT-CoT，通过构建包含 6.7 万条真实求助文本的指令数据集 EFT-Instruct 并微调专用模型 EFT-LLM，显著提升了大语言模型在心理健康问答中的共情深度与结构专业性。

Lanqing Du, Yunong Li, YuJie Long, Shihong ChenTue, 10 Ma💬 cs.CL

Improving X-Codec-2.0 for Multi-Lingual Speech: 25 Hz Latent Rate and 24 kHz Sampling

该论文提出了一种通过增加池化和解码器步长，将 X-Codec-2.0 的潜在码率从 50 Hz 降至 25 Hz 同时将采样率提升至 24 kHz 的简单有效改进方案，在保持核心架构不变的情况下显著提升了多语言语音的感知质量与效率。

Husein ZolkepliTue, 10 Ma💬 cs.CL

RedSage: A Cybersecurity Generalist LLM

本文提出了开源本地部署的网络安全通用大模型 RedSage，通过构建大规模领域持续预训练数据与智能体增强微调流程，并引入 RedSage-Bench 基准测试，显著提升了模型在网络安全专业能力及通用推理任务上的表现。

Naufal Suryanto, Muzammal Naseer, Pengfei Li, Syed Talal Wasim, Jinhui Yi, Juergen Gall, Paolo Ceravolo, Ernesto DamianiTue, 10 Ma💬 cs.CL

Mem-T: Densifying Rewards for Long-Horizon Memory Agents

本文提出了 Mem-T 自主记忆代理及其配套的 MoT-GRPO 树引导强化学习框架，通过构建记忆操作树实现稀疏奖励的稠密化与端到端优化，显著提升了长程记忆管理性能并降低了推理成本。

Yanwei Yue, Boci Peng, Xuanbo Fan, Jiaxin Guo, Qiankun Li, Yan ZhangTue, 10 Ma🤖 cs.LG

Do Schwartz Higher-Order Values Help Sentence-Level Human Value Detection? A Study of Hierarchical Gating and Calibration

该研究表明，在句子级人类价值观检测任务中，施瓦茨高阶价值观结构更适合作为归纳偏置而非刚性路由规则，且通过阈值调整和集成等校准方法比层级门控或独立使用紧凑大语言模型能带来更显著的性能提升。

Víctor Yeste, Paolo RossoTue, 10 Ma🤖 cs.LG

LatentMem: Customizing Latent Memory for Multi-Agent Systems

本文提出了名为 LatentMem 的可学习多智能体记忆框架，通过引入经验库、记忆合成器及 Latent Memory 策略优化（LMPO）技术，有效解决了现有系统中记忆同质化与信息过载问题，实现了无需修改底层框架即可显著提升多智能体系统性能的定制化记忆机制。

Muxin Fu, Xiangyuan Xue, Yafu Li, Zefeng He, Siyuan Huang, Xiaoye Qu, Yu Cheng, Yang YangTue, 10 Ma🤖 cs.LG

Measuring Complexity at the Requirements Stage: Spectral Metrics as Development Effort Predictors

该研究利用自然语言处理技术从需求文本中提取结构网络，并通过分子集成任务作为结构同构代理进行受控实验，证实了基于谱的度量指标（相关系数超过 0.95）能有效预测集成工作量，从而填补了架构复杂度分析与需求工程实践之间的关键方法学空白。

Maximilian Vierlboeck, Antonio Pugliese, Roshanak Nilchian, Paul Grogan, Rashika Sugganahalli Natesh BabuTue, 10 Ma💬 cs.CL

Listen to the Layers: Mitigating Hallucinations with Inter-Layer Disagreement

该论文提出了一种名为 CoCoA 的免训练解码算法，通过利用大语言模型中间层表征的不一致性信号来识别并抑制幻觉，从而在不重新训练模型的情况下显著提升其在问答、摘要、推理及代码生成等任务中的事实准确性。

Koduvayur Subbalakshmi, Sabbir Hossain Ujjal, Venkata Krishna Teja Mangichetty, Nastaran Jamalipour SoofiTue, 10 Ma💬 cs.CL

Neuro-Symbolic Synergy for Interactive World Modeling

该论文提出了 Neuro-Symbolic Synergy (NeSyS) 框架，通过交替训练将大语言模型的语义先验与可执行的符号规则相结合，利用符号模型直接约束输出分布并仅针对未覆盖轨迹微调神经模型，从而在 ScienceWorld、Webshop 和 Plancraft 等交互式环境中显著提升了世界模型的预测准确性、鲁棒性及数据效率。

Hongyu Zhao, Siyu Zhou, Haolin Yang, Zengyi Qin, Tianyi ZhouTue, 10 Ma💬 cs.CL

Learning Page Order in Shuffled WOO Releases

该研究针对荷兰信息公开文件中页面顺序混乱的问题，通过对比多种排序模型发现，尽管特定方法在短文档上表现优异，但序列到序列模型在长文档上存在严重泛化失效，而通过模型专业化策略可显著提升长文档的排序性能。

Efe Kahraman, Giulio TosatoTue, 10 Ma🤖 cs.LG

Discovering Semantic Latent Structures in Psychological Scales: A Response-Free Pathway to Efficient Simplification

该论文提出了一种无需依赖被试作答数据的语义主题建模框架，通过利用项目文本的语义结构自动发现潜在因子并精简量表，在显著缩短量表长度（平均减少 60.5%）的同时有效保持了原有的心理测量学属性。

Bo Wang, Yuxuan Zhang, Yueqin Hu, Hanchao Hou, Kaiping Peng, Shiguang NiTue, 10 Ma🤖 cs.LG

A Geometric Taxonomy of Hallucinations in LLMs

该论文提出了一种基于嵌入空间几何特征的大语言模型幻觉分类法，将幻觉划分为不忠实、虚构和事实错误三类，并据此开发了相应的检测指标，同时揭示了现有基准测试中因标注风格混淆而导致的事实错误检测理论局限。

Javier MarínTue, 10 Ma💬 cs.CL

Why Code, Why Now: Learnability, Computability, and the Real Limits of Machine Learning

该论文提出基于信息结构的五级可学习性层级，通过区分表达性、可计算性与可学习性，论证了代码生成因具备稠密可验证反馈而比强化学习更易扩展，并指出机器学习进展的上限取决于任务本身的可学习性而非单纯依赖模型规模。

Zhimin ZhaoTue, 10 Ma🤖 cs.LG

Explainable Token-level Noise Filtering for LLM Fine-tuning Datasets

该论文提出了可解释的 Token 级噪声过滤框架 XTF，通过将数据贡献分解为推理重要性、知识新颖性和任务相关性三个属性来识别并掩蔽噪声 Token 的梯度，从而在多个下游任务中显著提升了大语言模型微调后的性能。

Yuchen Yang, Wenze Lin, Enhao Huang, Zhixuan Chu, Hongbin Zhou, Lan Tao, Yiming Li, Zhan Qin, Kui RenTue, 10 Ma💬 cs.CL

Understand Then Memory: A Cognitive Gist-Driven RAG Framework with Global Semantic Diffusion

CogitoRAG 是一种受人类情景记忆启发的检索增强生成框架，通过构建多维知识图谱、提取语义主旨、执行实体扩散检索及引入 CogniRank 重排序算法，有效解决了传统方法中的语义完整性丢失问题，在复杂知识整合与推理任务中显著优于现有方法。

Pengcheng Zhou, Haochen Li, Zhiqiang Nie, JiaLe Chen, Qing Gong, Weizhen Zhang, Chun YuTue, 10 Ma💬 cs.CL