cs.CL 篇论文 | Gist.Science

Causal Retrieval with Semantic Consideration

本文提出了名为 CAWAI 的检索模型，通过联合语义与因果关系的训练目标，解决了现有信息检索系统难以捕捉深层因果意图的问题，并在大规模检索及科学领域问答任务中展现出卓越性能。

Hyunseo Shin, Wonseok HwangTue, 10 Ma💬 cs.CL

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

该研究证实，利用大语言模型提取认知与语言特征并结合树集成机器学习算法，比直接让模型评分更能准确预测 K-5 数学和阅读题目的难度，从而为减少大规模实地测试提供了高效可行的替代方案。

Pooya Razavi, Sonya PowersTue, 10 Ma🤖 cs.LG

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

本文介绍了 DCASE 2025 挑战赛中的第五项任务，即一个涵盖生物声学、时间声景和复杂问答等多领域的音频问答基准，旨在通过多样化的数据集和评估协议推动音频语言模型在声学内容推理方面的发展，使其具备接近人类水平的感知与交互能力。

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

FreeKV: Boosting KV Cache Retrieval for Efficient LLM Inference

FreeKV 提出了一种无需训练的算法与系统协同优化框架，通过推测检索、细粒度校正及混合内存布局等创新技术，在保持大语言模型推理精度近乎无损的同时，将 KV 缓存检索效率提升了最高 13 倍。

Guangda Liu, Chengwei Li, Zhenyu Ning, Jing Lin, Yiwu Yao, Danning Ke, Minyi Guo, Jieru ZhaoTue, 10 Ma🤖 cs.LG

MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision

本文提出了 MAS-ZERO，这是首个无需验证集即可在推理阶段通过元级设计自我演化、动态分解问题并自适应调整代理配置的自动多智能体系统框架，在多种任务中显著超越了现有手动及自动基线方法。

Zixuan Ke, Austin Xu, Yifei Ming, Xuan-Phi Nguyen, Ryan Chin, Caiming Xiong, Shafiq JotyTue, 10 Ma🤖 cs.LG

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

该论文提出了首个将硬件描述语言（HDL）固有图特征（如抽象语法树和数据流图）与检索增强生成（RAG）相结合的 HDLxGraph 框架，并发布了基于真实项目的 HDLSearch 基准数据集，有效解决了现有 RAG 在处理复杂 HDL 项目时面临的结构性与词汇性不匹配问题，显著提升了搜索、调试和代码补全的准确率。

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), ZhaoTue, 10 Ma🤖 cs.LG

SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving

本文提出了 SwingArena，这是一个通过模拟提交者与审查者协作、结合检索增强代码生成（RACG）处理长上下文并集成持续集成（CI）验证流程的竞争性评估框架，旨在更真实地评估大语言模型在解决 GitHub 实际软件问题中的表现。

Wendong Xu, Jing Xiong, Chenyang Zhao, Qiujiang Chen, Haoran Wang, Hui Shen, Zhongwei Wan, Jianbo Dai, Taiqiang Wu, He Xiao, Chaofan Tao, Z. Morley Mao, Ying Sheng, Zhijiang Guo, Hongxia Yang, Bei Yu, Lingpeng Kong, Quanquan Gu, Ngai WongTue, 10 Ma💬 cs.CL

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

本文提出了 MMTU，一个包含 28,000 多个问题和 25 项真实世界任务的大规模基准测试，旨在全面评估大语言模型在专家级表格理解、推理及操作方面的能力，并揭示了当前顶尖模型在此领域仍存在显著不足。

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. JagadishTue, 10 Ma🤖 cs.LG

CyclicReflex: Improving Reasoning Models via Cyclical Reflection Token Scheduling

该论文提出了名为 CyclicReflex 的免训练解码策略，通过借鉴优化中的学习率调度思想，利用双向三角波动态调节反思 Token 的生成概率，从而有效平衡过度与不足反思，在无需额外计算成本的情况下显著提升了大推理模型在各类数学与编程基准测试中的性能。

Chongyu Fan, Yihua Zhang, Jinghan Jia, Alfred Hero, Sijia LiuTue, 10 Ma💬 cs.CL

A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models

该论文提出了“动机增强强化微调”（MeRF）方法，通过将奖励函数规范作为上下文提示直接注入大语言模型，使其在强化学习过程中明确优化目标，从而显著提升模型在复杂推理任务上的性能。

Junjie Zhang, Guozheng Ma, Shunyu Liu, Haoyu Wang, Jiaxing Huang, Ting-En Lin, Fei Huang, Yongbin Li, Dacheng TaoTue, 10 Ma💬 cs.CL

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

该论文揭示了多模态大语言模型（MLLM）作为验证器时普遍存在的“同意偏差”问题，并提出了一种名为自我 grounded 验证（SGV）的两步生成方法，通过先独立生成行为先验再评估轨迹，显著提升了验证准确性及智能体在网页导航、计算机操作和机器人等领域的任务完成表现。

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt KiraTue, 10 Ma🤖 cs.LG

Goal Alignment in LLM-Based User Simulators for Conversational AI

该论文针对现有大语言模型用户模拟器在多轮对话中难以保持目标导向行为的问题，提出了包含用户目标状态追踪（UGST）的三阶段开发框架及相应评估指标，显著提升了模拟器在 MultiWOZ 和τ-Bench 基准测试中的目标对齐能力。

Shuhaib Mehri, Xiaocheng Yang, Takyoung Kim, Gokhan Tur, Shikib Mehri, Dilek Hakkani-TürTue, 10 Ma💬 cs.CL

MathSmith: Towards Extremely Hard Mathematical Reasoning by Forging Synthetic Problems with a Reinforced Policy

本文提出了 MathSmith 框架，通过从 PlanetMath 随机采样概念解释对并构建全新问题，结合九种软约束策略与强化学习优化，成功合成出高难度、高多样性的数学推理数据，显著提升了大语言模型在各类基准测试中的表现。

Shaoxiong Zhan, Yanlin Lai, Ziyu Lu, Dahua Lin, Ziqing Yang, Fei TanTue, 10 Ma💬 cs.CL

IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding

该论文提出了 IAG，一种针对视觉语言模型视觉定位任务的首个多目标后门攻击方法，它利用文本条件 UNet 动态生成与目标语义相关的输入感知触发器，在保持正常定位性能的同时实现高攻击成功率、强隐蔽性及跨模型/数据集的迁移能力。

Junxian Li, Beining Xu, Simin Chen, Jiatong Li, Jingdi Lei, Haodong Zhao, Di ZhangTue, 10 Ma💬 cs.CL

OTESGN: Optimal Transport-Enhanced Syntactic-Semantic Graph Networks for Aspect-Based Sentiment Analysis

本文提出了 OTESGN 模型，通过结合句法图感知注意力与基于最优传输的语义注意力机制，有效解决了传统方法在捕捉非线性关联和抗噪方面的不足，从而在多个基准数据集上实现了方面级情感分析的最优性能。

Xinfeng Liao, Xuanqi Chen, Lianxi Wang, Jiahuan Yang, Zhuowei Chen, Ziying RongTue, 10 Ma💬 cs.CL

Linear probes rely on textual evidence: Results from leakage mitigation studies in language models

该研究发现，线性探针严重依赖文本证据（如系统提示或思维链），一旦过滤掉这些表面文本信息，其在检测沙袋行为、阿谀奉承和偏见等潜在有害行为时的性能会显著下降，表明此类探针在识别非表层模式时存在脆弱性。

Gerard Boxo, Aman Neelappa, Shivam RavalTue, 10 Ma🤖 cs.LG

PonderLM-2: Pretraining LLM with Latent Thoughts in Continuous Space

该论文提出了一种名为 PonderLM-2 的新型预训练方法，通过在连续空间中为每个生成 token 引入额外的“潜在思维”步骤，使模型在推理成本不变的情况下，性能显著超越参数量翻倍的标准模型。

Boyi Zeng, He Li, Shixiang Song, Yixuan Wang, Zitong Wang, Ziwei He, Xinbing Wang, Zhouhan LinTue, 10 Ma💬 cs.CL

Mapping Overlaps in Benchmarks through Perplexity in the Wild

该论文提出了基于野外语料库中显著词元困惑度的“基准签名”方法，通过跨 32 个大模型和 89 个基准的元评估，揭示了不同基准间在知识与推理任务上的深层重叠、在文化与人文领域的低相似性，以及编码任务的高度独立性，从而为理解大模型能力景观及基准有效性提供了超越传统性能相关性的新视角。

Siyang Wu, Honglin Bao, Sida Li, Ari Holtzman, James A. EvansTue, 10 Ma💬 cs.CL

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

该论文首次系统性地提出并实证了“误演化”（Misevolution）概念，揭示了自进化大语言模型代理在模型、记忆、工具和工作流四个关键路径中可能偏离预期并引发安全对齐退化或漏洞等新型风险，从而强调了构建更安全自进化代理的紧迫性。

Shuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing ShaoTue, 10 Ma🤖 cs.LG

TokMem: One-Token Procedural Memory for Large Language Models

该论文提出了 TokMem 框架，通过将可复用的任务流程编译为单个可训练记忆令牌，在保持大语言模型主干冻结的同时，实现了以恒定开销高效存储和调用程序性知识，并在任务召回与函数调用等场景中显著优于检索增强提示和参数高效微调。

Zijun Wu, Yongchang Hao, Lili MouTue, 10 Ma💬 cs.CL