cs.CL 篇论文 | Gist.Science

Image Captioning via Compact Bidirectional Architecture

本文提出了一种紧凑的双向 Transformer 模型，通过紧密耦合左至右和右至左流并采用句子级集成策略，在无需视觉 - 语言预训练的情况下实现了图像描述任务的新兴最先进性能。

Zijie Song, Yuanen Zhou, Zhenzhen Hu, Daqing Liu, Huixia Ben, Richang Hong, Meng WangWed, 11 Ma💬 cs.CL

Correspondence Analysis and PMI-Based Word Embeddings: A Comparative Study

本文建立了对应分析（CA）与基于 PMI 的词向量方法之间的形式化联系，提出了 ROOT-CA 和 ROOTROOT-CA 两种变体，并通过实验证明其在多个基准测试中表现略优于传统 PMI 方法且能与 BERT 竞争。

Qianqian Qi, Ayoub Bagheri, David J. Hessen, Peter G. M. van der HeijdenWed, 11 Ma💬 cs.CL

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

该论文提出了一种将量化和稀疏化统一建模为加性噪声的框架，通过引入基于岭回归的去噪反量化变换来构建明确的梯度路径，从而解决了传统直通估计器在超低精度和稀疏训练中的不稳定性问题，实现了任意精度与稀疏度下的鲁棒训练并取得了最先进的性能。

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew HowardWed, 11 Ma🤖 cs.AI

MKE-Coder: Multi-Axial Knowledge with Evidence Verification in ICD Coding for Chinese EMRs

本文提出了 MKE-Coder 框架，通过整合诊断的多轴知识并利用评分模型筛选临床证据，结合掩码语言建模策略进行验证，有效解决了中文电子病历中 ICD 自动编码面临的文本结构复杂及证据关联不足的挑战，显著提升了编码的准确性与效率。

Xinxin You, Xien Liu, Xue Yang, Ziyi Wang, Ji WuWed, 11 Ma🤖 cs.AI

Connecting Voices: LoReSpeech as a Low-Resource Speech Parallel Corpus

本文介绍了在 Tutlayt AI 项目下构建的低资源语音平行语料库 LoReSpeech，该方法通过结合协作平台生成的转录短音频（LoReASR）与利用 MFA 工具对齐的长音频（如圣经文本），实现了跨语言语音对齐，旨在推动多语言自动语音识别、直接语音翻译及语言保护技术的发展。

Samy OuzerroutWed, 11 Ma💬 cs.CL

GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics

本文提出了 GateLens，一种通过引入关系代数作为自然语言与可执行代码间的形式化中间表示，以解决大型语言模型在复杂表格数据分析中推理与代码生成差距的架构，并在汽车软件发布分析场景中验证了其在准确性、速度及零样本适应性上优于传统链式思维方法的显著优势。

Arsham Gholamzadeh Khoee, Shuai Wang, Robert Feldt, Dhasarathy Parthasarathy, Yinan YuWed, 11 Ma🤖 cs.AI

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

该论文提出了步式引导策略优化（SGPO）框架，通过引入步式评判模型增强组内响应多样性，有效解决了 GRPO 在全部样本错误时无法更新策略的局限性，从而提升了大语言模型在推理任务中的训练效率与性能。

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi LinWed, 11 Ma🤖 cs.AI

Let's Verify Math Questions Step by Step

本文提出了名为 MathQ-Verify 的五阶段流水线，通过格式验证、形式化分解、逻辑矛盾检测及目标完整性检查等步骤，有效识别并过滤数学问题中的无效或定义不清情况，从而显著提升了数学数据集的可靠性与模型验证性能。

Chengyu Shen, Zhen Hao Wong, Runming He, Hao Liang, Meiyi Qiang, Zimo Meng, Zhengyang Zhao, Bohan Zeng, Zhengzhou Zhu, Bin Cui, Wentao ZhangWed, 11 Ma🤖 cs.AI

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Language Models

本文提出了 UltraEdit，这是一种无需训练、主体和记忆的高效终身模型编辑方法，通过单步参数更新和终身归一化策略，在显著降低显存需求的同时实现了超大规模编辑，并构建了包含 200 万编辑对的 UltraEditBench 数据集以验证其卓越性能。

Xiaojie Gu, Ziying Huang, Jia-Chen Gu, Kai ZhangWed, 11 Ma🤖 cs.AI

ThinkQE: Query Expansion via an Evolving Thinking Process

本文提出了名为 ThinkQE 的测试时查询扩展框架，通过基于思维的深度语义探索与结合检索反馈的迭代优化策略，有效解决了现有大模型方法在查询扩展中缺乏多样性和全面性的问题，并在多个基准测试中超越了传统训练密集型方法。

Yibin Lei, Tao Shen, Andrew YatesWed, 11 Ma💬 cs.CL

ConLID: Supervised Contrastive Learning for Low-Resource Language Identification

该论文提出了一种名为 ConLID 的有监督对比学习方法，旨在通过学习域不变表示来解决低资源语言在单一领域数据（如《圣经》）上表现不佳的问题，从而在保持高资源语言性能的同时，显著提升了低资源语言在跨域数据上的语言识别准确率。

Negar Foroutan, Jakhongir Saydaliev, Ye Eun Kim, Antoine BosselutWed, 11 Ma🤖 cs.AI

OPENXRD: A Comprehensive Benchmark Framework for LLM/MLLM XRD Question Answering

本文介绍了 OPENXRD，这是一个针对大语言模型和 multimodal 大语言模型在晶体学问答任务中评估其上下文信息整合能力的综合基准框架，通过包含 217 道专家审定 XRD 问题的闭卷与开卷测试，揭示了模型规模、内容质量对知识整合效果的关键影响。

Ali Vosoughi, Ayoub Shahnazari, Yufeng Xi, Zeliang Zhang, Griffin Hess, Chenliang Xu, Niaz AbdolrahimWed, 11 Ma🤖 cs.AI

TaoSR1: The Thinking Model for E-commerce Relevance Search

本文提出了 TaoSR1 框架，通过结合思维链监督微调、偏好优化及基于难度的动态采样策略，成功解决了大语言模型在电商搜索相关性任务中面临的推理错误累积、判别幻觉及部署可行性等挑战，显著提升了离线与在线评估表现。

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo ZhengWed, 11 Ma🤖 cs.AI

AgentCoMa: A Compositional Benchmark Mixing Commonsense and Mathematical Reasoning in Real-World Scenarios

本文提出了名为 AgentCoMa 的新基准，通过混合常识与数学推理任务揭示大语言模型在处理此类组合推理时存在显著的性能瓶颈（准确率下降约 30%），而人类在此类任务中表现优异，且研究通过可解释性分析进一步剖析了模型在此场景下的脆弱性。

Lisa Alazraki, Lihu Chen, Ana Brassard, Joe Stacey, Hossein A. Rahmani, Marek ReiWed, 11 Ma💬 cs.CL

When Thinking Backfires: Mechanistic Insights Into Reasoning-Induced Misalignment

该论文首次揭示了“推理诱导的不对齐”（RIM）现象，即推理能力的增强反而会导致模型与人类价值观的偏离，并通过表征分析从注意力机制和神经元激活纠缠的层面阐明了其导致灾难性遗忘的内在机理。

Hanqi Yan, Hainiu Xu, Siya Qi, Shu Yang, Yulan HeWed, 11 Ma💬 cs.CL

SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

该论文介绍了 SimpleQA Verified，这是一个经过严格筛选和优化的 1000 条提示基准测试，旨在解决 OpenAI 原有基准的噪声与偏差问题，为评估大语言模型的参数化事实性提供了更可靠的工具，其中 Gemini 2.5 Pro 在该测试中取得了 55.6 的 SOTA F1 分数。

Lukas Haas, Gal Yona, Giovanni D'Antonio, Sasha Goldshtein, Dipanjan DasWed, 11 Ma💬 cs.CL

Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework

该论文提出了 SEER 框架，通过结合 Best-of-N 采样与任务感知自适应过滤来动态压缩思维链（CoT），在显著降低计算延迟和内存开销的同时，有效提升了大型语言模型在软件工程及数学任务中的准确性与鲁棒性。

Kerui Huang, Shuhan Liu, Xing Hu, Tongtong Xu, Lingfeng Bao, Xin XiaWed, 11 Ma🤖 cs.AI

Quantifying Genuine Awareness in Hallucination Prediction Beyond Question-Side Shortcuts

该论文指出当前大语言模型幻觉检测方法的性能很大程度上源于对问题侧特征的利用（即“基准测试作弊”），并提出了无需人工标注的“近似问题侧效应”（AQE）方法来量化这一现象，揭示了现有方法在真实场景中的泛化能力不足。

Yeongbin Seo, Dongha Lee, Jinyoung YeoWed, 11 Ma💬 cs.CL

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

本文提出了 VSSFlow，一种基于流匹配的联合学习框架，通过引入解耦条件聚合机制，成功统一了视频到声音和视频文本到语音生成任务，并在端到端联合训练中实现了超越现有专用基线的性能。

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

本文提出了名为 v-HUB 的视频幽默理解基准，通过包含非语言短视频及环境声音标注的多样化评估任务，揭示了当前多模态大模型在纯视觉幽默理解上的局限性，并证实了引入音频模态能显著提升模型对复杂视频幽默的感知能力。

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong ZhengWed, 11 Ma🤖 cs.AI