cs.CL 篇论文 | Gist.Science

From Ambiguity to Accuracy: The Transformative Effect of Coreference Resolution on Retrieval-Augmented Generation systems

该研究系统探讨了核心词消解对检索增强生成（RAG）系统的影响，发现其不仅能提升检索相关性和问答表现，且通过均值池化策略优化上下文捕捉，尤其显著增强了小模型处理指代歧义的能力。

Youngjoon Jang, Seongtae Hong, Junyoung Son + 3 more2026-03-05🤖 cs.AI

Function Induction and Task Generalization: An Interpretability Study with Off-by-One Addition

该研究通过可解释性技术分析了大语言模型在“离一加法”任务中的泛化机制，发现了一种名为“函数归纳”的高层抽象机制，该机制由多个并行注意力头协作完成，并能迁移至多种合成及算法任务中，从而揭示了模型实现任务级泛化的可复用与可组合结构。

Qinyuan Ye, Robin Jia, Xiang Ren2026-03-05🤖 cs.AI

Evaluating Text Style Transfer: A Nine-Language Benchmark for Text Detoxification

本文提出了首个涵盖九种语言的文本去毒化评估基准，通过对比神经自动指标、大语言模型裁判及任务微调模型，发现所提出的指标在评估文本去毒化任务时与人类判断的相关性显著优于现有基线，并为构建鲁棒的多语言评估流程提供了实用指南。

Vitaly Protasov, Nikolay Babakov, Daryna Dementieva + 1 more2026-03-05💬 cs.CL

Text2VLM: Adapting Text-Only Datasets to Evaluate Alignment Training in Visual Language Models

本文提出了 Text2VLM 框架，通过将纯文本数据集转化为包含恶意文本的视觉图像，构建多模态评估流程以揭示视觉语言模型在提示注入攻击下的对齐脆弱性，并验证了其在推动安全部署方面的有效性。

Gabriel Downer, Sean Craven, Damian Ruck + 1 more2026-03-05🤖 cs.AI

WebDS: An End-to-End Benchmark for Web-based Data Science

本文提出了 WebDS，这是首个涵盖从数据获取到洞察生成的端到端 Web 数据科学基准，通过 870 个跨 29 个网站的复杂任务揭示了当前 SOTA 智能体在真实场景下与人类表现存在的显著差距。

Ethan Hsu, Hong Meng Yam, Ines Bouissou + 9 more2026-03-05🤖 cs.AI

SEVADE: Self-Evolving Multi-Agent Analysis with Decoupled Evaluation for Hallucination-Resistant Irony Detection

本文提出了 SEVADE 框架，通过引入基于语言学理论的动态多智能体推理引擎与解耦的轻量级裁决器，有效缓解了大模型在讽刺检测中的幻觉问题并实现了显著的性能提升。

Ziqi Liu, Ziyang Zhou, Yilin Li + 4 more2026-03-05💬 cs.CL

ObfusQAte: A Proposed Framework to Evaluate LLM Robustness on Obfuscated Factual Question Answering

本文提出了名为 ObfusQAte 的框架及首个包含多级混淆（如实体指代、干扰指代和上下文过载）的 ObfusQA 基准，旨在系统评估大语言模型在事实问答任务中面对语言混淆时的鲁棒性，并揭示了模型在此类场景下易产生幻觉或失败的局限性。

Shubhra Ghosh, Abhilekh Borah, Aditya Kumar Guru + 1 more2026-03-05🤖 cs.AI

MultiWikiQA: A Reading Comprehension Benchmark in 300+ Languages

本文介绍了名为 MultiWikiQA 的跨 306 种语言的大规模阅读理解基准数据集，该数据集利用大语言模型从维基百科生成并改写问题，经人工评估证实质量优良，且对现有语言模型构成了显著挑战并揭示了不同语言间的性能差异。

Dan Saattrup Smart2026-03-05💬 cs.CL

Index-Preserving Lightweight Token Pruning for Efficient Document Understanding in Vision-Language Models

本文提出了一种轻量级令牌剪枝框架，通过二值化分类去除文档图像中的非文本背景区域并利用最大池化优化文本区域，在显著降低视觉语言模型计算成本的同时保持了文档理解任务的准确率。

Jaemin Son, Sujin Choi, Inyong Yun2026-03-05🤖 cs.AI

See, Think, Act: Teaching Multimodal Agents to Effectively Interact with GUI by Identifying Toggles

该论文针对多模态智能体在图形用户界面中执行开关控制指令时的可靠性不足问题，提出了状态感知推理（StaR）方法，通过让智能体识别当前状态并据此推断目标状态，显著提升了开关指令执行准确率及通用任务性能。

Zongru Wu, Rui Mao, Zhiyuan Tian + 7 more2026-03-05🤖 cs.AI

Trust Me, I Can Convince You: The Contextualized Argument Appraisal Framework

本文提出了“情境化论证评估框架”，通过引入心理学评估模型并构建包含角色扮演的 ContArgA 语料库，揭示了论证的说服力不仅取决于内容，还受到接收者对论证的情感反应及主观评估（如熟悉度）的显著影响。

Lynn Greschner, Sabine Weber, Roman Klinger2026-03-05💬 cs.CL

Non-Collaborative User Simulators for Tool Agents

本文提出了一种能够模拟请求不可用服务、跑题、表达不耐烦及提供不完整语句等四种非协作行为的新颖用户模拟器，揭示了现有工具代理在面对真实世界非协作用户时性能显著下降的问题，并开源了该可扩展框架以助力社区提升代理的鲁棒性。

Jeonghoon Shim, Woojung Song, Cheyon Jin + 2 more2026-03-05💬 cs.CL

Towards Personalized Deep Research: Benchmarks and Evaluations

本文提出了首个针对深度研究智能体个性化能力的基准测试 PDR-Bench，通过构建包含真实用户画像与多样化任务的评估集，并引入涵盖个性化对齐、内容质量及事实可靠性的 PQR 评估框架，填补了现有开放型个性化深度研究评估的空白。

Yuan Liang, Jiaxian Li, Yuqing Wang + 11 more2026-03-05🤖 cs.AI

GraphMERT: Efficient and Scalable Distillation of Reliable Knowledge Graphs from Unstructured Data

本文提出了 GraphMERT，一种轻量级图形编码器模型，能够从非结构化文本中蒸馏出兼具事实准确性（含来源）和语义有效性（符合本体）的高可靠性领域知识图谱，从而在可扩展性、推理准确性及可解释性方面超越了传统神经符号框架及大型语言模型基线。

Margarita Belova, Jiaxin Xiao, Shikhar Tuli + 1 more2026-03-05🤖 cs.AI

The Geometry of Reasoning: Flowing Logics in Representation Space

本文提出了一种将大语言模型推理视为表征空间中逻辑流轨迹的几何框架，通过解耦逻辑结构与语义，证实了仅靠下一词预测训练即可使模型内化逻辑不变性，并揭示了可能独立于具体架构的通用表征规律。

Yufa Zhou, Yixiao Wang, Xunjian Yin + 2 more2026-03-05🤖 cs.AI

Circuit Insights: Towards Interpretability Beyond Activations

该论文提出了 WeightLens 和 CircuitLens 两种互补方法，通过直接从权重解读特征以及分析组件间的交互动态，突破了传统基于激活的电路发现局限，实现了无需外部模型或数据集的更鲁棒、可扩展的机械可解释性分析。

Elena Golimblevskaia, Aakriti Jain, Bruno Puri + 3 more2026-03-05🤖 cs.AI

Composition-Grounded Data Synthesis for Visual Reasoning

该论文提出了 COGS 框架，通过将种子问题分解为感知与推理因子并重组生成合成数据，有效解决了图表等人工图像领域缺乏大规模标注数据的难题，显著提升了多模态大语言模型的视觉推理与泛化能力。

Xinyi Gu, Jiayuan Mao, Zhang-Wei Hong + 5 more2026-03-05🤖 cs.LG

Annotation-Efficient Universal Honesty Alignment

该论文提出了名为 EliCal 的两阶段框架，通过结合低成本的一致性自监督与少量标注数据，实现了大语言模型的高效诚实对齐，并发布了包含 56 万训练样本的 HonestyBench 基准以支持大规模研究。

Shiyu Ni, Keping Bi, Jiafeng Guo + 4 more2026-03-05💬 cs.CL

Citation Failure: Definition, Analysis and Efficient Mitigation

本文通过提出 CITECONTROL 基准深入分析了生成式检索增强系统中引用失败与回答失败的区别及其成因，并设计了集成多种方法的 CITENTION 框架以高效缓解引用失败问题。

Jan Buchmann, Iryna Gurevych2026-03-05💬 cs.CL

REVISION:Reflective Intent Mining and Online Reasoning Auxiliary for E-commerce Visual Search System Optimization

该论文提出了名为 REVISION 的框架，通过结合离线大模型隐式意图挖掘与在线推理决策，有效解决了电商视觉搜索中用户意图与系统响应不匹配的问题，显著降低了无点击率并提升了搜索系统的自适应优化能力。

Yiwen Tang, Qiuyu Zhao, Zenghui Sun + 3 more2026-03-05🤖 cs.AI