cs.CL 篇论文 | Gist.Science

DeepXiv-SDK: An Agentic Data Interface for Scientific Literature

本文介绍了 DeepXiv-SDK，这是一个专为科学文献设计的三层代理数据接口，旨在通过将非结构化数据转化为结构化格式并提供多模式访问工具，解决大语言模型代理在科研中面临的数据检索效率低、Token 消耗大及证据查找脆弱等瓶颈问题。

Hongjin Qian, Ziyi Xia, Ze Liu + 11 more2026-03-04💬 cs.CL

Super Research: Answering Highly Complex Questions with Large Language Models through Super Deep and Super Wide Research

该论文提出了名为"Super Research"的新任务与基准，旨在通过结构化规划、超广域检索和超深度迭代调查来评估大语言模型解决需要长程规划、海量证据收集及跨源综合的复杂研究问题的能力。

Yubo Dong, Nianhao You, Yuxuan Hou + 5 more2026-03-04💬 cs.CL

Piecing Together Cross-Document Coreference Resolution Datasets: Systematic Dataset Analysis and Unification

该论文提出了名为 uCDCR 的统一数据集，通过整合多样化的英文跨文档核心ference语料库、统一格式与评估标准，并深入分析其词汇属性与复杂性，旨在解决当前研究碎片化问题并提升模型的泛化能力。

Anastasia Zhukova, Terry Ruas, Jan Philip Wahle + 1 more2026-03-04💬 cs.CL

QIME: Constructing Interpretable Medical Text Embeddings via Ontology-Grounded Questions

本文提出了 QIME 框架，通过利用本体论引导的聚类特定概念签名生成语义原子化的临床问答，构建了可解释的医学文本嵌入，在保持可解释性的同时显著提升了性能并缩小了与黑盒模型之间的差距。

Yixuan Tang, Zhenghong Lin, Yandong Sun + 3 more2026-03-04💬 cs.CL

ClinConsensus: A Consensus-Based Benchmark for Evaluating Chinese Medical LLMs across Difficulty Levels

本文提出了由临床专家构建的中文医疗基准 ClinConsensus，该基准涵盖全周期护理、多专科及多任务类型，并通过双裁判评估框架与一致性评分指标，揭示了当前主流大模型在复杂临床场景中的能力差异与局限性。

Xiang Zheng, Han Li, Wenjie Luo + 9 more2026-03-04💬 cs.CL

Recursive Think-Answer Process for LLMs and VLMs

本文提出了一种高效的递归思考 - 回答过程（R-TAP），通过引入置信度生成器与双重奖励机制，使大语言模型和视觉语言模型能够进行迭代推理，从而在提升答案准确性的同时显著减少自我反思错误并优化推理效率。

Byung-Kwan Lee, Youngchae Chee, Yong Man Ro2026-03-04💬 cs.CL

A Zipf-preserving, long-range correlated surrogate for written language and other symbolic sequences

该论文提出了一种新的代理模型，通过分形高斯噪声映射到经验直方图的方法，成功生成了同时保留原始符号序列（如文本和基因组 DNA）词频分布（符合齐普夫定律）和长程相关性的合成序列，从而为研究这些系统的结构特征及标度律起源提供了有效工具。

Marcelo A. Montemurro, Mirko Degli Esposti2026-03-04🧬 q-bio

Self-Play Only Evolves When Self-Synthetic Pipeline Ensures Learnable Information Gain

该论文指出，大语言模型的自我进化若要避免陷入停滞，必须构建包含提议者、求解者和验证者三角色的自合成数据流水线，并通过非对称协同进化、容量增长及主动信息获取等机制，确保迭代过程中可学习信息量的持续增长。

Wei Liu, Siya Qi, Yali Du + 1 more2026-03-04💬 cs.CL

Routing Absorption in Sparse Attention: Why Random Gates Are Hard to Beat

该论文指出，在端到端训练的稀疏注意力机制中，由于模型参数会自适应地吸收路由信号，导致学习到的门控网络性能并不优于随机门控（即“路由吸收”现象），因此后验的解耦稀疏化方法比直接学习路由更为有效。

Keston Aquino-Michaels2026-03-04💬 cs.CL

Safety Training Persists Through Helpfulness Optimization in LLM Agents

该研究发现，在智能体（多步工具使用）场景下，安全训练的效果在后续进行有用性优化时依然能够保持，且所有训练配置最终都收敛于一条线性帕累托前沿，而非找到同时兼顾两者的最优策略。

Benjamin Plaut2026-03-04💬 cs.CL

HELIOS: Harmonizing Early Fusion, Late Fusion, and LLM Reasoning for Multi-Granular Table-Text Retrieval

本文提出了 HELIOS 模型，通过结合基于边的二分图检索、查询相关节点扩展以及基于星图的 LLM 推理，有效克服了现有表格 - 文本检索方法在早期与晚期融合中的局限性，显著提升了开放域问答中的检索性能与复杂推理能力。

Sungho Park, Joohyung Yun, Jongwuk Lee + 1 more2026-03-04💬 cs.CL

Universal Conceptual Structure in Neural Translation: Probing NLLB-200's Multilingual Geometry

该研究通过六项实验证明，Meta 的 NLLB-200 多语言翻译模型不仅隐式习得了语言的谱系结构，还内化了跨语言的普遍概念关联与关系几何，从而揭示了其内部存在类似于人类双语神经机制的通用概念表征空间。

Kyle Elliott Mathewson2026-03-04💬 cs.CL

Characterizing Memorization in Diffusion Language Models: Generalized Extraction and Sampling Effects

本文通过提出统一的概率提取框架并建立采样分辨率与记忆化之间的单调关系，系统性地揭示了扩散语言模型在理论上的记忆化机制，并实证表明其在保护个人隐私信息方面比自回归语言模型具有更低的泄露风险。

Xiaoyu Luo, Wenrui Yu, Qiongxiu Li + 1 more2026-03-04💬 cs.CL

RO-N3WS: Enhancing Generalization in Low-Resource ASR with Diverse Romanian Speech Benchmarks

本文介绍了名为 RO-N3WS 的多样化罗马尼亚语语音基准数据集，旨在通过包含广播新闻、有声书及对话等多种来源的 126 小时转录音频，显著提升低资源及分布外场景下自动语音识别系统的泛化能力。

Alexandra Diaconu, Mădălina Vînaga, Bogdan Alexe2026-03-04💬 cs.CL

A Directed Graph Model and Experimental Framework for Design and Study of Time-Dependent Text Visualisation

本文提出了一种基于有向图的时间依赖文本可视化抽象模型，并通过利用大语言模型生成合成数据开展用户实验，发现用户难以准确识别预设的文本演化模式，且个体决策差异表明未来的可视化设计需从“一刀切”转向更具适应性的个性化方案。

Songhai Fan, Simon Angus, Tim Dwyer + 3 more2026-03-04💬 cs.CL

GLoRIA: Gated Low-Rank Interpretable Adaptation for Dialectal ASR

本文提出了 GLoRIA 框架，通过利用元数据门控机制动态调节预训练编码器中的低秩更新，在仅需更新不到 10% 参数的情况下，实现了方言自动语音识别任务中优于现有方法的性能、良好的泛化能力及可解释的地理空间适应模式。

Pouya Mehralian, Melissa Farasyn, Anne Breitbarth + 2 more2026-03-04💬 cs.CL

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

本文提出了 MUSE，一个开源的以运行流程为核心的多模态统一安全评估平台，通过集成自动跨模态载荷生成、多轮攻击算法及模态切换机制，揭示了现有大语言模型在多轮交互及跨模态场景下对齐泛化能力的显著不足。

Zhongxi Wang, Yueqian Lin, Jingyang Zhang + 2 more2026-03-04⚡ eess

CoDAR: Continuous Diffusion Language Models are More Powerful Than You Think

该论文指出连续扩散语言模型性能受限的主要瓶颈在于将去噪嵌入投影为离散 token 的“分词”过程，并提出了 CoDAR 框架，通过结合连续扩散与上下文自回归解码器来优化这一过程，从而显著提升了生成质量并使其竞争力媲美强基线离散扩散模型。

Junzhe Shen, Jieru Zhao, Ziwei He + 1 more2026-03-04💬 cs.CL

Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs

该论文提出了名为 VC-STaR 的新框架，利用对比视觉问答对来缓解视觉语言模型推理中的幻觉问题，并基于此构建了 VisCoR-55K 数据集，显著提升了模型的视觉推理能力。

Zhiyu Pan, Yizheng Wu, Jiashen Hua + 5 more2026-03-04💬 cs.CL

FlashEvaluator: Expanding Search Space with Parallel Evaluation

本文提出了 FlashEvaluator，一种通过单次前向传播实现序列间信息交互与并行评估的框架，有效解决了传统生成器 - 评估器范式在跨序列比较和并行化效率上的局限，并在快手在线推荐系统中实现了显著的营收增长。

Chao Feng, Yuanhao Pu, Chenghao Zhang + 8 more2026-03-04💬 cs.CL