cs.CL 篇论文 | Gist.Science

RexDrug: Reliable Multi-Drug Combination Extraction through Reasoning-Enhanced LLMs

本文提出了 RexDrug，一种基于大语言模型的推理增强框架，通过多智能体协作生成专家级推理轨迹及多维奖励强化学习策略，有效解决了从生物医学文献中可靠提取复杂多变的多药组合（n-ary）关系这一难题。

Zhijun Wang, Ling Luo, Dinghao Pan, Huan Zhuang, Lejing Yu, Yuanyuan Sun, Hongfei Lin2026-03-10💬 cs.CL

Is continuous CoT better suited for multi-lingual reasoning?

该论文研究表明，在连续潜在空间中进行推理（Continuous Chain-of-Thought）相比传统的显式思维链，在低资源语言的零样本场景下具有更强的鲁棒性和语言不变性，同时能将推理过程压缩 29 至 50 倍，为跨语言推理提供了可扩展的高效解决方案。

Ali Hamza Bashir, Behzad Shomali, Markus Frey, Mehdi Ali, Rafet Sifa, David Berghaus2026-03-10🤖 cs.LG

TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

本文介绍了 TildeOpen LLM，这是一个通过结合数据过采样与课程学习策略，在有限计算资源下实现了 34 种欧洲语言（特别是波罗的海、芬兰 - 乌戈尔及斯拉夫语族）公平且高质量表示的 300 亿参数开源基础模型。

Toms Bergmanis, Martins Kronis, Ingus J\=anis Pretkalninš, D\=avis Nicmanis, Jelizaveta Jelinska, Roberts Rozis, Rinalds V\=iksna, M\=arcis Pinnis2026-03-10💬 cs.CL

Supporting Workflow Reproducibility by Linking Bioinformatics Tools across Papers and Executable Code

本文提出了 CoPaLink 系统，通过结合命名实体识别与生物信息学知识库链接技术，实现了科学论文中的工具描述与可执行工作流代码之间的自动关联，从而有效提升了生物信息学工作流的可复现性与可理解性。

Clémence Sebe, Olivier Ferret, Aurélie Névéol, Mahdi Esmailoghli, Ulf Leser, Sarah Cohen-Boulakia2026-03-10💬 cs.CL

The Conundrum of Trustworthy Research on Attacking Personally Identifiable Information Removal Techniques

该论文指出，现有针对 PII 去除技术的攻击研究因存在数据泄露和污染问题而高估了攻击成功率，且由于受限于无法获取真实的隐私数据，公共研究界目前难以开展透明、可复现且可信的评估。

Sebastian Ochs, Ivan Habernal2026-03-10💬 cs.CL

DualTurn: Learning Turn-Taking from Dual-Channel Generative Speech Pretraining

DualTurn 是一种基于双通道生成式语音预训练的模型，它通过无监督学习对话动态并微调为可解释的轮次信号，实现了比现有方法更自然、更精准的语音交互轮次预测与代理动作生成。

Shangeth Rajaa2026-03-10💬 cs.CL

Quantifying Cross-Lingual Transfer in Paralinguistic Speech Tasks

该论文提出了跨语言转移矩阵（CLTM）这一系统性方法，用于量化性别识别和说话人验证等副语言任务中不同语言对之间的交互影响，并揭示了基于多语言 HuBERT 编码器的微调过程中存在的显著且系统性的语言依赖性转移模式。

Pol Buitrago, Oriol Pareras, Federico Costa, Javier Hernando2026-03-10💬 cs.CL

Fibration Policy Optimization

本文提出了“纤维化策略优化”（FiberPO）框架，通过推导聚合策略截断目标（APC-Obj）和构建纤维束门控（FBG）代数结构，首次将信任区域理论与可组合的代数层级相结合，实现了从词元到轨迹乃至多领域层级的统一多尺度稳定性控制。

Chang Li, Tshihao Tsu, Yaren Zhang, Chao Xue, Xiaodong He2026-03-10🤖 cs.LG

Sensivity of LLMs' Explanations to the Training Randomness:Context, Class & Task Dependencies

该论文研究了训练随机性对大语言模型解释稳定性的影响，发现句法上下文、待分类类别和任务类型均具有统计显著性影响，其中任务类型的影响最大，类别次之，句法上下文最小。

Romain Loncour, Jérémie Bogaert, François-Xavier Standaert2026-03-10💬 cs.CL

Bootstrapping Audiovisual Speech Recognition in Zero-AV-Resource Scenarios with Synthetic Visual Data

该论文提出了一种利用真实音频驱动静态面部图像生成合成视频流的零资源框架，成功在缺乏标注数据的加泰罗尼亚语上实现了接近最先进水平的音视频语音识别性能，证明了合成视觉数据是替代真实录音的可行方案。

Pol Buitrago, Pol Gàlvez, Oriol Pareras, Javier Hernando2026-03-10💬 cs.CL

Not All Queries Need Deep Thought: CoFiCot for Adaptive Coarse-to-fine Stateful Refinement

该论文提出了 CoFiCot 框架，通过多指标分类器动态识别问题难度，将查询分流至高效聚合或基于过程奖励模型的状态化修正循环，从而在提升大模型推理能力的同时解决测试时计算资源分配不均的悖论。

Dongxu Zhang, Hongqiang Lin, Yiding Sun, Pengyu Wang, Qirui Wang, Ning Yang, Jihua Zhu2026-03-10💬 cs.CL

NCL-UoR at SemEval-2026 Task 5: Embedding-Based Methods, Fine-Tuning, and LLMs for Word Sense Plausibility Rating

本文介绍了 NCL-UoR 团队在 SemEval-2026 任务 5 中的研究，通过系统比较嵌入方法、微调模型和大型语言模型，发现采用结构化提示与显式决策规则的组合策略在词义合理性评分任务中表现最佳，且提示设计的重要性超过了模型规模。

Tong Wu, Thanet Markchom, Huizhi Liang2026-03-10💬 cs.CL

How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

该研究通过 RIKER 方法在 1720 亿 tokens 的超大规模评估中发现，尽管模型选择是影响幻觉率的最关键因素，但所有模型在长上下文（尤其是 200K 时）中仍会出现显著的事实编造现象，且温度设置需在准确性与生成稳定性之间进行权衡，而硬件平台对结果无显著影响。

JV Roig2026-03-10💬 cs.CL

cs.CL

RexDrug: Reliable Multi-Drug Combination Extraction through Reasoning-Enhanced LLMs

Is continuous CoT better suited for multi-lingual reasoning?

TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

Supporting Workflow Reproducibility by Linking Bioinformatics Tools across Papers and Executable Code

The Conundrum of Trustworthy Research on Attacking Personally Identifiable Information Removal Techniques

DualTurn: Learning Turn-Taking from Dual-Channel Generative Speech Pretraining

Quantifying Cross-Lingual Transfer in Paralinguistic Speech Tasks

Fibration Policy Optimization

Sensivity of LLMs' Explanations to the Training Randomness:Context, Class & Task Dependencies

Bootstrapping Audiovisual Speech Recognition in Zero-AV-Resource Scenarios with Synthetic Visual Data

Not All Queries Need Deep Thought: CoFiCot for Adaptive Coarse-to-fine Stateful Refinement

NCL-UoR at SemEval-2026 Task 5: Embedding-Based Methods, Fine-Tuning, and LLMs for Word Sense Plausibility Rating

How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

AdaCultureSafe: Adaptive Cultural Safety Grounded by Cultural Knowledge in Large Language Models

Evaluating LLM-Based Grant Proposal Review via Structured Perturbations

Using Multimodal and Language-Agnostic Sentence Embeddings for Abstractive Summarization

LAMUS: A Large-Scale Corpus for Legal Argument Mining from U.S. Caselaw using LLMs

Learning Multiple Utterance-Level Attribute Representations with a Unified Speech Encoder

SlowBA: An efficiency backdoor attack towards VLM-based GUI agents

SPD-RAG: Sub-Agent Per Document Retrieval-Augmented Generation