cs.CL 篇论文 | Gist.Science

COLD-Steer: Steering Large Language Models via In-Context One-step Learning Dynamics

COLD-Steer 是一种无需重新训练的大语言模型控制框架，它通过推理时近似小样本上下文学习的梯度更新动态，仅用极少量示例即可高效实现高达 95% 的定向控制效果，从而解决了现有激活导向方法在样本效率与信号提取能力之间的权衡难题。

Kartik Sharma, Rakshit S. Trivedi2026-03-09🤖 cs.AI

Beyond Rows to Reasoning: Agentic Retrieval for Multimodal Spreadsheet Understanding and Editing

该论文提出了名为 BRTR 的多模态智能体框架，通过迭代工具调用循环替代传统单次检索，解决了企业级电子表格在复杂推理与编辑中的上下文丢失与窗口限制问题，并在多项基准测试中显著超越了现有最先进方法。

Anmol Gulati, Sahil Sen, Waqar Sarguroh, Kevin Paul2026-03-09💬 cs.CL

Speak in Context: Multilingual ASR with Speech Context Alignment via Contrastive Learning

本文提出了一种基于对比学习实现语音与上下文表示对齐的多语言自动语音识别框架，通过结合冻结的语音编码器与仅解码器语言模型，在 11 种语言和 5 种英语方言的 1500 多小时真实对话数据上实现了超过 5% 的性能提升。

Yuchen Zhang, Haralambos Mouratidis, Ravi Shekhar2026-03-09💬 cs.CL

KCLarity at SemEval-2026 Task 6: Encoder and Zero-Shot Approaches to Political Evasion Detection

本文介绍了 KCLarity 团队在 SemEval-2026 第 6 项任务中的工作，通过对比直接预测清晰度标签与基于层级推导的两种建模策略，发现 RoBERTa-large 在公开测试集上表现最佳，而零样本 GPT-5.2 在隐藏测试集上泛化能力更强。

Archie Sage, Salvatore Greco2026-03-09💬 cs.CL

EHRSQL: A Practical Text-to-SQL Benchmark for Electronic Health Records

本文提出了 EHRSQL，这是一个基于 222 名医院工作人员真实需求构建的、涵盖复杂查询、时间表达及不可回答问题识别的电子病历（EHR）文本转 SQL 实用基准数据集，旨在推动该技术在医疗领域的实际部署。

Gyubok Lee, Hyeonji Hwang, Seongsu Bae + 6 more2026-03-06💻 cs

Large Language Models are Contrastive Reasoners

该论文提出了一种名为“对比提示”（Contrastive Prompting）的新方法，通过仅需在提示中添加“给出一个正确和一个错误答案”的指令，即可显著提升大语言模型在算术、常识和符号推理等复杂任务上的零样本表现，其效果在多数场景下超越了现有的零样本和少样本思维链方法。

Liang Yao2026-03-06💻 cs

INMS: Memory Sharing for Large Language Model based Agents

本文提出了 INMS 框架，通过建立异步交互范式下的共享对话记忆池，实现了大语言模型智能体间的实时记忆过滤、存储与检索，从而显著提升了多智能体在开放场景下的协作性能与集体自增强能力。

Hang Gao, Yongfeng Zhang2026-03-06💻 cs

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

本文提出了 EasyAnimate，这是一个基于扩散 Transformer 的高性能视频生成框架，通过引入混合窗口注意力机制、奖励反向传播微调、基于 Token 长度的训练策略以及多模态大语言模型文本编码器，在显著提升训练与推理效率的同时实现了视频生成质量与人类偏好对齐的突破，并在 VBench 榜单及人工评估中取得了最先进水平。

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

Vector Retrieval with Similarity and Diversity: How Hard Is It?

本文针对现有向量检索方法在平衡相似度与多样性时缺乏理论分析且依赖人工调参的问题，形式化定义了 NP 完全的 VRSD 优化问题，并提出了一种无需参数的启发式算法，实验证明其在多个科学问答数据集上显著优于 MMR 和 k-DPP 等基线方法。

Hang Gao, Dong Deng, Yongfeng Zhang2026-03-06💻 cs

Enhancing Pancreatic Cancer Staging with Large Language Models: The Role of Retrieval-Augmented Generation

该研究通过对比实验证实，在胰腺癌分期任务中，采用检索增强生成（RAG）技术的 NotebookLM 模型（准确率 70%）显著优于其内部基础模型 Gemini 2.0 Flash（准确率 35%-38%），表明 RAG 不仅能提升大语言模型的分期准确性，还能通过提供可追溯的检索依据增强临床诊断的透明度。

Hisashi Johno, Yuki Johno, Akitomo Amakawa + 9 more2026-03-06💻 cs

Enhancing multimodal analogical reasoning with Logic Augmented Generation

本文提出了一种逻辑增强生成（LAG）框架，通过结合语义知识图谱与提示启发式方法，有效提升了大语言模型在跨模态数据上的类比推理能力，并在隐喻检测与理解任务中展现出超越基线模型及人类的表现，同时揭示了当前隐喻理解与评估中存在的局限性。

Anna Sofia Lippolis, Andrea Giovanni Nuzzolese, Aldo Gangemi2026-03-06💻 cs

Computational Fact-Checking of Online Discourse: Scoring scientific accuracy in climate change related news articles

本文提出了一种利用大语言模型提取陈述并比对知识图谱以半自动量化气候变化新闻科学准确性的方法，经专家与用户评估证实该工具有效，但受限于当前知识图谱的不足及处理规模，仍需构建更完善的 FAIR 基础数据以支持公民 discourse。

Tim Wittenborg, Constantin Sebastian Tremel, Markus Stocker + 1 more2026-03-06💻 cs

Learning Virtual Machine Scheduling in Cloud Computing through Language Agents

本文提出了一种名为 MiCo 的层次化语言智能体框架，通过大语言模型驱动的策略发现与组合机制，有效解决了云环境中大规模、高动态的虚拟机调度（ODMBP）难题，并在真实企业数据集上实现了 96.9% 的竞争力比率。

JieHao Wu, Ziwei Wang, Junjie Sheng + 3 more2026-03-06💻 cs

Ice Cream Doesn't Cause Drowning: Benchmarking LLMs Against Statistical Pitfalls in Causal Inference

本文提出了名为 CausalPitfalls 的综合基准，旨在通过结构化挑战和双重评估协议，系统性地评估大语言模型在克服辛普森悖论等统计陷阱方面的因果推理能力，并揭示了当前模型在此领域的显著局限性。

Jin Du, Li Chen, Xun Xian + 6 more2026-03-06💻 cs

ShIOEnv: A Command Evaluation Environment for Grammar-Constrained Synthesis and Execution Behavior Modeling

本文提出了 ShIOEnv，这是一个基于 Gymnasium 的 Bash 环境，通过语法约束合成和自监督不可约性信号来捕捉系统相关的执行行为，并发布了 210 万条输入输出对，显著提升了模型对用户命令执行行为的建模精度。

Jarrod Ragsdale, Rajendra Boppana2026-03-06💻 cs

SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models

本文提出了名为 SealQA 的新基准，旨在评估搜索增强型语言模型在应对网络搜索冲突、噪声及长文档干扰时的推理能力，并揭示了当前前沿模型（包括 o3 等）在此类高难度事实性问答任务中表现普遍不佳且增加推理计算量难以带来显著提升的局限性。

Thinh Pham, Nguyen Nguyen, Pratibha Zunjare + 3 more2026-03-06💻 cs

A Signal Contract for Online Language Grounding and Discovery in Decision-Making

本文提出了名为 LUCIFER 的推理型中间件，通过“信号契约”将在线自然语言更新解耦为策略先验、奖励势、可行约束及遥测动作预测等控制信号，从而在保持决策器语言无关性的同时，显著提升了自主系统在动态环境中的安全性与信息收集效率。

Dimitris Panagopoulos, Adolfo Perrusquia, Weisi Guo2026-03-06💻 cs

EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements

本文提出了基于日本十年财报构建的开源基准 EDINET-Bench，用于评估大语言模型在欺诈检测等复杂金融任务上的表现，研究发现当前最先进的模型在该领域仅略优于传统逻辑回归，表明单纯提供报告文本不足以解决问题，亟需引入更贴近专业场景的推理支持框架。

Issa Sugiura, Takashi Ishida, Taro Makino + 4 more2026-03-06💻 cs

Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective

本文从数据视角出发，通过引入拼图任务并分析学习动态，揭示了强化微调（RFT）相较于监督微调（SFT）在适应新任务时能更好地保留先验知识，其核心原因在于 RFT 通过强化与基座模型概率分布自然对齐的样本，减小了对先验知识的干扰，而基于 RFT 模拟轨迹的数据分布优化也能显著提升 SFT 的知识保留能力。

Zhihao Zhang, Qiaole Dong, Qi Zhang + 12 more2026-03-06💻 cs

La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America

本文介绍了"La Leaderboard"，这是首个专注于评估生成式大语言模型在西班牙及拉丁美洲多种语言及其变体（包括巴斯克语、加泰罗尼亚语、加利西亚语和不同西班牙语变体）能力的开源社区驱动项目，旨在通过整合 66 个数据集和 50 个模型的评估结果，确立评估标准并推动西班牙语社区大语言模型的多样化发展。

María Grandury, Javier Aula-Blasco, Júlia Falcão + 22 more2026-03-06💻 cs