cs.AI 篇论文 | Gist.Science

RM-R1: Reward Modeling as Reasoning

该论文提出了将奖励建模转化为推理任务的新范式，通过引入自生成评分准则的“准则链”机制及两阶段训练流程，构建了性能超越现有大型模型的推理型奖励模型（ReasRM）。

Xiusi Chen, Gaotang Li, Ziqi Wang, Bowen Jin, Cheng Qian, Yu Wang, Hongru Wang, Yu Zhang, Denghui Zhang, Tong Zhang, Hanghang Tong, Heng Ji2026-03-09🤖 cs.AI

Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents

该论文提出了一种分层分析框架，系统回顾了 178 个代码大模型基准测试，揭示了当前评估在软件开发生命周期中严重偏向实现阶段而忽视需求与设计阶段、且缺乏有效防污染策略的现状，并指出了未来的研究方向。

Kaixin Wang, Tianlin Li, Xiaoyu Zhang, Chong Wang, Weisong Sun, Yang Liu, Aishan Liu, Xianglong Liu, Chao Shen, Bin Shi2026-03-09🤖 cs.AI

Maximizing Asynchronicity in Event-based Neural Networks

本文提出了名为 EVA 的新型事件异步特征学习框架，该框架借鉴语言建模中的线性注意力与自监督学习技术，在保持事件相机高时效性优势的同时显著提升了特征表达力与泛化能力，并在识别与检测任务中超越了现有异步方法。

Haiqing Hao, Nikola Zubic, Weihua He, Zhipeng Sui, Davide Scaramuzza, Wenhui Wang2026-03-09🤖 cs.AI

Mitigating Content Effects on Reasoning in Language Models through Fine-Grained Activation Steering

该论文提出了一种名为 K-CAST 的细粒度条件激活导向方法，通过动态调节推理过程中的内部激活，有效缓解了大型语言模型在逻辑推理中因内容合理性而产生的偏差，显著提升了模型的逻辑推理准确率。

Marco Valentino, Geonhee Kim, Dhairya Dalal, Zhixue Zhao, André Freitas2026-03-09🤖 cs.AI

AdAEM: An Adaptively and Automated Extensible Measurement of LLMs' Value Difference

本文提出了 AdAEM，一种能够自适应扩展的评估算法，通过动态生成具有区分度的测试问题来克服现有方法信息量不足的局限，从而有效揭示大语言模型间深层的价值差异与动态演变。

Jing Yao, Shitong Duan, Xiaoyuan Yi, Dongkuan Xu, Peng Zhang, Tun Lu, Ning Gu, Zhicheng Dou, Xing Xie2026-03-09🤖 cs.AI

ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge

本文提出了首个全面评估大语言模型在环境、社会和治理（ESG）及可持续发展领域知识掌握程度的基准ESGenius，该基准包含经专家验证的问答数据集与权威语料库，并通过零样本和检索增强生成（RAG）两种评估模式揭示了当前模型在该专业领域的知识缺口，同时证明了RAG技术在显著提升模型表现方面的关键作用。

Chaoyue He, Xin Zhou, Yi Wu + 9 more2026-03-09💬 cs.CL

KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes

本文提出了 KramaBench，一个包含 104 个真实数据湖挑战的基准测试，旨在评估 AI 系统在端到端数据洞察流程中的能力，研究发现尽管现有大模型能识别部分任务，但在生成可运行的完整端到端管道方面表现仍十分有限。

Eugenie Lai, Gerardo Vitagliano, Ziyu Zhang, Om Chabra, Sivaprasad Sudhir, Anna Zeng, Anton A. Zabreyko, Chenning Li, Ferdi Kossmann, Jialin Ding, Jun Chen, Markos Markakis, Matthew Russo, Weiyang Wang, Ziniu Wu, Michael J. Cafarella, Lei Cao, Samuel Madden, Tim Kraska2026-03-09🤖 cs.AI

VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs

该论文提出了 VisioMath 基准，通过包含 1800 个候选答案均为细微相似图形的 K-12 数学问题，揭示了当前多模态大模型在细粒度视觉推理中因图文对齐不足而导致的性能瓶颈，并验证了多种对齐策略能显著提升模型表现。

Can Li, Ying Liu, Ting Zhang, Mei Wang, Hua Huang2026-03-09🤖 cs.AI

Discerning What Matters: A Multi-Dimensional Assessment of Moral Competence in LLMs

该论文指出当前大语言模型道德能力评估存在过度依赖预设场景、忽视推理过程及缺乏信息缺口识别等缺陷，通过引入涵盖五个维度的新评估框架发现，虽然模型在标准情境下表现优于人类，但在需要主动从噪声中甄别道德相关信息的复杂场景中表现显著逊色，表明现有评估可能高估了 AI 的真实道德推理能力。

Daniel Kilov, Caroline Hendy, Secil Yanik Guyot, Aaron J. Snoswell, Seth Lazar2026-03-09🤖 cs.AI

ContextBench: Modifying Contexts for Targeted Latent Activation

本文提出了名为 ContextBench 的基准测试，旨在评估生成能激活特定潜在特征或行为且语言流畅的输入的方法，并通过结合大语言模型辅助与扩散模型修复的改进进化提示优化策略，实现了在激发效果与语言流畅度之间的最佳平衡。

Robert Graham, Edward Stevinson, Leo Richter, Alexander Chia, Joseph Miller, Joseph Isaac Bloom2026-03-09🤖 cs.AI

Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts

该论文提出了名为 Sysformer 的新方法，通过训练一个轻量级 Transformer 模型在输入嵌入空间中动态自适应地优化系统提示，从而在不微调冻结大语言模型参数的前提下，显著提升了模型对有害提示的拒绝率以及对安全提示的遵循度，并有效抵御了复杂的越狱攻击。

Kartik Sharma, Yiqiao Jin, Vineeth Rakesh, Yingtong Dou, Menghai Pan, Mahashweta Das, Srijan Kumar2026-03-09🤖 cs.AI

Iterative Quantum Feature Maps

本文提出了一种名为迭代量子特征映射（IQFMs）的混合量子 - 经典框架，该框架通过迭代连接浅层量子特征映射与经典计算的增强权重，结合对比学习和逐层训练机制，有效克服了深层量子电路的噪声与资源瓶颈，并在无需优化变分参数的情况下实现了优于量子卷积神经网络且媲美经典神经网络的分类性能。

Nasa Matsumoto, Quoc Hoan Tran, Koki Chinzei, Yasuhiro Endo, Hirotaka Oshima2026-03-09⚛️ quant-ph

SPARC: Concept-Aligned Sparse Autoencoders for Cross-Model and Cross-Modal Interpretability

该论文提出了 SPARC 框架，通过全局 TopK 稀疏机制和跨重建损失，在多样化的模型架构与模态间构建统一的稀疏潜在空间，从而显著提升了跨模型和跨模态的概念对齐能力并实现了可解释的语义共享。

Ali Nasiri-Sarvi, Hassan Rivaz, Mahdi S. Hosseini2026-03-09🤖 cs.AI

Bridging MOOCs, Smart Teaching, and AI: A Decade of Evolution Toward a Unified Pedagogy

本文提出了一种将慕课、智慧教学与人工智能整合的统一教学框架，通过结构化接触、自适应分配和效率增强三个互补维度，实现了从孤立应用向协同增效的教学范式转变。

Bo Yuan, Jiazi Hu2026-03-09🤖 cs.AI

ExDD: Explicit Dual Distribution Learning for Surface Defect Detection via Diffusion Synthesis

ExDD 框架通过显式建模正常与异常的双分布特征、利用文本条件扩散模型生成工业场景合成缺陷数据，并结合邻域感知比率评分机制，有效解决了工业表面缺陷检测中单类异常检测的局限性与数据稀缺问题，在 KSDD2 数据集上取得了显著性能提升。

Muhammad Aqeel, Federico Leonardi, Francesco Setti2026-03-09🤖 cs.AI

A Multi-Agent System Enables Versatile Information Extraction from the Chemical Literature

本文提出了一种基于多模态大语言模型的多智能体系统，通过协同专用工具与网络服务，显著提升了从化学文献中提取复杂多模态反应信息的准确率与通用性，为构建高质量化学数据库及推动 AI 驱动的化学研究奠定了坚实基础。

Yufan Chen, Ching Ting Leung, Bowen Yu, Jianwei Sun, Yong Huang, Linyan Li, Hao Chen, Hanyu Gao2026-03-09🤖 cs.AI

MAP: Mitigating Hallucinations in Large Vision-Language Models with Map-Level Attention Processing

该论文提出了一种名为 MAP 的免训练解码方法，通过将模型隐藏状态视为二维语义地图并引入层间交错注意力与全局 - 局部 Logit 融合机制，有效利用广泛分布的事实信息以缓解大型视觉语言模型中的幻觉问题。

Chenxi Li, Yichen Guo, Benfang Qian, Jinhao You, Kai Tang, Yaosong Du, Zonghao Zhang, Xiande Huang2026-03-09🤖 cs.AI

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

本文提出了 VLMQ，一种针对视觉语言模型（VLM）的特定后训练量化框架，通过利用梯度驱动的显著性因子识别并优先保留关键令牌、抑制冗余视觉令牌，有效解决了视觉过度表征和模态分布差异导致的量化性能下降问题，从而在低比特设置下实现了显著的性能提升。

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang2026-03-09🤖 cs.AI

SGDFuse: SAM-Guided Diffusion Model for High-Fidelity Infrared and Visible Image Fusion

该论文提出了一种名为 SGDFuse 的语义引导扩散模型，通过利用 Segment Anything Model (SAM) 生成的高质量语义掩码作为显式先验，指导条件扩散模型进行从粗到细的生成，从而解决了现有红外与可见光图像融合方法中目标丢失、伪影及细节缺失等问题，实现了高保真且语义感知强的融合效果。

Xiaoyang Zhang, jinjiang Li, Guodong Fan, Yakun Ju, Linwei Fan, Jun Liu, Alex C. Kot2026-03-09🤖 cs.AI

Handling Infinite Domain Parameters in Planning Through Best-First Search with Delayed Partial Expansions

本文提出了一种基于最佳优先搜索与延迟部分扩展的算法，通过将控制参数显式视为决策点而非约束，有效解决了自动化规划中无限域参数的搜索问题，并证明了其在特定条件下的完备性。

Ángel Aso-Mollar, Diego Aineto, Enrico Scala + 1 more2026-03-09⚡ eess