Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents

该论文提出了一种分层分析框架,系统回顾了 178 个代码大模型基准测试,揭示了当前评估在软件开发生命周期中严重偏向实现阶段而忽视需求与设计阶段、且缺乏有效防污染策略的现状,并指出了未来的研究方向。

Kaixin Wang, Tianlin Li, Xiaoyu Zhang, Chong Wang, Weisong Sun, Yang Liu, Aishan Liu, Xianglong Liu, Chao Shen, Bin Shi2026-03-09🤖 cs.AI

ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge

本文提出了首个全面评估大语言模型在环境、社会和治理(ESG)及可持续发展领域知识掌握程度的基准ESGenius,该基准包含经专家验证的问答数据集与权威语料库,并通过零样本和检索增强生成(RAG)两种评估模式揭示了当前模型在该专业领域的知识缺口,同时证明了RAG技术在显著提升模型表现方面的关键作用。

Chaoyue He, Xin Zhou, Yi Wu + 9 more2026-03-09💬 cs.CL

KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes

本文提出了 KramaBench,一个包含 104 个真实数据湖挑战的基准测试,旨在评估 AI 系统在端到端数据洞察流程中的能力,研究发现尽管现有大模型能识别部分任务,但在生成可运行的完整端到端管道方面表现仍十分有限。

Eugenie Lai, Gerardo Vitagliano, Ziyu Zhang, Om Chabra, Sivaprasad Sudhir, Anna Zeng, Anton A. Zabreyko, Chenning Li, Ferdi Kossmann, Jialin Ding, Jun Chen, Markos Markakis, Matthew Russo, Weiyang Wang, Ziniu Wu, Michael J. Cafarella, Lei Cao, Samuel Madden, Tim Kraska2026-03-09🤖 cs.AI

Discerning What Matters: A Multi-Dimensional Assessment of Moral Competence in LLMs

该论文指出当前大语言模型道德能力评估存在过度依赖预设场景、忽视推理过程及缺乏信息缺口识别等缺陷,通过引入涵盖五个维度的新评估框架发现,虽然模型在标准情境下表现优于人类,但在需要主动从噪声中甄别道德相关信息的复杂场景中表现显著逊色,表明现有评估可能高估了 AI 的真实道德推理能力。

Daniel Kilov, Caroline Hendy, Secil Yanik Guyot, Aaron J. Snoswell, Seth Lazar2026-03-09🤖 cs.AI

Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts

该论文提出了名为 Sysformer 的新方法,通过训练一个轻量级 Transformer 模型在输入嵌入空间中动态自适应地优化系统提示,从而在不微调冻结大语言模型参数的前提下,显著提升了模型对有害提示的拒绝率以及对安全提示的遵循度,并有效抵御了复杂的越狱攻击。

Kartik Sharma, Yiqiao Jin, Vineeth Rakesh, Yingtong Dou, Menghai Pan, Mahashweta Das, Srijan Kumar2026-03-09🤖 cs.AI

Iterative Quantum Feature Maps

本文提出了一种名为迭代量子特征映射(IQFMs)的混合量子 - 经典框架,该框架通过迭代连接浅层量子特征映射与经典计算的增强权重,结合对比学习和逐层训练机制,有效克服了深层量子电路的噪声与资源瓶颈,并在无需优化变分参数的情况下实现了优于量子卷积神经网络且媲美经典神经网络的分类性能。

Nasa Matsumoto, Quoc Hoan Tran, Koki Chinzei, Yasuhiro Endo, Hirotaka Oshima2026-03-09⚛️ quant-ph

A Multi-Agent System Enables Versatile Information Extraction from the Chemical Literature

本文提出了一种基于多模态大语言模型的多智能体系统,通过协同专用工具与网络服务,显著提升了从化学文献中提取复杂多模态反应信息的准确率与通用性,为构建高质量化学数据库及推动 AI 驱动的化学研究奠定了坚实基础。

Yufan Chen, Ching Ting Leung, Bowen Yu, Jianwei Sun, Yong Huang, Linyan Li, Hao Chen, Hanyu Gao2026-03-09🤖 cs.AI

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

本文提出了 VLMQ,一种针对视觉语言模型(VLM)的特定后训练量化框架,通过利用梯度驱动的显著性因子识别并优先保留关键令牌、抑制冗余视觉令牌,有效解决了视觉过度表征和模态分布差异导致的量化性能下降问题,从而在低比特设置下实现了显著的性能提升。

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang2026-03-09🤖 cs.AI

SGDFuse: SAM-Guided Diffusion Model for High-Fidelity Infrared and Visible Image Fusion

该论文提出了一种名为 SGDFuse 的语义引导扩散模型,通过利用 Segment Anything Model (SAM) 生成的高质量语义掩码作为显式先验,指导条件扩散模型进行从粗到细的生成,从而解决了现有红外与可见光图像融合方法中目标丢失、伪影及细节缺失等问题,实现了高保真且语义感知强的融合效果。

Xiaoyang Zhang, jinjiang Li, Guodong Fan, Yakun Ju, Linwei Fan, Jun Liu, Alex C. Kot2026-03-09🤖 cs.AI