cs.AI 篇论文 | Gist.Science

Aligning Compound AI Systems via System-level DPO

该论文针对复合 AI 系统因组件间不可微交互及系统级偏好难以转化为组件级偏好而导致的对齐难题，提出了一种基于有向无环图建模并扩展直接偏好优化（DPO）的系统级对齐框架 SysDPO，有效实现了多组件系统的联合偏好对齐。

Xiangwen Wang, Yibo Jacky Zhang, Zhoujie Ding, Katherine Tsai, Haolun Wu, Sanmi Koyejo2026-03-09🤖 cs.AI

Adversarial Robustness of Partitioned Quantum Classifiers

本文研究了在 NISQ 时代下，针对电路切割或量子态隐形传态等分布式执行方式的对抗性扰动，揭示了此类扰动与在量子分类器中间层实施对抗门之间的内在联系，并从理论和实验角度分析了分区量子分类器的对抗鲁棒性。

Pouya Kananian, Hans-Arno Jacobsen2026-03-09⚛️ quant-ph

A Survey on Music Generation from Single-Modal, Cross-Modal, and Multi-Modal Perspectives

本文综述了从单模态、跨模态到多模态视角的音乐生成研究，系统梳理了模态表示、数据对齐及引导机制，探讨了当前数据集与评估方法，并指出了多模态融合、数据规模及评估体系等挑战与未来发展方向。

Shuyu Li, Shulei Ji, Zihao Wang + 3 more2026-03-09🤖 cs.AI

FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment

本文提出了 FindAnything 框架，通过基于 eSAM 分割的物体级特征聚合，将视觉语言信息高效融入致密体素子地图，从而在显著降低计算与存储开销的同时，实现了适用于大型未知环境及资源受限设备（如微型飞行器）的实时开放词汇与物体中心建图。

Sebastián Barbas Laina, Simon Boche, Sotiris Papatheodorou, Simon Schaefer, Jaehyung Jung, Helen Oleynikova, Stefan Leutenegger2026-03-09🤖 cs.AI

From Tokenizer Bias to Backbone Capability: A Controlled Study of LLMs for Time Series Forecasting

该论文通过构建三种具有不同预训练策略的模型进行受控研究，揭示了在时间序列预测中，小数据集上的 Tokenizer 过拟合会掩盖大语言模型（LLM）的真实潜力，而即便采用大规模预训练消除偏差，LLM 骨干网络的性能仍有限，且未能一致超越专为大规模时间序列数据训练的专用模型。

Xinyu Zhang, Shanshan Feng, Xutao Li, Kenghong Lin, Fan Li, Pengfei Jia2026-03-09🤖 cs.AI

Position: Stop Anthropomorphizing Intermediate Tokens as Reasoning/Thinking Traces!

这篇立场论文指出，将大语言模型生成的中间令牌（Intermediate Tokens）拟人化为“推理痕迹”或“思考过程”不仅是一种危险的隐喻，还会误导人们对模型本质的理解、阻碍其有效应用并引发有缺陷的研究，因此呼吁学术界停止这种拟人化表述。

Subbarao Kambhampati, Karthik Valmeekam, Siddhant Bhambri, Vardhan Palod, Lucas Saldyt, Kaya Stechly, Soumya Rani Samineni, Durgesh Kalwar, Upasana Biswas2026-03-09🤖 cs.AI

The Malicious Technical Ecosystem: Exposing Limitations in Technical Governance of AI-Generated Non-Consensual Intimate Images of Adults

该论文采用以幸存者为中心的视角，揭示了由开源换脸模型和大量“去衣”软件构成的“恶意技术生态系统”如何导致当前基于 NIST 报告等标准的 AI 治理框架在应对成人非自愿深度伪造色情内容时存在严重失效与认知缺陷。

Michelle L. Ding, Harini Suresh2026-03-09🤖 cs.AI

Federated Learning: A Survey on Privacy-Preserving Collaborative Intelligence

本文综述了联邦学习这一去中心化机器学习范式，系统阐述了其架构、生命周期、应对数据异构与隐私保护等关键挑战的技术方案，并探讨了个性化联邦学习等新兴趋势、实际应用及未来研究方向。

Ratun Rahman2026-03-09🤖 cs.AI

HCT-QA: A Benchmark for Question Answering on Human-Centric Tables

本文提出了 HCT-QA 基准，这是一个包含真实与合成人类中心表格及海量问答对的大规模数据集，旨在解决现有方法难以处理复杂表格布局及缺乏自然语言查询评估标准的问题，并验证了微调模型在该任务上的显著性能提升。

Mohammad S. Ahmad, Zan A. Naeem, Michaël Aupetit, Ahmed Elmagarmid, Mohamed Eltabakh, Xiaosong Ma, Mourad Ouzzani, Chaoyi Ruan, Hani Al-Sayeh2026-03-09🤖 cs.AI

FourierSpecNet: Neural Collision Operator Approximation Inspired by the Fourier Spectral Method for Solving the Boltzmann Equation

本文提出了一种名为 FourierSpecNet 的混合框架，通过将傅里叶谱方法与深度学习相结合来高效近似玻尔兹曼方程中的碰撞算子，该方法不仅具备分辨率不变性和零样本超分辨率能力，还证明了在离散化细化时收敛于谱解，从而在保持高精度的同时显著降低了弹性与非弹性碰撞场景下的计算成本。

Jae Yong Lee, Gwang Jae Jung, Byung Chan Lim, Hyung Ju Hwang2026-03-09🤖 cs.AI

RM-R1: Reward Modeling as Reasoning

该论文提出了将奖励建模转化为推理任务的新范式，通过引入自生成评分准则的“准则链”机制及两阶段训练流程，构建了性能超越现有大型模型的推理型奖励模型（ReasRM）。

Xiusi Chen, Gaotang Li, Ziqi Wang, Bowen Jin, Cheng Qian, Yu Wang, Hongru Wang, Yu Zhang, Denghui Zhang, Tong Zhang, Hanghang Tong, Heng Ji2026-03-09🤖 cs.AI

Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents

该论文提出了一种分层分析框架，系统回顾了 178 个代码大模型基准测试，揭示了当前评估在软件开发生命周期中严重偏向实现阶段而忽视需求与设计阶段、且缺乏有效防污染策略的现状，并指出了未来的研究方向。

Kaixin Wang, Tianlin Li, Xiaoyu Zhang, Chong Wang, Weisong Sun, Yang Liu, Aishan Liu, Xianglong Liu, Chao Shen, Bin Shi2026-03-09🤖 cs.AI

Maximizing Asynchronicity in Event-based Neural Networks

本文提出了名为 EVA 的新型事件异步特征学习框架，该框架借鉴语言建模中的线性注意力与自监督学习技术，在保持事件相机高时效性优势的同时显著提升了特征表达力与泛化能力，并在识别与检测任务中超越了现有异步方法。

Haiqing Hao, Nikola Zubic, Weihua He, Zhipeng Sui, Davide Scaramuzza, Wenhui Wang2026-03-09🤖 cs.AI

Mitigating Content Effects on Reasoning in Language Models through Fine-Grained Activation Steering

该论文提出了一种名为 K-CAST 的细粒度条件激活导向方法，通过动态调节推理过程中的内部激活，有效缓解了大型语言模型在逻辑推理中因内容合理性而产生的偏差，显著提升了模型的逻辑推理准确率。

Marco Valentino, Geonhee Kim, Dhairya Dalal, Zhixue Zhao, André Freitas2026-03-09🤖 cs.AI

AdAEM: An Adaptively and Automated Extensible Measurement of LLMs' Value Difference

本文提出了 AdAEM，一种能够自适应扩展的评估算法，通过动态生成具有区分度的测试问题来克服现有方法信息量不足的局限，从而有效揭示大语言模型间深层的价值差异与动态演变。

Jing Yao, Shitong Duan, Xiaoyuan Yi, Dongkuan Xu, Peng Zhang, Tun Lu, Ning Gu, Zhicheng Dou, Xing Xie2026-03-09🤖 cs.AI

ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge

本文提出了首个全面评估大语言模型在环境、社会和治理（ESG）及可持续发展领域知识掌握程度的基准ESGenius，该基准包含经专家验证的问答数据集与权威语料库，并通过零样本和检索增强生成（RAG）两种评估模式揭示了当前模型在该专业领域的知识缺口，同时证明了RAG技术在显著提升模型表现方面的关键作用。

Chaoyue He, Xin Zhou, Yi Wu + 9 more2026-03-09💬 cs.CL

KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes

本文提出了 KramaBench，一个包含 104 个真实数据湖挑战的基准测试，旨在评估 AI 系统在端到端数据洞察流程中的能力，研究发现尽管现有大模型能识别部分任务，但在生成可运行的完整端到端管道方面表现仍十分有限。

Eugenie Lai, Gerardo Vitagliano, Ziyu Zhang, Om Chabra, Sivaprasad Sudhir, Anna Zeng, Anton A. Zabreyko, Chenning Li, Ferdi Kossmann, Jialin Ding, Jun Chen, Markos Markakis, Matthew Russo, Weiyang Wang, Ziniu Wu, Michael J. Cafarella, Lei Cao, Samuel Madden, Tim Kraska2026-03-09🤖 cs.AI

cs.AI