cs.AI 篇论文 | Gist.Science

Why Adam Can Beat SGD: Second-Moment Normalization Yields Sharper Tails

该论文通过引入停止时间/鞅分析，在经典有界方差假设下首次从理论上证明了 Adam 算法的高概率收敛性对置信参数 $\delta$ 的依赖为 $\delta^{-1/2}$ ，优于 SGD 算法必然存在的 $\delta^{-1}$ 依赖，从而解释了 Adam 具有更尖锐尾部（即更优的高概率收敛表现）的原因。

Ruinan Jin, Yingbin Liang, Shaofeng Zou2026-03-10🤖 cs.LG

Information Routing in Atomistic Foundation Models: How Task Alignment and Equivariance Shape Linear Disentanglement

该论文提出了组分探针分解（CPD）方法，揭示了在原子基础模型中，任务对齐度是决定几何与组分信息能否线性解耦的主导因素，并发现不同架构模型间存在显著的线性可及性梯度，且信息在特定对称性通道（如向量通道编码偶极矩、标量通道编码能隙）中按对称类型路由。

Joshua Steier2026-03-10🤖 cs.LG

No Memorization, No Detection: Output Distribution-Based Contamination Detection in Small Language Models

该论文通过受控实验表明，基于输出分布的污染检测方法（CDD）在小型语言模型中因依赖verbatim记忆而表现不佳，其效果远不如困惑度（perplexity）和 Min-k% Prob 等概率基方法。

Omer Sela (Tel Aviv University)2026-03-10💬 cs.CL

Agentic SPARQL: Evaluating SPARQL-MCP-powered Intelligent Agents on the Federated KGQA Benchmark

本文探讨了基于模型上下文协议（MCP）的 SPARQL 智能体在联邦知识图谱问答中的潜力，通过扩展现有基准测试并评估不同架构在端点发现、模式探索及查询构建等任务中的表现，实现了自动化 SPARQL 联邦查询与智能体 AI 的有机结合。

Daniel Dobriy, Frederik Bauer, Amr Azzam + 2 more2026-03-10🤖 cs.AI

Right Move, Right Time: Multi-Sport Space Evaluation Platform for Ultimate Frisbee, Basketball, and Soccer

本文提出了一种开放且运动无关的多项运动空间评估平台，通过标准化输入和提供时序感知的空间分析，实现了极限飞盘、篮球和足球等入侵类运动中“可用空间”与“无球跑动时机”的跨项目一致评估。

Shunsuke Iwashita, Titouan Jeannot, Braden Eberhard + 4 more2026-03-10🤖 cs.AI

Autonomous AI Agents for Option Hedging: Enhancing Financial Stability through Shortfall Aware Reinforcement Learning

本文提出了两种基于强化学习的自主 AI 代理框架（RLOP 和 QLBS），通过优先关注短缺概率和下行风险，在 SPY 和 XOP 期权实证中显著降低了尾部风险并提升了实际对冲表现，从而弥合了静态模型校准与动态对冲结果之间的差距。

Minxuan Hu, Ziheng Chen, Jiayu Yi + 1 more2026-03-10💰 q-fin

Isotonic Layer: A Universal Framework for Generic Recommendation Debiasing

本文提出了一种名为“等渗层”（Isotonic Layer）的新型可微框架，通过将分段线性拟合与约束优化直接集成到神经网络中，实现了对推荐系统偏差的自适应校准与全局单调性约束，从而在提升预测精度和排序一致性的同时显著增强了模型的可靠性与公平性。

Hailing Cheng, Yafang Yang, Hemeng Tao, Fengyu Zhang2026-03-10🤖 cs.LG

ARC-AGI-2 Technical Report

该论文提出了一种结合神经推理、结构感知先验与在线任务适应的 Transformer 系统，通过紧凑的任务编码、基于群对称性的数据增强、测试时训练（TTT）以及对称性感知解码，显著提升了 ARC 任务的泛化能力并缩小了与人类水平的差距。

Wallyson Lemes de Oliveira, Mekhron Bobokhonov, Matteo Caorsi, Aldo Podestà, Gabriele Beltramo, Luca Crosato, Matteo Bonotto, Federica Cecchetto, Hadrien Espic, Dan Titus Salajan, Stefan Taga, Luca Pana, Joe Carthy2026-03-10💬 cs.CL

A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness

该论文通过大规模人工验证揭示，现有“LLM 作为裁判”的框架因无法应对红队测试中的分布偏移，导致其评估结果往往退化为随机猜测，并指出许多攻击实则是利用了裁判模型的缺陷而非真正产生了有害内容，为此作者提出了更可靠的基准测试与裁判压力测试数据集以改进评估体系。

Leo Schwinn, Moritz Ladenburger, Tim Beyer, Mehrnaz Mofakhami, Gauthier Gidel, Stephan Günnemann2026-03-10💬 cs.CL

Distributionally Robust Geometric Joint Chance-Constrained Optimization: Neurodynamic Approaches

本文提出了一种基于神经动力学的双时间尺度方法，通过三种投影方程求解分布鲁棒几何联合机会约束优化问题，该方法无需传统求解器即可概率收敛至全局最优，并成功应用于形状优化与电信问题。

Ange Valli (L2S), Siham Tassouli (OPTIM), Abdel Lisser (L2S)2026-03-10🔢 math

Building the ethical AI framework of the future: from philosophy to practice

该论文提出了一种将伦理原则转化为可执行控制机制的“伦理设计”架构，通过在每个 AI 生命周期阶段实施包含性能、合规及可持续性指标的“三重门”机制，填补了现有治理框架在端到端操作控制方面的空白，从而为构建可验证、可落地的未来 AI 伦理治理体系提供了实践基础。

Jasper Kyle Catapang2026-03-10💻 cs

FuzzingRL: Reinforcement Fuzz-Testing for Revealing VLM Failures

本文提出了一种名为 FuzzingRL 的强化模糊测试方法，通过结合视觉与语言模糊变换及对抗性强化微调，自动生成旨在诱导视觉语言模型（VLM）产生错误回答的多样化问题，从而有效揭示并降低目标模型的性能。

Jiajun Xu, Jiageng Mao, Ang Qi, Weiduo Yuan, Alexander Romanus, Helen Xia, Vitor Campagnolo Guizilini, Yue Wang2026-03-10🤖 cs.LG

Scale Dependent Data Duplication

该论文揭示了数据重复性具有尺度依赖性，即随着模型能力提升，语义重复文档的梯度对齐度增加且语义碰撞加剧，导致大模型在有限独特语料上训练时出现性能退化并偏离预期扩展规律，进而提出了相应的扩展定律以修正预测。

Joshua Kazdan, Noam Levi, Rylan Schaeffer, Jessica Chudnovsky, Abhay Puri, Bo He, Mehmet Donmez, Sanmi Koyejo, David Donoho2026-03-10🤖 cs.LG

Multi-Agent DRL for V2X Resource Allocation: Disentangling Challenges and Benchmarking Solutions

该论文通过构建一系列逐步增加复杂度的多智能体干扰博弈任务，利用大规模 SUMO 生成数据集系统解耦并评估了 C-V2X 网络中多智能体深度强化学习资源分配面临的关键挑战，发现策略在多样化车辆拓扑下的鲁棒性与泛化能力是主要瓶颈，并开源了代码与基准测试套件以推动该领域的可复现研究。

Siyuan Wang, Lei Lei, Pranav Maheshwari, Sam Bellefeuille, Kan Zheng, Dusit Niyato2026-03-10🤖 cs.LG

Scaling Strategy, Not Compute: A Stand-Alone, Open-Source StarCraft II Benchmark for Accessible Reinforcement Learning Research

该论文提出了名为“双桥地图套件（Two-Bridge Map Suite）”的开源基准，旨在通过移除经济机制并聚焦于长距离导航与微操战斗，填补《星际争霸 II》全游戏与微型游戏之间的复杂度空白，从而为在有限算力下进行强化学习研究提供可访问的中间环境。

Sourav Panda, Shreyash Kale, Tanmay Ambadkar, Abhinav Verma, Jonathan Dodge2026-03-10🤖 cs.LG

cs.AI