cs.AI 篇论文 | Gist.Science

Extended Empirical Validation of the Explainability Solution Space

该技术报告通过引入城市资源分配新案例，跨领域验证了可解释性解决方案空间（ESS）框架的通用性，证明其能根据治理角色、风险特征及利益相关者配置系统性地调整可解释 AI 策略，从而成为适用于各类社会技术系统的通用决策支持工具。

Antoni Mestre, Manoli Albert, Miriam Gil, Vicente Pelechano2026-03-10💻 cs

Opponent State Inference Under Partial Observability: An HMM-POMDP Framework for 2026 Formula 1 Energy Strategy

该论文针对 2026 年 F1 新规下因对手隐藏状态导致的部分可观测随机博弈问题，提出了一种结合隐藏马尔可夫模型（HMM）推断对手能量状态与深度 Q 网络（DQN）制定决策的两层框架，有效解决了传统单智能体优化方法无法应对的“反收割陷阱”等复杂策略挑战。

Kalliopi Kleisarchaki2026-03-10🤖 cs.LG

HarmonyCell: Automating Single-Cell Perturbation Modeling under Semantic and Distribution Shifts

HarmonyCell 是一个端到端智能体框架，通过大语言模型驱动的语义统一器和自适应蒙特卡洛树搜索引擎，分别解决单细胞扰动研究中的语义异构与分布偏移挑战，实现了无需人工干预的自动化虚拟细胞建模。

Wenxuan Huang, Mingyu Tsoi, Yanhao Huang, Xinjie Mao, Xue Xia, Hao Wu, Jiaqi Wei, Yuejin Yang, Lang Yu, Cheng Tan, Xiang Zhang, Zhangyang Gao, Siqi Sun2026-03-10💻 cs

LLM-assisted Semantic Option Discovery for Facilitating Adaptive Deep Reinforcement Learning

本文提出了一种由大语言模型驱动的闭环框架，通过将自然语言指令映射为可执行规则并自动语义标注选项，有效解决了深度强化学习在数据效率、可解释性及跨环境迁移方面的关键挑战，并在 Office World 和 Montezuma's Revenge 任务中验证了其在约束合规与任务迁移上的优越性能。

Chang Yao, Jinghui Qin, Kebing Jin, Hankz Hankui Zhuo2026-03-10💻 cs

A Detection-Gated Pipeline for Robust Glottal Area Waveform Extraction and Clinical Pathology Assessment

该论文提出了一种检测门控流水线，通过结合定位器与分割器及时间一致性机制，实现了跨数据集鲁棒的高清喉镜声门区域波形提取，并验证了其在区分健康与病理发声功能中的临床有效性。

Harikrishnan Unnikrishnan2026-03-10🤖 cs.LG

Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta

本文提出了一种结合 CoAtNet 架构与模型汤（Model Soups）技术的框架，通过集成多样化检查点来降低方差并提升泛化能力，从而在数据稀缺的湄公河三角洲非物质文化遗产图像分类任务中取得了优于现有基准的优异性能。

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham2026-03-10🤖 cs.LG

Diagnosing Retrieval vs. Utilization Bottlenecks in LLM Agent Memory

该论文提出了一种诊断框架，通过对比不同写入与检索策略在 LoCoMo 数据集上的表现，发现检索方法对 LLM 代理性能的影响远大于写入策略，且当前更高效的原始分块存储配合优质检索往往优于昂贵的摘要式写入方案。

Boqin Yuan, Yue Su, Kun Yao2026-03-10🤖 cs.AI

Agentified Assessment of Logical Reasoning Agents

本文提出了一种基于代理的评估框架，通过引入评估代理来确保逻辑推理任务评估的可复现性与鲁棒性，并在 FOLIO 数据集上验证了该方法下自动形式化代理在逻辑推理任务中显著优于思维链基线的表现。

Zhiyu Ni, Yifeng Xiao, Zheng Liang2026-03-10💻 cs

Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers

本文提出了一种无需梯度计算或参数更新的无监督方法，通过引入 GramCol 和运动特征选择算法生成可解释的运动注意力图（IMAP），从而在视频扩散 Transformer 中实现了对运动及非运动概念时空定位的精准解释。

Youngjun Jun, Seil Kang, Woojung Han, Seong Jae Hwang2026-03-10🤖 cs.LG

Why Adam Can Beat SGD: Second-Moment Normalization Yields Sharper Tails

该论文通过引入停止时间/鞅分析，在经典有界方差假设下首次从理论上证明了 Adam 算法的高概率收敛性对置信参数 $\delta$ 的依赖为 $\delta^{-1/2}$ ，优于 SGD 算法必然存在的 $\delta^{-1}$ 依赖，从而解释了 Adam 具有更尖锐尾部（即更优的高概率收敛表现）的原因。

Ruinan Jin, Yingbin Liang, Shaofeng Zou2026-03-10🤖 cs.LG

Information Routing in Atomistic Foundation Models: How Task Alignment and Equivariance Shape Linear Disentanglement

该论文提出了组分探针分解（CPD）方法，揭示了在原子基础模型中，任务对齐度是决定几何与组分信息能否线性解耦的主导因素，并发现不同架构模型间存在显著的线性可及性梯度，且信息在特定对称性通道（如向量通道编码偶极矩、标量通道编码能隙）中按对称类型路由。

Joshua Steier2026-03-10🤖 cs.LG

No Memorization, No Detection: Output Distribution-Based Contamination Detection in Small Language Models

该论文通过受控实验表明，基于输出分布的污染检测方法（CDD）在小型语言模型中因依赖verbatim记忆而表现不佳，其效果远不如困惑度（perplexity）和 Min-k% Prob 等概率基方法。

Omer Sela (Tel Aviv University)2026-03-10💬 cs.CL

Agentic SPARQL: Evaluating SPARQL-MCP-powered Intelligent Agents on the Federated KGQA Benchmark

本文探讨了基于模型上下文协议（MCP）的 SPARQL 智能体在联邦知识图谱问答中的潜力，通过扩展现有基准测试并评估不同架构在端点发现、模式探索及查询构建等任务中的表现，实现了自动化 SPARQL 联邦查询与智能体 AI 的有机结合。

Daniel Dobriy, Frederik Bauer, Amr Azzam + 2 more2026-03-10🤖 cs.AI

Right Move, Right Time: Multi-Sport Space Evaluation Platform for Ultimate Frisbee, Basketball, and Soccer

本文提出了一种开放且运动无关的多项运动空间评估平台，通过标准化输入和提供时序感知的空间分析，实现了极限飞盘、篮球和足球等入侵类运动中“可用空间”与“无球跑动时机”的跨项目一致评估。

Shunsuke Iwashita, Titouan Jeannot, Braden Eberhard + 4 more2026-03-10🤖 cs.AI

Autonomous AI Agents for Option Hedging: Enhancing Financial Stability through Shortfall Aware Reinforcement Learning

本文提出了两种基于强化学习的自主 AI 代理框架（RLOP 和 QLBS），通过优先关注短缺概率和下行风险，在 SPY 和 XOP 期权实证中显著降低了尾部风险并提升了实际对冲表现，从而弥合了静态模型校准与动态对冲结果之间的差距。

Minxuan Hu, Ziheng Chen, Jiayu Yi + 1 more2026-03-10💰 q-fin

Isotonic Layer: A Universal Framework for Generic Recommendation Debiasing

本文提出了一种名为“等渗层”（Isotonic Layer）的新型可微框架，通过将分段线性拟合与约束优化直接集成到神经网络中，实现了对推荐系统偏差的自适应校准与全局单调性约束，从而在提升预测精度和排序一致性的同时显著增强了模型的可靠性与公平性。

Hailing Cheng, Yafang Yang, Hemeng Tao, Fengyu Zhang2026-03-10🤖 cs.LG

ARC-AGI-2 Technical Report

该论文提出了一种结合神经推理、结构感知先验与在线任务适应的 Transformer 系统，通过紧凑的任务编码、基于群对称性的数据增强、测试时训练（TTT）以及对称性感知解码，显著提升了 ARC 任务的泛化能力并缩小了与人类水平的差距。

Wallyson Lemes de Oliveira, Mekhron Bobokhonov, Matteo Caorsi, Aldo Podestà, Gabriele Beltramo, Luca Crosato, Matteo Bonotto, Federica Cecchetto, Hadrien Espic, Dan Titus Salajan, Stefan Taga, Luca Pana, Joe Carthy2026-03-10💬 cs.CL

A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness

该论文通过大规模人工验证揭示，现有“LLM 作为裁判”的框架因无法应对红队测试中的分布偏移，导致其评估结果往往退化为随机猜测，并指出许多攻击实则是利用了裁判模型的缺陷而非真正产生了有害内容，为此作者提出了更可靠的基准测试与裁判压力测试数据集以改进评估体系。

Leo Schwinn, Moritz Ladenburger, Tim Beyer, Mehrnaz Mofakhami, Gauthier Gidel, Stephan Günnemann2026-03-10💬 cs.CL

Distributionally Robust Geometric Joint Chance-Constrained Optimization: Neurodynamic Approaches

本文提出了一种基于神经动力学的双时间尺度方法，通过三种投影方程求解分布鲁棒几何联合机会约束优化问题，该方法无需传统求解器即可概率收敛至全局最优，并成功应用于形状优化与电信问题。

Ange Valli (L2S), Siham Tassouli (OPTIM), Abdel Lisser (L2S)2026-03-10🔢 math

Building the ethical AI framework of the future: from philosophy to practice

该论文提出了一种将伦理原则转化为可执行控制机制的“伦理设计”架构，通过在每个 AI 生命周期阶段实施包含性能、合规及可持续性指标的“三重门”机制，填补了现有治理框架在端到端操作控制方面的空白，从而为构建可验证、可落地的未来 AI 伦理治理体系提供了实践基础。

Jasper Kyle Catapang2026-03-10💻 cs