cs.LG 篇论文 | Gist.Science

World Model for Battery Degradation Prediction Under Non-Stationary Aging

本文提出了一种基于世界模型的锂离子电池退化预测框架，通过将循环数据编码为潜在状态并学习动态演化来生成未来轨迹，且引入单粒子模型约束显著提升了退化拐点处的预测精度。

Kai Chin Lim, Khay Wai See2026-03-12⚡ eess

UAV-MARL: Multi-Agent Reinforcement Learning for Time-Critical and Dynamic Medical Supply Delivery

本文提出了一种基于多智能体强化学习（MARL）的框架，利用近端策略优化（PPO）算法在部分可观测环境下协调无人机群，以应对医疗物资配送中需求紧急性、位置分布及时间截止期等动态不确定性挑战，并通过真实地理数据验证了其在实时任务优先级排序与资源动态分配方面的优越性能。

Islam Guven, Mehmet Parlak2026-03-12🤖 cs.LG

Tackling Length Inflation Without Trade-offs: Group Relative Reward Rescaling for Reinforcement Learning

该论文提出了组相对奖励重缩放（GR³）方法，通过将长度控制重构为乘性重缩放范式并结合组相对正则化与优势感知校准，在无需牺牲优化效果的前提下有效解决了强化学习中大语言模型的长度膨胀问题。

Zichao Li, Jie Lou, Fangchen Dong, Zhiyuan Fan, Mengjie Ren, Hongyu Lin, Xianpei Han, Debing Zhang, Le Sun, Yaojie Lu, Xing Yu2026-03-12🤖 cs.LG

SCORE: Replacing Layer Stacking with Contractive Recurrent Depth

该论文提出了名为 SCORE 的新型深度神经网络架构，它通过 ODE 启发的收缩性循环更新机制替代传统的层堆叠，在共享权重减少参数量的同时，利用离散迭代显著提升了多种模型（如图神经网络、MLP 和 Transformer）的收敛速度与训练效率。

Guillaume Godin2026-03-12🤖 cs.LG

Learning to Score: Tuning Cluster Schedulers through Reinforcement Learning

该论文提出了一种基于强化学习的方法，通过引入百分比改进奖励、帧堆叠和限制领域信息等策略，自动学习集群调度器评分函数的权重，从而在无需专家干预的情况下显著提升作业端到端性能。

Martin Asenov, Qiwen Deng, Gingfung Yeung, Adam Barker2026-03-12🤖 cs.LG

A Bipartite Graph Approach to U.S.-China Cross-Market Return Forecasting

该论文提出了一种基于有向二分图的结构化机器学习框架，利用中美股市交易时间差构建稀疏可解释的特征选择层，研究发现美国收盘价至收盘价的收益率对中国日内收益率具有显著预测力，而反向影响则十分有限。

Jing Liu, Maria Grith, Xiaowen Dong, Mihai Cucuringu2026-03-12💰 q-fin

Quantization Robustness of Monotone Operator Equilibrium Networks

该论文分析了单调算子平衡网络在低精度硬件上的量化鲁棒性，证明了当权重谱扰动小于单调性裕度时收敛性得以保证，并通过实验验证了位宽阈值及量化感知训练在恢复四比特收敛性方面的有效性。

James Li, Philip H. W. Leong, Thomas Chaffey2026-03-12⚡ eess

Riemannian Geometry-Preserving Variational Autoencoder for MI-BCI Data Augmentation

该论文提出了一种保持黎曼几何特性的变分自编码器（RGP-VAE），用于生成符合对称正定性质的合成脑电协方差矩阵，从而在保留几何结构的同时实现电机想象脑机接口（MI-BCI）的数据增强与跨被试特征学习。

Viktorija Polaka, Ivo Pascal de Jong, Andreea Ioana Sburlea2026-03-12🤖 cs.LG

Implicit Statistical Inference in Transformers: Approximating Likelihood-Ratio Tests In-Context

该论文从统计决策理论视角出发，证明 Transformer 能够通过上下文学习近似贝叶斯最优统计量，其机制并非简单的相似性匹配或固定核平滑，而是根据任务几何特性（如线性均值偏移或非线性方差估计）动态构建自适应统计估计器。

Faris Chaudhry, Siddhant Gadkari2026-03-12🤖 cs.LG

HAPEns: Hardware-Aware Post-Hoc Ensembling for Tabular Data

本文提出了 HAPEns，一种针对表格数据的硬件感知事后集成方法，通过在预测性能与硬件资源消耗之间构建帕累托前沿，实现了在 83 个数据集上显著优于现有基线的性能与部署成本权衡。

Jannis Maier, Lennart Purucker2026-03-12🤖 cs.LG

Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning

该论文通过实证研究反驳了道德推理任务必须依赖多样性算法的假设，发现基于奖励最大化的 RLVR 方法在道德对齐任务中同样有效，因为与数学推理不同，道德推理的高奖励响应在语义空间中呈现更集中的分布。

Zhaowei Zhang, Xiaohan Liu, Xuekai Zhu, Junchao Huang, Ceyao Zhang, Zhiyuan Feng, Yaodong Yang, Xiaoyuan Yi, Xing Xie2026-03-12🤖 cs.AI

Gradient Flow Drifting: Generative Modeling via Wasserstein Gradient Flows of KDE-Approximated Divergences

该论文提出了“梯度流漂移”（Gradient Flow Drifting）这一生成建模新框架，从理论上证明了漂移模型等价于基于核密度估计（KDE）近似的前向 KL 散度的 Wasserstein 梯度流，并进一步通过混合散度策略与流形扩展，有效解决了模式坍塌与模糊问题。

Jiarui Cao, Zixuan Wei, Yuxin Liu2026-03-12🤖 cs.LG

Self-Scaled Broyden Family of Quasi-Newton Methods in JAX

本文介绍了一个基于 Optimistix 库的 JAX 实现，提供了包含缩放变体的自缩放 Broyden 族拟牛顿优化器（如 BFGS、DFP 等）及满足强 Wolfe 条件的 Zoom 线搜索，旨在记录技术细节并促进 JAX 社区对这些优化器的采用。

Ivan Bioli, Mikel Mendibe Abarrategi2026-03-12🤖 cs.LG

Geo-ATBench: A Benchmark for Geospatial Audio Tagging with Geospatial Semantic Context

该论文提出了名为 Geo-ATBench 的地理空间音频标注基准及 GeoFusion-AT 融合框架，旨在通过引入地理信息系统提供的语义上下文（如兴趣点）来辅助多标签音频识别，从而有效解决仅靠音频波形难以区分的声学混淆问题，并验证了该方法在性能上能与人类听辨水平对齐。

Yuanbo Hou, Yanru Wu, Qiaoqiao Ren, Shengchen Li, Stephen Roberts, Dick Botteldooren2026-03-12⚡ eess

Reinforcement Learning with Conditional Expectation Reward

该论文提出了一种名为条件期望奖励（CER）的新方法，利用大语言模型自身作为隐式验证器，通过计算生成答案对参考答案的条件似然期望来提供软性奖励信号，从而克服了传统基于规则验证器在自由形式答案领域应用受限的问题，显著提升了大模型在数学及通用推理任务中的表现。

Changyi Xiao, Caijun Xu, Yixin Cao2026-03-12🤖 cs.LG

Detecting and Eliminating Neural Network Backdoors Through Active Paths with Application to Intrusion Detection

本文提出了一种基于神经网络“活跃路径”的新型可解释方法，用于检测并消除机器学习中难以察觉的恶意后门，并通过在入侵检测模型中注入后门进行了实验验证。

Eirik Høyheim, Magnus Wiik Eckhoff, Gudmund Grov, Robert Flood, David Aspinall2026-03-12🤖 cs.AI

FAME: Formal Abstract Minimal Explanation for Neural Networks

本文提出了基于抽象解释的 FAME 方法，通过设计专用扰动域和结合 LiRPA 界限，首次实现了在大型神经网络中生成规模更小且无需遍历顺序的形式化抽象最小解释，并引入结合对抗攻击与 VERIX+ 的评估流程验证了其质量与效率。

Ryma Boumazouza, Raya Elsaleh, Melanie Ducoffe, Shahaf Bassan, Guy Katz2026-03-12🤖 cs.AI

Spatio-Temporal Attention Graph Neural Network: Explaining Causalities With Attention

该论文提出了一种名为 STA-GNN 的时空注意力图神经网络，通过动态建模工业控制系统中物理过程与通信模式的依赖关系，结合注意力机制实现可解释的异常检测，并引入保形预测策略以应对环境漂移和误报问题，从而提升关键基础设施安全监控系统的可靠性。

Kosti Koistinen, Kirsi Hellsten, Joni Herttuainen, Kimmo K. Kaski2026-03-12🤖 cs.LG

Surrogate models for nuclear fusion with parametric Shallow Recurrent Decoder Networks: applications to magnetohydrodynamics

该研究提出了一种结合奇异值分解（SVD）与浅层递归解码器（SHRED）神经网络的全数据驱动框架，仅需三个传感器的温度测量值即可准确重构磁流体动力学（MHD）系统的完整时空状态，从而为核聚变中的多物理场问题提供了一种适用于实时监测与控制的高效代理建模策略。

M. Lo Verso, C. Introini, E. Cervi, L. Savoldi, J. N. Kutz, A. Cammi2026-03-12🤖 cs.LG

Contract And Conquer: How to Provably Compute Adversarial Examples for a Black-Box Model?

本文提出了名为“收缩与征服”（CAC）的黑盒对抗攻击方法，该方法通过知识蒸馏和搜索空间精确收缩，在理论上证明了能在固定迭代次数内生成对抗样本，并在 ImageNet 数据集上超越了现有最先进方法。

Anna Chistyakova, Mikhail Pautov2026-03-12🤖 cs.LG