cs.LG 篇论文 | Gist.Science

Learning to Cover: Online Learning and Optimization with Irreversible Decisions

本文研究了具有离散不可逆决策的在线学习与优化问题，通过证明分类器收敛性并推导渐近最优算法，揭示了在有限时间范围内通过“先探索后利用”策略实现设施覆盖目标时，其遗憾值随目标规模呈次线性增长且收敛速度极快的理论特性。

Alexandre Jacquillat, Michael Lingzhi Li2026-03-06🔢 math

Parallel Split Learning with Global Sampling

本文提出了并行分割学习中的全局采样（GPSL）方案，通过服务器驱动的全局固定批次与基于池化比例的客户端调度，解决了传统并行分割学习中有效批次随客户端数量增长及非独立同分布数据导致的偏差问题，在无需额外开销的情况下实现了接近集中式训练的精度并显著缩短了训练时间。

Mohammad Kohankhaki, Ahmad Ayad, Mahdi Barhoush + 1 more2026-03-06💻 cs

Towards a Fairer Non-negative Matrix Factorization

本文提出了一种基于极小化极大目标函数的公平非负矩阵分解方法，通过推导两种优化算法并结合实验表明，该方法虽能提升群体公平性，但可能以牺牲部分个体精度为代价，且其适用性需根据具体应用场景权衡。

Lara Kassab, Erin George, Deanna Needell + 3 more2026-03-06💻 cs

An Experimental Study on Fairness-aware Machine Learning for Credit Scoring Problems

本文通过综合实验研究，评估了公平性感知机器学习模型在信用评分任务中的表现，结果表明其在预测准确性与公平性之间取得了优于传统分类模型的平衡。

Huyen Giang Thi Thu, Thang Viet Doan, Ha-Bang Ban + 1 more2026-03-06💻 cs

Path Planning for Masked Diffusion Model Sampling

该论文提出了一种名为“路径规划”（Path Planning, P2）的新型推理采样策略，通过将生成步骤分解为规划与去噪两个子阶段，使掩码扩散模型能够迭代优化已生成的令牌，从而在理论上扩展了证据下界，并在蛋白质、RNA、数学推理、故事生成及代码生成等多个领域实现了显著的性能提升。

Fred Zhangzhi Peng, Zachary Bezemek, Sawan Patel + 5 more2026-03-06💻 cs

Curse of Dimensionality in Neural Network Optimization

该论文通过 2-Wasserstein 梯度流分析，证明了在使用 Lipschitz 连续激活函数训练浅层神经网络时，优化过程中的种群风险衰减速度受限于 $t^{-\frac{4r}{d-2r}}$ （或针对特定局部 Lipschitz 函数的 $t^{-\frac{(4+2\delta)r}{d-2r}}$ ），从而揭示了目标函数光滑度与神经网络优化中维度灾难之间的内在联系。

Sanghoon Na, Haizhao Yang2026-03-06🔢 math

Generalization Bounds for Markov Algorithms through Entropy Flow Computations

本文通过引入新的技术工具，将基于熵流的泛化误差分析方法从特定的连续时间噪声算法推广至所有由时齐马尔可夫过程支配的迭代学习算法，建立了泛化误差与马尔可夫过程遍历性之间的新联系，并推导出了适用于多种具体算法的泛化界。

Benjamin Dupuis, Maxime Haddouche, George Deligiannidis + 1 more2026-03-06💻 cs

Sink equilibria and the attractors of learning in games

该论文通过引入“局部源”概念并构造反例，证伪了复制动态吸引子与博弈中汇均衡存在一一对应关系的猜想，同时提出了“伪凸性”作为两玩家博弈中确立这种对应关系的充分条件。

Oliver Biggar, Christos Papadimitriou2026-03-06💻 cs

FBFL: A Field-Based Coordination Approach for Data Heterogeneity in Federated Learning

本文提出了基于场协调的联邦学习（FBFL）框架，通过分布式空间领导者选举和自组织分层架构有效解决了数据非独立同分布（non-IID）及中心化瓶颈问题，并在非 IID 场景下展现出优于 FedAvg、FedProx 和 Scaffold 等现有方法的性能与容错能力。

Davide Domini, Gianluca Aguzzi, Lukas Esterle + 1 more2026-03-06💻 cs

Double Momentum and Error Feedback for Clipping with Fast Rates and Differential Privacy

本文提出了一种结合梯度裁剪、动量机制与误差反馈的新算法 Clip21-SGD2M，旨在解决联邦学习中难以同时实现强差分隐私保障与最优优化收敛速度的难题，并在数据异构的非凸问题中证明了其理论优势与实验性能。

Rustem Islamov, Samuel Horvath, Aurelien Lucchi + 2 more2026-03-06🔢 math

Generative Models in Decision Making: A Survey

本文提出了一种基于“控制即推理”概率框架的生成式决策新范式，通过变分分解将生成模型划分为控制器、建模器、优化器和评估器四大功能角色，系统梳理了其在具身智能、自动驾驶及科学 AI 等高风险领域的应用现状、潜在风险及迈向通用物理智能的未来挑战。

Xinyu Shao, Jianping Zhang, Haozhi Wang + 9 more2026-03-06💻 cs

BACE-RUL: A Bi-directional Adversarial Network with Covariate Encoding for Machine Remaining Useful Life Prediction

本文提出了一种名为 BACE-RUL 的双向对抗网络模型，该模型仅利用当前生命周期内的传感器测量数据，通过协变量编码和条件生成机制来预测机械设备的剩余使用寿命，并在多个真实数据集上展现出优于现有方法的性能。

Zekai Zhang, Dan Li, Shunyu Wu + 4 more2026-03-06💻 cs

Safety Mirage: How Spurious Correlations Undermine VLM Safety Fine-Tuning and Can Be Mitigated by Machine Unlearning

该论文揭示了监督微调在视觉语言模型安全对齐中因强化虚假相关性而导致的“安全幻象”缺陷，并提出利用机器遗忘技术替代传统微调，从而在显著降低攻击成功率的同时大幅减少误拒现象。

Yiwei Chen, Yuguang Yao, Yihua Zhang + 3 more2026-03-06💻 cs

Assessing the Impact of Code Changes on the Fault Localizability of Large Language Models

本文提出了首个大规模实证评估框架，通过向真实程序注入未见过的故障并应用语义保持变异来测试大语言模型的故障定位鲁棒性，发现模型在 78% 的情况下因过度依赖与语义无关的语法特征而失效，从而揭示了当前 LLM 在程序逻辑推理方面的根本局限。

Sabaat Haroon, Ahmad Faraz Khan, Ahmad Humayun + 5 more2026-03-06💻 cs

ms-Mamba: Multi-scale Mamba for Time-Series Forecasting

本文提出了多尺度 Mamba（ms-Mamba）架构，通过集成具有不同采样率的多个 Mamba 块来捕捉多时间尺度信息，在多个基准测试中实现了优于现有 Transformer 及 Mamba 模型的性能，同时显著降低了参数量、显存占用和计算开销。

Yusuf Meric Karadag, Ismail Talaz, Ipek Gursel Dino + 1 more2026-03-06💻 cs

TianQuan-S2S: A Subseasonal-to-Seasonal Global Weather Model via Incorporate Climatology State

本文提出了 TianQuan-S2S 模型，该模型通过将气候态融入 Patch 嵌入并引入不确定性增强 Transformer 来有效结合初始天气与气候平均态，从而在亚季节至季节尺度的全球天气预报中显著超越了传统数值模式及现有数据驱动方法。

Guowen Li, Xintong Liu, Yang Liu + 11 more2026-03-06💻 cs

Noise2Ghost: Self-supervised deep convolutional reconstruction for ghost imaging

本文提出了一种名为 Noise2Ghost 的自监督深度学习鬼成像重建方法，该方法无需清洁参考数据即可在低信噪比条件下实现卓越的图像重建质量，特别适用于微纳尺度 X 射线荧光成像等对剂量敏感的生物及电池样本的在体与原位研究。

Mathieu Manni, Dmitry Karpov, K. Joost Batenburg + 2 more2026-03-06🔬 physics

Differentially Private and Scalable Estimation of the Network Principal Component

本文提出了一种基于“提议 - 测试 - 发布”（PTR）框架的可扩展差分隐私算法，通过实例特定机制在保持隐私的同时显著降低噪声并提升计算效率，实现了在大规模真实网络中高效且准确地估计网络主成分及求解最密 $k$ -子图问题。

Alireza Khayatian, Anil Vullikanti, Aritra Konar2026-03-06💻 cs

Variational Formulation of Particle Flow

本文从变分推断视角出发，将 log-homotopy 粒子流表述为 Fisher-Rao 梯度流，通过引入高斯及高斯混合变分密度推导了相应的粒子流算法，并证明了在线性高斯假设下该算法可退化为精确的 Daum-Huang 粒子流。

Yinzhuang Yi, Jorge Cortés, Nikolay Atanasov2026-03-06💻 cs

ReactDance: Hierarchical Representation for High-Fidelity and Coherent Long-Form Reactive Dance Generation

ReactDance 是一种基于扩散框架的舞蹈生成方法，通过引入分层有限标量量化（HFSQ）实现精细的空间控制，并利用分块局部上下文（BLC）策略高效生成具有长期时间一致性的高质量长序列反应式舞蹈。

Jingzhong Lin, Xinru Li, Yuanyuan Qi + 8 more2026-03-06💻 cs