cs.LG 篇论文 | Gist.Science

Exoskeleton Control through Learning to Reduce Biological Joint Moments in Simulations

本文提出了一种结合强化学习与数据驱动验证的框架，用于训练模拟环境下的外骨骼控制器以减小生物关节力矩，并通过公开步态数据集验证了其在不同速度与坡度下对关节力矩预测的高度一致性，同时揭示了从模拟到现实转移中存在的挑战。

Zihang You, Xianlian Zhou2026-03-10🤖 cs.LG

Helix: Evolutionary Reinforcement Learning for Open-Ended Scientific Problem Solving

本文提出了名为 HELIX 的层次化进化强化学习框架，通过结合上下文经验构建高质量候选解池与迭代策略优化，在圆堆积等开放科学问题及机器学习基准测试中，以较小模型实现了超越现有方法（包括 GPT-4o）的卓越性能。

Chang Su, Zhongkai Hao, Zhizhou Zhang, Zeyu Xia, Youjia Wu, Hang Su, Jun Zhu2026-03-10🤖 cs.LG

Evaluating Synthetic Data for Baggage Trolley Detection in Airport Logistics

该论文提出了一种基于 NVIDIA Omniverse 构建的阿尔及尔国际机场高保真数字孪生体的合成数据生成管道，用于解决行李推车检测中的隐私与数据多样性难题，实验表明结合少量真实标注数据的混合训练策略在显著降低标注成本的同时，其检测精度（mAP@50 达 0.94）可媲美甚至超越全量真实数据基线。

Abdeldjalil Taibi, Mohmoud Badlis, Amina Bensalem, Belkacem Zouilekh, Mohammed Brahimi2026-03-10🤖 cs.LG

Compressed Proximal Federated Learning for Non-Convex Composite Optimization on Heterogeneous Data

本文提出了一种名为 FedCEF 的新型联邦复合优化算法，通过解耦近端更新与通信、结合误差反馈与控制变量机制，有效解决了非凸复合优化中非平滑正则化、数据异构及有偏压缩带来的挑战，在极端压缩比下实现了通信高效且收敛稳健的分布式训练。

Pu Qiu, Chen Ouyang, Yongyang Xiong, Keyou You, Wanquan Liu, Yang Shi2026-03-10🤖 cs.LG

Partial Differential Equations in the Age of Machine Learning: A Critical Synthesis of Classical, Machine Learning, and Hybrid Methods

这篇综述论文通过统一的评估框架，批判性地对比了求解偏微分方程的经典数值方法与机器学习方法在认识论上的根本差异，阐明了两者在互补性、混合设计原则及未来前沿方向上的关键见解。

Mohammad Nooraiepour, Jakub Wiktor Both, Teeratorn Kadeethum, Saeid Sadeghnejad2026-03-10🤖 cs.LG

Beyond Surrogates: A Quantitative Analysis for Inter-Metric Relationships

该论文提出了一种统一的理论框架，通过贝叶斯最优集和遗憾转移量化评估指标间的关系，旨在解决离线指标提升无法转化为在线性能提升的“指标不匹配”问题，从而确保离线优化与在线目标在理论上的一致性。

Yuanhao Pu, Defu Lian, Enhong Chen2026-03-10🤖 cs.LG

Mitigating the Memory Bottleneck with Machine Learning-Driven and Data-Aware Microarchitectural Techniques

该论文针对现代计算系统中日益严重的内存瓶颈问题，主张将微架构设计从数据无关转向数据驱动和数据感知，通过提出四种结合轻量级机器学习与数据语义特征的机制（如强化学习预取器和感知器预测器），显著提升了系统的性能与能效。

Rahul Bera2026-03-10🤖 cs.LG

Scalable Training of Mixture-of-Experts Models with Megatron Core

本文介绍了 Megatron Core 中针对混合专家（MoE）模型可扩展训练的系统级协同优化方案，通过整合内存、通信和计算层面的多项创新技术，在 NVIDIA GB300/GB200 集群上实现了 DeepSeek-V3 和 Qwen3 等超大规模模型的高效、生产就绪型训练。

Zijie Yan (NVIDIA), Hongxiao Bai (NVIDIA), Xin Yao (NVIDIA), Dennis Liu (NVIDIA), Tong Liu (NVIDIA), Hongbin Liu (NVIDIA), Pingtian Li (NVIDIA), Evan Wu (NVIDIA), Shiqing Fan (NVIDIA), Li Tao (NVIDIA), Robin Zhang (NVIDIA), Yuzhong Wang (NVIDIA), Shifang Xu (NVIDIA), Jack Chang (NVIDIA), Xuwen Chen (NVIDIA), Kunlun Li (NVIDIA), Yan Bai (NVIDIA), Gao Deng (NVIDIA), Nan Zheng (NVIDIA), Vijay Anand Korthikanti (NVIDIA), Abhinav Khattar (NVIDIA), Ethan He (NVIDIA), Soham Govande (NVIDIA), Sangkug Lym (NVIDIA), Zhongbo Zhu (NVIDIA), Qi Zhang (NVIDIA), Haochen Yuan (NVIDIA), Xiaowei Ren (NVIDIA), Deyu Fu (NVIDIA), Tailai Ma (NVIDIA), Shunkang Zhang (NVIDIA), Jiang Shao (NVIDIA), Ray Wang (NVIDIA), Santosh Bhavani (NVIDIA), Xipeng Li (NVIDIA), Chandler Zhou (NVIDIA), David Wu (NVIDIA), Yingcan Wei (NVIDIA), Ashwath Aithal (NVIDIA), Michael Andersch (NVIDIA), Mohammad Shoeybi (NVIDIA), Jiajie Yao (NVIDIA), June Yang (NVIDIA)2026-03-10🤖 cs.LG

Global Convergence of Average Reward Constrained MDPs with Neural Critic and General Policy Parameterization

该论文提出了一种结合神经评论家估计与自然策略梯度的原始 - 对偶算法，利用神经切线核理论证明了在一般策略参数化和多层神经网络评论家设置下，无限时域约束马尔可夫决策过程（CMDP）的平均奖励问题具有全局收敛性及约束违反率保证。

Anirudh Satheesh, Pankaj Kumar Barman, Washim Uddin Mondal, Vaneet Aggarwal2026-03-10🤖 cs.LG

Step-Size Decay and Structural Stagnation in Greedy Sparse Learning

本文从稀疏学习的视角重新审视了幂松弛贪婪算法中步长衰减过快（ $\alpha>1$ ）导致的收敛失败问题，通过理论推导与数值实验揭示了即使在高维稀疏设置下，过度衰减的步长调度也会因特征相干性引发结构性停滞现象。

Pablo M. Berná2026-03-10🤖 cs.LG

Deep Incentive Design with Differentiable Equilibrium Blocks

该论文提出了名为“深度激励设计”（DID）的新框架，通过引入与博弈无关的可微均衡块（DEB）模块，利用单一神经网络统一解决了涵盖合同设计、机器调度及逆均衡问题在内的多种复杂激励设计任务，能够高效处理不同规模和参数的博弈场景。

Vinzenz Thoma, Georgios Piliouras, Luke Marris2026-03-10🤖 cs.LG

Reverse Distillation: Consistently Scaling Protein Language Model Representations

该论文提出了“反向蒸馏”框架，通过将大模型表示分解为由小模型引导的正交子空间，构建出具有嵌套结构的嵌入，从而解决了蛋白质语言模型缩放性能不佳的问题，使其在相同维度下能持续超越小模型并达到最佳性能。

Darius Catrina, Christian Bepler, Samuel Sledzieski, Rohit Singh2026-03-10🤖 cs.LG

A Lightweight MPC Bidding Framework for Brand Auction Ads

本文提出了一种专为品牌广告竞价设计的轻量级模型预测控制（MPC）框架，该框架利用在线保序回归直接从流数据构建单调模型，无需复杂机器学习即可在低计算开销下实现高效的实时出价与成本管控。

Yuanlong Chen, Bowen Zhu, Bing Xia, Yichuan Wang2026-03-10🤖 cs.LG

Hide and Find: A Distributed Adversarial Attack on Federated Graph Learning

本文提出了一种名为 FedShift 的新型两阶段“藏与寻”分布式对抗攻击方法，通过在联邦图学习训练前注入隐藏移位器并在训练后利用全局模型高效生成扰动，在显著降低时间成本的同时实现了高攻击成功率并有效规避了主流防御算法。

Jinshan Liu, Ken Li, Jiazhe Wei, Bin Shi, Bo Dong2026-03-10🤖 cs.LG

Uncertainty-Gated Generative Modeling

该论文提出了不确定性门控生成建模（UGGM）框架，通过将其作为内部控制信号来调节表征、传播与生成过程，并基于弱创新自编码器（WIAE-GPF）实现了显著的风险敏感型金融时间序列预测性能提升，在 NYISO 数据集上将均方误差降低了 63.5%。

Xingrui Gu, Haixi Zhang2026-03-10🤖 cs.LG

Using GPUs And LLMs Can Be Satisfying for Nonlinear Real Arithmetic Problems

本文提出了名为 GANRA 的新型 SMT 求解器，通过结合大语言模型与 GPU 加速技术，在求解无量化非线性实算术问题上显著超越了现有技术，特别是在 Sturm-MBO 基准测试中实现了五倍以上的实例证明数量提升和二十倍以上的运行速度优化。

Christopher Brix, Julia Walczak, Nils Lommen, Thomas Noll2026-03-10🤖 cs.LG

Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

该论文针对现代代码生成模型的训练瓶颈，提出了包含条件截断掩码等三项创新的 MicroCoder-GRPO 算法，并配套发布了更具挑战性的 MicroCoder-Dataset 和更高效的 MicroCoder-Evaluator，通过大量实验验证了其在 LiveCodeBench v6 上显著的性能提升及 34 项关键训练洞察。

Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Lindbladian Learning with Neural Differential Equations

该论文提出了一种结合最大似然估计与神经微分方程的“林德布拉德学习”方法，通过在多个瞬态时间点利用泡利测量数据，成功从含噪实验数据中鲁棒地推断出开放量子系统的耗散动力学生成器。

Timothy Heightman, Roman Aseguinolaza Gallo, Edward Jiang, JRM Saavedra, Antonio Acín, Marcin Płodzien2026-03-10⚛️ quant-ph

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

该论文提出了包含自动难度过滤的四阶段数据处理框架，构建了强调新颖性与挑战性的 MicroCoder 数据集，并通过强化学习验证了其在提升代码生成模型解决高难度问题能力方面的显著优势。

Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

ProgAgent:A Continual RL Agent with Progress-Aware Rewards

ProgAgent 提出了一种结合进度感知奖励学习与 JAX 原生高吞吐架构的持续强化学习智能体，通过从无人标注专家视频中提取密集奖励、引入对抗性正则化以应对分布偏移，并融合 PPO 与核心集回放等机制，有效解决了机器人终身学习中的灾难性遗忘与奖励指定难题，在多个基准测试及真实机器人任务中显著超越了现有基线。

Jinzhou Tan, Gabriel Adineera, Jinoh Kim2026-03-10🤖 cs.LG