Scalable Training of Mixture-of-Experts Models with Megatron Core
本文介绍了 Megatron Core 中针对混合专家(MoE)模型可扩展训练的系统级协同优化方案,通过整合内存、通信和计算层面的多项创新技术,在 NVIDIA GB300/GB200 集群上实现了 DeepSeek-V3 和 Qwen3 等超大规模模型的高效、生产就绪型训练。
10309 篇论文
本文介绍了 Megatron Core 中针对混合专家(MoE)模型可扩展训练的系统级协同优化方案,通过整合内存、通信和计算层面的多项创新技术,在 NVIDIA GB300/GB200 集群上实现了 DeepSeek-V3 和 Qwen3 等超大规模模型的高效、生产就绪型训练。
该论文提出了一种结合神经评论家估计与自然策略梯度的原始 - 对偶算法,利用神经切线核理论证明了在一般策略参数化和多层神经网络评论家设置下,无限时域约束马尔可夫决策过程(CMDP)的平均奖励问题具有全局收敛性及约束违反率保证。
本文从稀疏学习的视角重新审视了幂松弛贪婪算法中步长衰减过快()导致的收敛失败问题,通过理论推导与数值实验揭示了即使在高维稀疏设置下,过度衰减的步长调度也会因特征相干性引发结构性停滞现象。
该论文提出了名为“深度激励设计”(DID)的新框架,通过引入与博弈无关的可微均衡块(DEB)模块,利用单一神经网络统一解决了涵盖合同设计、机器调度及逆均衡问题在内的多种复杂激励设计任务,能够高效处理不同规模和参数的博弈场景。
该论文提出了“反向蒸馏”框架,通过将大模型表示分解为由小模型引导的正交子空间,构建出具有嵌套结构的嵌入,从而解决了蛋白质语言模型缩放性能不佳的问题,使其在相同维度下能持续超越小模型并达到最佳性能。
本文提出了一种专为品牌广告竞价设计的轻量级模型预测控制(MPC)框架,该框架利用在线保序回归直接从流数据构建单调模型,无需复杂机器学习即可在低计算开销下实现高效的实时出价与成本管控。
本文提出了一种名为 FedShift 的新型两阶段“藏与寻”分布式对抗攻击方法,通过在联邦图学习训练前注入隐藏移位器并在训练后利用全局模型高效生成扰动,在显著降低时间成本的同时实现了高攻击成功率并有效规避了主流防御算法。
该论文提出了不确定性门控生成建模(UGGM)框架,通过将其作为内部控制信号来调节表征、传播与生成过程,并基于弱创新自编码器(WIAE-GPF)实现了显著的风险敏感型金融时间序列预测性能提升,在 NYISO 数据集上将均方误差降低了 63.5%。
本文提出了名为 GANRA 的新型 SMT 求解器,通过结合大语言模型与 GPU 加速技术,在求解无量化非线性实算术问题上显著超越了现有技术,特别是在 Sturm-MBO 基准测试中实现了五倍以上的实例证明数量提升和二十倍以上的运行速度优化。
该论文针对现代代码生成模型的训练瓶颈,提出了包含条件截断掩码等三项创新的 MicroCoder-GRPO 算法,并配套发布了更具挑战性的 MicroCoder-Dataset 和更高效的 MicroCoder-Evaluator,通过大量实验验证了其在 LiveCodeBench v6 上显著的性能提升及 34 项关键训练洞察。
该论文提出了一种结合最大似然估计与神经微分方程的“林德布拉德学习”方法,通过在多个瞬态时间点利用泡利测量数据,成功从含噪实验数据中鲁棒地推断出开放量子系统的耗散动力学生成器。
该论文提出了包含自动难度过滤的四阶段数据处理框架,构建了强调新颖性与挑战性的 MicroCoder 数据集,并通过强化学习验证了其在提升代码生成模型解决高难度问题能力方面的显著优势。
ProgAgent 提出了一种结合进度感知奖励学习与 JAX 原生高吞吐架构的持续强化学习智能体,通过从无人标注专家视频中提取密集奖励、引入对抗性正则化以应对分布偏移,并融合 PPO 与核心集回放等机制,有效解决了机器人终身学习中的灾难性遗忘与奖励指定难题,在多个基准测试及真实机器人任务中显著超越了现有基线。
本文针对视觉 Transformer(ViT)在持续学习中出现的可塑性丧失问题,揭示了注意力模块的不稳定性与 MLP 模块的退化机制,并提出了基于在线曲率估计的几何感知优化器 ARROW,通过自适应调整梯度方向有效恢复并维持模型对新任务的学习能力。
该论文利用最小观测逆强化学习(MO-IRL)算法,通过引入时变权重证明了单一且通用的代价函数能够高精度地预测人类到达运动轨迹,从而支持了支配此类运动的统一最优性原理的存在。
该论文提出了一种基于复射影空间参数化的深度学习框架,通过消除无线信道与预编码向量中的全局相位冗余,显著提升了多用户 MISO 系统预编码的频谱效率与泛化能力。
本文提出了一种将物理信息神经网络推广至非线性偏微分方程的方法,通过多头架构和正交约束构建鲁棒的解空间嵌入,并利用主成分分析成功提取了粘滞 Burgers 方程中由少量潜在模式主导的物理特征。
该研究通过在 CSIRO 牧场生物量基准上的系统评估揭示了“融合复杂度反转”现象,即在数据稀缺的农业场景下,简单的双层门控深度卷积模块优于复杂的跨视图注意力或 SSM 架构,且骨干网络的预训练规模对性能的影响远超融合机制的选择。
该论文提出了一种基于双层优化的可迁移优化网络框架,通过分两步训练通用特征提取器和特定任务域适配器,有效利用跨域多样化数据解决图像重建中训练数据稀缺的难题,并在磁共振成像等任务中实现了高质量的重建效果。
本文提出了一种名为“梯度迭代时序差分学习”的新算法,通过计算移动目标的梯度来改进迭代 TD 学习,使其在保持梯度 TD 方法稳定性的同时,在 Atari 等多个基准测试中展现出与半梯度方法相媲美的学习速度。