A Globally Convergent Third-Order Newton Method via Unified Semidefinite Programming Subproblems

本文提出了一种名为 ALMTON 的自适应 Levenberg-Marquardt 三阶牛顿法,该方法通过统一的可解半定规划子问题实现了首个全局收敛的非正则化三阶牛顿法,在保持每步仅求解一次半定规划的同时,证明了其具有 O(ϵ2)O(\epsilon^{-2}) 的最坏情况评估复杂度,并在数值实验中展现出比传统二阶方法及现有三阶方法更优的全局收敛性与迭代效率。

Yubo Cai, Wenqi Zhu, Coralia Cartis, Gioele ZardiniWed, 11 Ma🔢 math

On the Width Scaling of Neural Optimizers Under Matrix Operator Norms I: Row/Column Normalization and Hyperparameter Transfer

该论文通过引入具有层可组合性的均值归一化算子范数,将 AdamW 和 Muon 等优化器统一为矩阵算子范数下的最速下降法,从而提出了能实现宽度无关平滑度保证及跨宽度超参数迁移的 MOGA 优化器,并在 GPT-2 和 LLaMA 的大规模预训练中展现出比 Muon 更优的效率与稳定性。

Ruihan Xu, Jiajin Li, Yiping LuWed, 11 Ma🤖 cs.LG

Bilevel Optimization and Heuristic Algorithms for Integrating Latent Demand into the Design of Large-Scale Transit Systems

该论文提出了一种名为 TN-DA 的双层优化模型及五种高效启发式算法,旨在通过整合潜在需求(即用户采纳行为)来优化大规模公交网络设计,并通过真实案例验证了该方法能在保证关键采纳属性的同时,比精确算法更快速地获得高质量解。

Hongzhao Guan, Beste Basciftci, Pascal Van HentenryckTue, 10 Ma🔢 math

Erratum and original of Port-Hamiltonian structure of interacting particle systems and its mean-field limit

本文修正了关于相互作用粒子系统及其平均场极限的端口哈密顿结构原论文中的错误,在补充吸引性假设后证明了轨迹的相对紧性,并基于巴巴拉特定理和反例完善了相关收敛性分析,同时利用最小端口哈密顿形式揭示了子系统间的广义质量 - 弹簧 - 阻尼结构及其耦合机制。

Jannik Daun, Daniel Jannik Happ, Birgit Jacob, Claudia TotzeckTue, 10 Ma🔢 math

Robustness to Model Approximation, Model Learning From Data, and Sample Complexity in Wasserstein Regular MDPs

该论文研究了基于 Wasserstein 距离的离散时间随机最优控制模型近似下的鲁棒性,证明了在折扣成本和平均成本准则下,最优策略的性能损失与转移核之间的 Wasserstein-1 距离成正比,并进一步将该理论应用于扰动估计和实证模型学习,给出了相应的样本复杂度界。

Yichen Zhou, Yanglei Song, Serdar YükselTue, 10 Ma🔢 math