Policy Iteration Achieves Regularized Equilibrium under Time Inconsistency

本文针对一般熵正则化时间不一致随机控制问题,设计了一种基于探索性平衡哈密顿 - 雅可比 - 贝尔曼方程的策略迭代算法,并证明了该算法生成的策略和值函数能以指数速率收敛至平衡策略,从而在构造性证明全局解存在唯一性的同时解决了策略改进失效及目标值函数先验未知的难题。

Yu-Jui Huang, Xiang Yu, Keyu ZhangMon, 09 Ma🔢 math

Low-rank optimization methods based on projected projected-gradient descent that accumulate at Bouligand stationary points

本文提出了两种基于投影梯度下降的低秩优化方法,通过结合秩缩减机制或混合策略,确保在具有局部利普希茨连续梯度的代数簇上生成的序列其聚点均为布利甘德(Bouligand)驻点,从而在收敛性、设计简洁性及计算效率等方面展现出显著优势。

Guillaume Olikier, Kyle A. Gallivan, P. -A. AbsilFri, 13 Ma🔢 math