Policy Iteration Achieves Regularized Equilibrium under Time Inconsistency

本文针对一般熵正则化时间不一致随机控制问题,设计了一种基于探索性平衡哈密顿 - 雅可比 - 贝尔曼方程的策略迭代算法,并证明了该算法生成的策略和值函数能以指数速率收敛至平衡策略,从而在构造性证明全局解存在唯一性的同时解决了策略改进失效及目标值函数先验未知的难题。

Yu-Jui Huang, Xiang Yu, Keyu Zhang2026-03-09🔢 math