Actor-Accelerated Policy Dual Averaging for Reinforcement Learning in Continuous Action Spaces
Dit artikel introduceert actor-versnelde Policy Dual Averaging, een methode die de theoretische convergentievoordelen van PDA combineert met een geleerde actor-netwerk om de berekeningstijd in continue actie-ruimtes te verminderen en zo superieure prestaties te behalen ten opzichte van bestaande on-policy baselines zoals PPO.