Taming the Adversary: Stable Minimax Deep Deterministic Policy Gradient via Fractional Objectives
Dit paper introduceert MMDDPG, een nieuw framework dat via een minimax-optimatie met een fractioneel doel de stabiliteit en robuustheid van deep reinforcement learning-agenten in continu besturingstaken verbetert door ongewenste verstoringen en modelonzekerheden effectief te weerstaan.