Adversarial Latent-State Training for Robust Policies in Partially Observable Domains
Dit artikel introduceert een theoretisch en empirisch raamwerk voor het trainen van robuuste beleidsstrategieën in deeltijds waarneembare omgevingen door middel van adversariele blootstelling aan verschuivingen in de initiële latente verdeling, wat leidt tot aanzienlijk verbeterde prestaties onder worst-case omstandigheden.