Adversarial Latent-State Training for Robust Policies in Partially Observable Domains
Este artículo presenta un marco teórico y empírico para entrenar políticas robustas en entornos parcialmente observables mediante un POMDP adversario que selecciona distribuciones latentes iniciales, demostrando que la exposición estructurada a estas distribuciones reduce significativamente las brechas de robustez y valida principios diagnósticos con garantías finitas.