Adversarial Latent-State Training for Robust Policies in Partially Observable Domains
Este artigo propõe um quadro teórico e empírico para treinar políticas robustas em POMDPs com estados latentes iniciais adversários, demonstrando que a exposição direcionada a distribuições latentes deslocadas reduz significativamente as vulnerabilidades de pior caso, conforme validado por garantias de amostra finita e testes no jogo Battleship.