Overcoming Valid Action Suppression in Unmasked Policy Gradient Algorithms
Este artigo identifica e prova teoricamente que o treinamento de políticas não mascaradas em ambientes com ações inválidas leva à supressão sistemática de ações válidas em estados não visitados devido ao compartilhamento de parâmetros, demonstrando que a classificação de viabilidade oferece uma solução eficaz que elimina essa falha sem a necessidade de máscaras de oráculo.