Overcoming Valid Action Suppression in Unmasked Policy Gradient Algorithms
Ce papier identifie et prouve théoriquement que l'entraînement non masqué en apprentissage par renforcement supprime systématiquement les actions valides dans des états non visités en raison du partage de paramètres, un problème que l'application de masques d'action résout en éliminant ce compromis entre régularisation d'entropie et efficacité d'échantillonnage.