Overcoming Valid Action Suppression in Unmasked Policy Gradient Algorithms
Este artículo demuestra que el entrenamiento sin enmascarado en aprendizaje por refuerzo suprime exponencialmente las acciones válidas en estados no visitados debido al compartimiento de parámetros, un problema que la clasificación de factibilidad permite resolver sin necesidad de máscaras de oráculo.