Overcoming Valid Action Suppression in Unmasked Policy Gradient Algorithms
Die Arbeit identifiziert und beweist, dass unmaskierte Policy-Gradient-Algorithmen in Umgebungen mit zustandsabhängigen Aktionsvaliditäten durch geteilte Netzwerkgewichte dazu neigen, gültige Aktionen in noch nicht besuchten Zuständen systematisch zu unterdrücken, und zeigt, dass eine Klassifizierung der Machbarkeit diese Suppression effektiv verhindert.