Overcoming Valid Action Suppression in Unmasked Policy Gradient Algorithms
Questo articolo identifica e dimostra teoricamente come l'addestramento non mascherato nei gradienti di politica sopprima sistematicamente azioni valide in stati non ancora visitati a causa della condivisione dei parametri, proponendo la classificazione di fattibilità come soluzione efficace per superare tale limite senza ricorrere a maschere oracolo.