Overcoming Valid Action Suppression in Unmasked Policy Gradient Algorithms
Dit artikel identificeert en bewijst dat ongemaskerde policy gradient-algoritmes geldige acties systematisch onderdrukken in onbezochte staten door parameterdeling, een probleem dat leidt tot exponentiële afname van kansen en dat effectief wordt opgelost door action masking of validiteitsclassificatie.