When Learning Rates Go Wrong: Early Structural Signals in PPO Actor-Critic
Cette étude propose l'indicateur de surapprentissage-sous-apprentissage (OUI) comme un signal structurel précoce et efficace pour discriminer les taux d'apprentissage optimaux dans les algorithmes PPO, permettant d'identifier et d'élaguer les entraînements instables bien avant la convergence finale.