When Learning Rates Go Wrong: Early Structural Signals in PPO Actor-Critic
Die Studie zeigt, dass der Overfitting-Underfitting-Indicator (OUI) bereits zu einem frühen Trainingszeitpunkt von 10 % als wirksames Signal dient, um in PPO-Actor-Critic-Systemen stabile Lernraten von instabilen zu unterscheiden und dadurch ineffiziente Hyperparametersuchen durch eine präzise Früherkennung zu vermeiden.