When Learning Rates Go Wrong: Early Structural Signals in PPO Actor-Critic
Dit artikel introduceert de Overfitting-Underfitting Indicator (OUI) als een efficiënt, vroeg signaal dat op basis van neuronale activatiepatronen al na 10% van de training succesvolle leerstappen in PPO-actor-critic modellen kan onderscheiden van instabiele of suboptimale configuraties.