When Learning Rates Go Wrong: Early Structural Signals in PPO Actor-Critic
이 논문은 PPO actor-critic 학습에서 학습률 선택의 실패를 조기에 감지하기 위해 은닉 뉴런의 활성화 패턴 균형을 측정하는 OUI (Overfitting-Underfitting Indicator) 지표를 제안하고, 이를 통해 학습 초기 단계에서 성공적인 학습률을 효과적으로 선별할 수 있음을 실증합니다.