Learnability Window in Gated Recurrent Neural Networks
이 논문은 가중치 게이트 메커니즘과 적응형 최적화 알고리즘이 결합된 상태 공간 수송과 매개변수 업데이트 간의 상호작용을 설명하는 '유효 학습률 포락선'을 기반으로, 중력 분포를 따르는 그래디언트 노이즈 하에서 순환 신경망의 최대 학습 가능 시간 지평 이 포락선 감쇠 속도와 통계적 집중률에 의해 결정되는 로그, 다항, 지수적 스케일링 법칙을 규명했습니다.