Time-Scale Coupling Between States and Parameters in Recurrent Neural Networks
Cet article démontre que les mécanismes de porte dans les réseaux de neurones récurrents agissent comme des préconditionneurs de l'optimisation pilotés par les données, en couplant les échelles de temps des états et des paramètres pour générer des taux d'apprentissage effectifs dépendants du délai et de la direction, ce qui explique la robustesse de l'entraînement de ces architectures.