Learnability Window in Gated Recurrent Neural Networks
Cet article établit une théorie statistique quantifiant la fenêtre temporelle maximale de l'apprentissage dans les réseaux de neurones récurrents à portes, démontrant que la géométrie de décroissance de l'enveloppe du taux d'apprentissage effectif et la nature à queues lourdes du bruit de gradient déterminent les régimes d'échelle de cette fenêtre.