Learnability Window in Gated Recurrent Neural Networks
Il paper sviluppa una teoria statistica che quantifica l'orizzonte temporale massimo di apprendimento nelle reti neurali ricorrenti, dimostrando come la geometria del decadimento dell'inviluppo del tasso di apprendimento efficace e la presenza di rumore gradiente a code pesanti determinino collettivamente le leggi di scala che definiscono la finestra di apprendibilità temporale.