Marginals Before Conditionals
Il paper descrive un compito minimo che dimostra come le reti neurali apprendano inizialmente la distribuzione marginale, stabilizzandosi su un plateau di errore pari a log K, prima di subire una transizione collettiva verso l'apprendimento completo della condizionale, un processo governato dal rumore del gradiente e preceduto dall'assemblaggio interno di un meccanismo di routing.