Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

Il paper introduce la Batch Normalization, una tecnica che accelera l'addestramento delle reti neurali profonde riducendo lo spostamento interno della covariata attraverso la normalizzazione degli input di ogni layer, permettendo l'uso di tassi di apprendimento più elevati, migliorando la regolarizzazione e raggiungendo risultati di classificazione su ImageNet superiori a quelli umani.

Sergey Ioffe, Christian Szegedy2015-02-11🤖 cs.LG

Scaling Laws for Neural Language Models

Il paper stabilisce leggi empiriche secondo cui le prestazioni dei modelli linguistici seguono una legge di potenza rispetto a dimensioni del modello, dataset e calcolo, dimostrando che l'allocazione ottimale delle risorse computazionali prevede l'addestramento di modelli molto grandi su dataset relativamente piccoli e l'arresto dell'addestramento ben prima della convergenza.

Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei2020-01-23🤖 cs.LG

Improving neural networks by preventing co-adaptation of feature detectors

Il paper dimostra che l'uso della tecnica di "dropout", che consiste nell'omettere casualmente metà dei rilevatori di caratteristiche durante l'addestramento, riduce drasticamente l'overfitting prevenendo le co-adattazioni complesse e migliorando significativamente le prestazioni su compiti di riconoscimento vocale e di oggetti.

Geoffrey E. Hinton, Nitish Srivastava, Alex Krizhevsky, Ilya Sutskever, Ruslan R. Salakhutdinov2012-07-03💻 cs.NE