Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

El artículo presenta la Normalización por Lotes (Batch Normalization), una técnica que acelera el entrenamiento de redes neuronales profundas al normalizar las entradas de cada capa para reducir el desplazamiento de covarianza interno, lo que permite utilizar tasas de aprendizaje más altas, una inicialización menos crítica y actúa como regularizador, logrando así un rendimiento superior en la clasificación de imágenes.

Sergey Ioffe, Christian Szegedy2015-02-11🤖 cs.LG

Scaling Laws for Neural Language Models

El artículo establece leyes empíricas de escalado que demuestran que el rendimiento de los modelos de lenguaje sigue una ley de potencias en función del tamaño del modelo, el conjunto de datos y la capacidad de cómputo, revelando que la asignación óptima de recursos implica entrenar modelos muy grandes en conjuntos de datos relativamente pequeños y detener el entrenamiento antes de la convergencia completa.

Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei2020-01-23🤖 cs.LG

Improving neural networks by preventing co-adaptation of feature detectors

El artículo presenta el método de "dropout", que mejora el rendimiento de las redes neuronales en tareas de reconocimiento al prevenir el sobreajuste mediante la omisión aleatoria de detectores de características durante el entrenamiento, lo que fomenta la robustez y establece nuevos récords en benchmarks.

Geoffrey E. Hinton, Nitish Srivastava, Alex Krizhevsky, Ilya Sutskever, Ruslan R. Salakhutdinov2012-07-03💻 cs.NE