Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

El artículo presenta la Normalización por Lotes (Batch Normalization), una técnica que acelera el entrenamiento de redes neuronales profundas al normalizar las entradas de cada capa para reducir el desplazamiento de covarianza interno, lo que permite utilizar tasas de aprendizaje más altas, una inicialización menos crítica y actúa como regularizador, logrando así un rendimiento superior en la clasificación de imágenes.

¡Hola!…

Sergey Ioffe, Christian Szegedy2015-02-11🤖 cs.LG

Scaling Laws for Neural Language Models

El artículo establece leyes empíricas de escalado que demuestran que el rendimiento de los modelos de lenguaje sigue una ley de potencias en función del tamaño del modelo, el conjunto de datos y la capacidad de cómputo, revelando que la asignación óptima de recursos implica entrenar modelos muy grandes en conjuntos de datos relativamente pequeños y detener el entrenamiento antes de la convergencia completa.

¡Hola!…

Jared Kaplan, Sam McCandlish, Tom Henighan + 7 more2020-01-23🤖 cs.LG