Marginals Before Conditionals
El artículo demuestra que las redes neuronales aprenden primero la distribución marginal antes que la condicional completa, manteniéndose en un plateau de pérdida determinado por la ambigüedad del problema hasta que un mecanismo de enrutamiento interno y la dinámica del ruido de los gradientes facilitan una transición colectiva hacia la solución condicional óptima.