Noise-Driven Escape from Metastable Phases explains Grokking in Deep Neural Networks
Este artigo explica o fenômeno do grokking em redes neurais profundas como uma fuga de estados metaestáveis impulsionada por ruído durante transições de fase de primeira ordem induzidas pela regularização L2, onde o ruído do gradiente descendente estocástico eventualmente permite que o modelo supere barreiras de energia e alcance a generalização após um longo período de overfitting.