Gradient Flow Polarizes Softmax Outputs towards Low-Entropy Solutions
Cet article démontre que le flot de gradient sur les modèles softmax à valeurs polarise intrinsèquement les sorties vers des solutions à faible entropie, offrant ainsi une explication théorique à des phénomènes empiriques des transformateurs tels que les « attention sinks » et les activations massives.