Gradient Flow Polarizes Softmax Outputs towards Low-Entropy Solutions
Dit artikel onthult dat gradiëntstroom in softmax-gebaseerde modellen, zoals die in transformers worden gebruikt, de optimalisatie inherent stuurt naar oplossingen met lage entropie, wat een theoretisch mechanisme biedt voor fenomenen als attention sinks en massale activaties.