Gradient Flow Polarizes Softmax Outputs towards Low-Entropy Solutions
Die Arbeit zeigt, dass die Gradientenfluss-Dynamik in Softmax-basierten Modellen, die als Kernbaustein von Self-Attention dienen, die Optimierung universell zu Lösungen mit niedriger Entropie treibt und damit Phänomene wie Attention Sinks und massive Aktivierungen theoretisch erklärt.