Gradient Flow Polarizes Softmax Outputs towards Low-Entropy Solutions
Il paper dimostra che il flusso gradiente nei modelli softmax basati su valori spinge intrinsecamente l'ottimizzazione verso soluzioni a bassa entropia, fornendo una spiegazione teorica per fenomeni empirici come i "attention sinks" e le massive activations nei transformer.