Gradient Flow Polarizes Softmax Outputs towards Low-Entropy Solutions
O artigo demonstra que o fluxo de gradiente em modelos de softmax com valores inerentemente direciona a otimização para soluções de baixa entropia, oferecendo uma explicação teórica para fenômenos empíricos como "attention sinks" e ativações massivas em transformers.