Gradient Flow Polarizes Softmax Outputs towards Low-Entropy Solutions

Each language version is independently generated for its own context, not a direct translation.

De Verborgen Kracht van de "Softmax": Waarom AI's zich concentreren op één ding

Stel je voor dat je een enorme groep mensen (een Transformer-model) hebt die samen een raadsel moeten oplossen. In het hart van deze groep zit een slimme manager: de Softmax. Deze manager moet beslissen welke van de vele mensen in de groep het belangrijkst is om naar te luisteren.

Normaal gesproken zou je denken: "Laten we naar iedereen luisteren, maar wat meer naar de experts." Maar dit paper ontdekt iets verrassends: door de manier waarop de manager leert (via gradient flow, ofwel het geleidelijk verbeteren van fouten), wordt de manager extreem selectief. Uiteindelijk luistert hij bijna uitsluitend naar één persoon en negeert hij de rest volledig.

Hier is hoe dat werkt, stap voor stap:

1. De Manager en de Teamleden (Softmax & Waarden)

In een AI-model is er een matrix van "waarden" (de teamleden met hun kennis) en een vector van "scores" (hoe belangrijk de manager ze vindt).

De scores worden berekend met een functie genaamd Softmax. Deze functie zorgt ervoor dat alle scores optellen tot 100%.
Het paper onderzoekt wat er gebeurt als je deze manager laat "leren" door fouten te maken en te corrigeren (gradient flow).

2. De "Populaire Kind" Effect (Polarisatie)

Het paper laat zien dat het leerproces van de manager een polariserend effect heeft.

De Analogie: Stel je een schoolplein voor waar kinderen (de tokens) staan. Aanvankelijk kijkt de manager naar iedereen met ongeveer evenveel aandacht.
Het Leerproces: Zodra de manager merkt dat het kijken naar kind A iets beter werkt dan naar kind B, wordt hij iets enthousiaster over kind A.
De Kettingreactie: Omdat de Softmax-functie werkt als een vergrootglas, versterkt dit kleine voordeel zich. Kind A wordt nu nog belangrijker, waardoor de manager nog meer naar A kijkt. Kind B wordt daardoor nog minder belangrijk.
Het Eindresultaat: Na verloop van tijd is het alsof de manager alleen nog maar naar één kind kijkt (vaak het eerste kind in de rij) en de rest van de school volledig negeert. In de wiskundige taal noemen we dit een "low-entropy" oplossing: de aandacht is niet verspreid, maar geconcentreerd op één punt.

3. De "Aandachtsgaten" (Attention Sinks)

Dit fenomeen verklaart een raadselachtig gedrag dat we zien in grote taalmodellen (zoals ChatGPT), genaamd "Attention Sinks".

Vaak zien we dat de AI extreem veel aandacht schenkt aan het eerste woord van een zin (bijvoorbeeld het woord "BOS" of een punt), zelfs als dat woord niet relevant lijkt voor de vraag.
De Oorzaak: Volgens dit paper is dit geen toeval en ook niet noodzakelijk omdat het eerste woord zo belangrijk is. Het is een bijwerking van het leerproces. De "manager" (Softmax) leert dat het veiligst is om zijn aandacht op één vaste plek te vestigen, omdat dat het snelst leidt tot een oplossing. Het is alsof de manager een "anker" nodig heeft om niet in paniek te raken, en kiest daarvoor het eerste woord.

4. Waarom niet altijd?

Het paper toont ook aan dat dit effect afhangt van de "gereedschapskist" die je gebruikt:

Softmax: Leidt tot extreme concentratie (één winnaar, rest verliezers).
Sigmoid of Lineair: Als je de manager een ander gereedschap geeft (zoals een simpele lineaire functie of een Sigmoid), gebeurt dit niet. De aandacht blijft dan verspreid over meerdere mensen.
Conclusie: Het is de specifieke combinatie van de Softmax-functie en de leerregels die deze extreme selectiviteit veroorzaakt.

5. Wat betekent dit voor de toekomst?

Dit heeft twee belangrijke gevolgen:

Waarom AI's soms gek doen: Omdat de AI zo sterk gefocust is op één token, kan hij soms de rest van de zin vergeten. Als je dat ene token verandert, kan de hele betekenis van de zin omkeren (zoals in het paper wordt getoond met "flip-rate" experimenten).
Verbetering: Als we willen dat AI's beter samenwerken en minder "blind" zijn voor één woord, moeten we misschien de manier waarop we de Softmax gebruiken aanpassen, of zorgen dat het leerproces niet zo'n extreme concentratie beloont.

Samenvattend in één zin:

Het paper ontdekt dat de manier waarop AI's leren (via gradient flow) samen met de Softmax-functie, ze dwingt om extreem selectief te worden: ze vergeten bijna alles en focussen zich obsessief op één enkel woord, wat verklaart waarom we soms vreemde "aandachtsgaten" zien in moderne taalmodellen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerd technisch samenvatting van het artikel "Gradient Flow Polarizes Softmax Outputs towards Low-Entropy Solutions" in het Nederlands.

Titel: Gradient Flow Polariseert Softmax-outputs naar Oplossingen met Lage Entropie

Auteurs: Aditya Varre, Mark Rofin, Nicolas Flammarion (EPFL)
Datum: Preprint, maart 2026

1. Probleemstelling

Ondanks het wijdverbreide succes van Large Language Models (LLMs) en Transformers, blijft het inzicht in de interne mechanismen beperkt. Een specifiek fenomeen dat veel aandacht trekt, is de vorming van "attention sinks": patronen waarbij de aandacht (attention) extreem geconcentreerd is op één enkel token (vaak het eerste token in een sequentie), terwijl andere tokens genegeerd worden.

De centrale vraag van dit artikel is: Is deze sparsificatie (verarming van de verdeling) een functionele vereiste van de taak, of is het een impliciete bias veroorzaakt door de optimalisatiedynamiek en de parameterisatie van het model?

Specifiek onderzoeken de auteurs of de Softmax-functie, gecombineerd met gradient flow (de continue limiet van gradient descent), inherent neigt naar oplossingen met lage entropie (d.w.z. één-hot vectoren), zelfs wanneer er vele dichte oplossingen bestaan die dezelfde voorspelling geven.

2. Methodologie

De auteurs analyseren een vereenvoudigd maar fundamenteel bouwblok van self-attention: het value-softmax model.

Model: In plaats van een volledige Transformer te analyseren, isoleren ze de kernberekening van een enkele attention head: $\beta = V\sigma(a)$ $β = V σ (a)$ .
- $V$ : Een leerbare waarde-matrix.
- $a$ : Een leerbaar score-vector.
- $\sigma$ : De Softmax-functie.
- Het doel is om een loss-functie $L(V, a) = \ell(V\sigma(a))$ te minimaliseren.
Analyse: Ze gebruiken gradient flow (differentiaalvergelijkingen die de continue tijdslimiet van gradient descent beschrijven) om de dynamiek van de parameters te analyseren. Dit stelt hen in staat om de impliciete bias van de optimalisatie te bestuderen zonder de complexiteit van discrete stappen of stochastische ruis.
Verliesfuncties: De analyse wordt uitgevoerd voor verschillende doelen:
- Logistiek verlies (voor classificatie).
- Kwikverlies (voor regressie).
- KL-divergentie.
Vergelijking: Ze vergelijken Softmax met andere niet-lineariteiten (zoals Sigmoid, ReLU) en normalisatieschema's om te bepalen welke componenten de polarisatie veroorzaken.

3. Belangrijkste Bijdragen en Theoretische Resultaten

A. Polarisatie door Gradient Flow (Logistiek Verlies)

Voor het logistieke verlies bewijzen de auteurs dat gradient flow de aandachtsscores $s = \sigma(a)$ inherent polariseert naar een één-hot vector (lage entropie).

Replicator-dynamiek: De dynamiek van de scores wordt geanalyseerd als een systeem dat lijkt op replicator-dynamiek uit de evolutionaire speltheorie. De verandering in een score wordt gedreven door het verschil tussen de "fitness" van dat token en het gewogen gemiddelde van alle scores.
Repulsie: De gradient flow creëert een repulsieve kracht tussen de coördinaten. Scores die boven het gemiddelde liggen, worden versterkt, terwijl scores onder het gemiddelde afnemen.
Convergentie: Onder redelijke aannames over initialisatie (waarbij de scores en projecties een strikte orde hebben), bewijzen ze dat:
1. De volgorde van de scores behouden blijft (geen kruising).
2. De kloof tussen de hoogste en de andere scores groeit.
3. De loss naar nul convergeert en de aandachtsscores $s(t)$ convergeren naar een één-hot vector ( $\lim_{t\to\infty} s_0(t) = 1$ ).
4. Dit betekent dat het model een extreme representatie kiest, zelfs als een lineaire combinatie van alle tokens de oplossing zou kunnen zijn.

B. Uitbreiding naar Regressie en Andere Functies

Regressie: Bij kwikverlies (regressie) treedt ook polarisatie op, maar deze is partiëel. De sterkte van de polarisatie hangt af van de convergentiesnelheid van de gradient. Bij slecht geconditioneerde problemen (langzame convergentie) is de sparsificatie sterker. In tegenstelling tot classificatie convergeert de verdeling hier niet altijd volledig naar één-hot.
Andere Activaties: Als Softmax wordt vervangen door element-voor-element niet-lineariteiten zoals Sigmoid of ReLU, verdwijnt het polarisatie-effect. Dit komt omdat de Jacobiaan van Softmax een specifieke "gemiddelde-centering" term bevat ( $\text{diag}(s) - ss^\top$ ) die de interactie tussen coördinaten mogelijk maakt. Zonder deze structuur (zoals bij Sigmoid) treedt er geen "fitness minus gemiddelde fitness" interactie op.
Normalisatie: Alleen normalisaties die deze interactiestructuur behouden (zoals Softmax of $f(x)=x^2$ ) leiden tot polarisatie.

4. Empirische Validatie en Implicaties

De auteurs verbinden hun theoretische bevindingen aan observaties in echte Transformer-modellen:

Attention Sinks: De theorie verklaart waarom attention sinks ontstaan. Omdat gradient flow de verdeling naar één token duwt, zal de head die het eerst een voordeel heeft (bijv. door initialisatie of data-structuur) de aandacht volledig naar zich toe trekken. Dit verklaart waarom sinks vaak het eerste token (BOS) of specifieke delimiters zijn.
Massive Activations: De polarisatie leidt ook tot "massive activations" (extreem grote waarden in bepaalde feature-dimensies), omdat de waarde-matrix $V$ zich aanpast om de één-hot selectie te ondersteunen.
Experimenten:
- Induction Heads: In experimenten met Transformers getraind op een "induction task" (voorspellen van bigrams) bleek dat modellen met Softmax aanzienlijk vaker attention sinks vormen dan modellen met Sigmoid of lineaire attention.
- Pretrained LLMs: Analyse van een 7B parameter model (Softmax vs. Sigmoid) toonde aan dat Softmax-modellen significant sparser zijn en vaker naar één token kijken dan hun Sigmoid-gegenen.
- Token Invloed: Door de lage entropie worden de voorspellingen van het model extreem gevoelig voor veranderingen in het ene "winnaar"-token, wat een onbalans in token-invloed creëert.

5. Significatie en Conclusie

Dit werk biedt een fundamentele theoretische verklaring voor een veelvoorkomend, maar tot nu toe slecht begrepen fenomeen in LLMs.

Impliciete Bias: Het toont aan dat de keuze van de Softmax-functie in self-attention niet neutraal is; het introduceert een sterke impliciete bias naar lage-entropie oplossingen, ongeacht of de taak dat vereist.
Architecturale Keuzes: Het verklaart waarom alternatieven voor Softmax (zoals Sigmoid of Linear Attention) soms geen attention sinks vertonen.
Robuustheid: Het waarschuwt voor de gevaren van deze bias: het model kan te afhankelijk worden van één enkel token, wat de robuustheid kan ondermijnen en de interpretatie van het model kan verstoren.

Kortom, de paper concludeert dat de "sparsificatie" in Transformers niet per se een bewuste keuze van het model is om de taak op te lossen, maar een onvermijdelijk gevolg van de dynamiek van gradient flow op de Softmax-parameterisatie.