How Attention Sinks Emerge in Large Language Models: An Interpretability Perspective

Each language version is independently generated for its own context, not a direct translation.

Hoe een "Aandachtsgat" ontstaat in de hersenen van een AI: Een Simpele Uitleg

Stel je voor dat een groot taalmodel (zoals de AI die dit artikel schreef) een enorme bibliotheek is met duizenden bibliothecarissen die samenwerken om een verhaal te schrijven. Elke bibliothecaris (een "laag" in het model) moet beslissen welke woorden uit het verleden belangrijk zijn om het volgende woord te voorspellen.

Vaak merken onderzoekers een raar fenomeen op: de bibliothecarissen blijven maar naar het aller eerste woord in de zin staren, alsof ze daar een magneet op hebben geplakt. Ze negeren bijna alles ernaast. Dit noemen ze een "Attention Sink" (een aandachtdal of -gat). Normaal gesproken is dit slecht, want je wilt dat de AI naar de hele zin luistert. Maar het eerste woord is een uitzondering: daar moet de AI naar kijken.

De vraag was: Waarom gebeurt dit? Is het omdat het eerste woord een speciaal label heeft (zoals [BOS] = Begin Of Systeem), of is er iets dieper aan de hand?

Dit paper geeft het antwoord, en het is verrassend simpel.

1. Het is niet het label, het is de architectuur

Vroeger dachten mensen: "Oh, het eerste woord heeft een speciaal label [BOS], daarom kijken ze ernaar."
De onderzoekers deden een experiment: ze haalden dat speciale label weg.
Resultaat: De AI keek nog steeds naar het eerste woord!

De Metafoor:
Stel je voor dat je in een rij staat. Als je een speciaal shirtje draagt, kijken mensen misschien naar jou. Maar als je dat shirtje uittrekt, kijken ze nog steeds naar jou. Waarom? Omdat je de eerste in de rij bent. De structuur van de rij zelf zorgt ervoor dat de eerste persoon uniek is.

In de AI is het hetzelfde. Omdat de AI alleen naar het verleden mag kijken (niet naar de toekomst), heeft het eerste woord een unieke positie: het heeft niets om naar te kijken, behalve zichzelf. Alle andere woorden hebben een mix van het verleden om naar te kijken. Die "leegte" van het eerste woord maakt het uniek.

2. De "P0-Sink Schakeling": De AI bouwt een herkenningssysteem

De onderzoekers ontdekten dat de AI binnen slechts twee lagen (twee bibliothecarissen) een slimme truc bedenkt om dit eerste woord te herkennen.

Hoe werkt het?

De Ongebalanceerde Spiegel: Omdat het eerste woord alleen naar zichzelf kijkt, is de "energie" (de wiskundige grootte) van zijn signaal anders dan bij de andere woorden.
De Versterker: De AI gebruikt een onderdeel (een "MLP", een soort versterker) om dit unieke signaal van het eerste woord enorm op te blazen. Het wordt een gigantisch, helder signaal.
Het Anker: Omdat dit signaal zo groot en stabiel is, gebruiken alle andere bibliothecarissen (de diepere lagen) dit eerste woord als een anker of een kompas. Ze kijken ernaar om te weten: "Oké, waar beginnen we?"

De Creatieve Analogie:
Stel je voor dat je een groep mensen in een donkere kamer hebt die een touw vasthouden.

De meeste mensen houden het touw vast en kijken naar hun buren.
De persoon die het touw vasthoudt (het eerste woord) heeft niemand om naar te kijken.
De AI bouwt een flitslamp op het hoofd van die eerste persoon.
Zodra die flitslamp aan gaat, kijken alle anderen in de kamer automatisch naar die flits. Het is niet omdat ze het eerste woord "leuk" vinden, maar omdat het de enige stabiele, heldere plek is in het donker.

3. Hoe ontstaat dit tijdens het leren? (De Reis van de AI)

De onderzoekers keken naar een AI die vanaf nul werd getraind (een "baby-AI") en zagen hoe dit mechanisme zich ontwikkelde in drie fases:

Fase 1: De Verkenning (Vroege training)
De AI is nog onzeker. Het probeert verschillende plekken in de zin om een anker te vinden. Soms kijkt het naar het eerste woord, soms naar het tweede. Het is een beetje chaotisch.
Fase 2: De Verwarring (Midden-training)
De AI probeert het tweede woord als anker te gebruiken, maar dat werkt niet goed. Het tweede woord is namelijk afhankelijk van het eerste, dus het is minder stabiel. De AI "dwaalt" even.
Fase 3: De Stabilisatie (Late training)
De AI beseft: "Ah! Het eerste woord is het enige dat altijd hetzelfde is, ongeacht wat er gebeurt." De AI bouwt die flitslamp (de versterker) definitief op het eerste woord. Vanaf dat moment is het eerste woord het vaste anker voor de hele zin.

Waarom is dit belangrijk?

Het is een fundamentele eigenschap: Het is geen fout, maar een noodzakelijk onderdeel van hoe deze AI's werken. Zonder dit "anker" zouden ze misschien in de war raken over waar een zin begint.
Het helpt bij het trainen: Als je ziet dat de AI dit mechanisme nog niet heeft gebouwd, weet je dat de training nog niet klaar is. Het is een soort "thermometer" voor de gezondheid van het model.
Toekomstige AI's: Als we dit begrijpen, kunnen we AI's misschien beter maken door dit "anker" slimmer te gebruiken, zodat ze langere teksten beter kunnen begrijpen zonder vast te lopen.

Samenvattend:
De AI kijkt niet naar het eerste woord omdat het een speciaal label heeft, maar omdat de structuur van de taal (je kunt niet naar de toekomst kijken) het eerste woord uniek maakt. De AI leert dit te herkennen door een soort "flitslamp" op dat woord te zetten, zodat het als een stabiel anker dient voor de rest van de zin. Het is een slimme, automatische oplossing die de AI zelf bedenkt om de chaos van taal te ordenen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "How Attention Sinks Emerge in Large Language Models: An Interpretability Perspective" in het Nederlands.

Probleemstelling

Grote Taalmodellen (LLM's) vertonen vaak een fenomeen dat bekendstaat als de "attention sink" (aandachtssink). Dit is het verschijnsel waarbij het model disproportioneel veel aandacht toewijst aan specifieke tokens, vaak ten koste van andere relevante informatie. Hoewel dit over het algemeen als schadelijk wordt beschouwd omdat het de redeneercapaciteit kan belemmeren, is er een opvallende uitzondering: het model wijst consequent en sterk aandacht toe aan het eerste token van de invoersequentie (positie 0 of P0).

Tot nu toe was het onduidelijk waarom deze P0-sink ontstaat en hoe deze in de interne berekeningen van het model wordt geïmplementeerd. Bestaande theorieën suggereerden dat dit fenomeen voornamelijk werd veroorzaakt door de semantiek van het speciale [BOS] (Beginning Of Sequence) token. Echter, recente modellen zonder expliciete [BOS]-tokens vertonen dit gedrag nog steeds, wat suggereert dat er een fundamenteelere, structurele oorzaak ligt.

Methodologie

De auteurs gebruiken een combinatie van mechanistische interpretatie (mechanistic interpretability), ablatiestudies en trainingstraces om de oorsprong van de P0-sink te ontrafelen:

Ablatie-onderzoek: Ze verwijderen het [BOS]-token uit diverse modellen (zoals LLaMA en Qwen) en analyseren de veranderingen in de attention-maps en de $\ell_2$ -norm van de hidden states.
Analyse van Hidden States: Ze onderzoeken hoe de vectoren van het eerste token evolueren door de lagen van het Transformer-netwerk, met name gericht op de verandering in grootte (norm) en richting.
Theoretische Modellering: Ze ontwikkelen een vereenvoudigd wiskundig model (een "cone-based model") om te analyseren hoe causale masking (causal masking) en uniforme verdeling van aandacht leiden tot een asymmetrie in de output-normen.
Training Traces: Ze trainen een MoE-model (30B parameters, 3B actieve parameters) vanaf nul en volgen de evolutie van de attention-patronen tijdens het pre-training proces om te zien wanneer en hoe de sink-circuit ontstaat.

Kernbijdragen en Mechanisme: De P0-Sink Circuit

De belangrijkste bevinding is de identificatie van een specifiek architecturaal circuit, de P0-Sink Circuit, dat verantwoordelijk is voor het creëren van de sink.

Oorzaak: De sink is niet het gevolg van de semantiek van een token (zoals [BOS]), maar van de asymmetrie in het causale attention-mask.
- Token op positie 0 kan alleen naar zichzelf kijken.
- Token op latere posities kijken naar een mix van eerdere tokens.
- Deze asymmetrie zorgt ervoor dat de attention-output van positie 0 een meer consistente richting behoudt dan andere posities.
Het Circuit: Het mechanisme werkt binnen de eerste twee Transformer-blokken:
1. Identificatie: De attention-heads (vooral die met een uniforme verdeling) exploiteren de causale asymmetrie om positie 0 te onderscheiden.
2. Amplificatie: De MLP-lagen (Multi-Layer Perceptrons) in de eerste twee blokken versterken de $\ell_2$ -norm van de hidden state van positie 0 en projecteren deze naar een vaste, stabiele richting in de representatieruimte.
3. Stabilisatie: Door de hoge norm en de pre-norm normalisatie (RMSNorm) wordt de richting van dit token minder gevoelig voor gradiëntupdates, waardoor het een stabiel "anker" wordt voor de rest van het netwerk.

Resultaten

Onafhankelijkheid van [BOS]: Het verwijderen van het [BOS]-token elimineert de sink in de allereerste laag, maar de sink herleeft in de tweede laag. Dit bewijst dat het model een interne mechanisme leert om positie 0 te identificeren, ongeacht de invoer.
Drie-staps Ontwikkeling tijdens Pre-training: Bij het trainen van een model vanaf nul worden drie fasen waargenomen:
- Vroege Fase: De sink-circuit verschijnt eerst in diepere lagen en is nog niet stabiel.
- Overgangsfasen: De sink verspreidt zich tijdelijk over meerdere vroege posities (soms verschuift de focus naar positie 1) en is minder geconcentreerd.
- Stabiele Fase: Uiteindelijk convergeert het mechanisme en concentreert het zich strikt in de eerste twee lagen, waarbij een robuuste P0-sink ontstaat die door het hele netwerk wordt gehandhaafd.
Correlatie met Training: De mate van concentratie van de sink in de eerste lagen dient als een indicator voor de convergentiestatus van het pre-training proces.

Significantie en Implicaties

Fundamenteel Begrip: Het paper weerlegt de idee dat attention sinks puur semantisch zijn en toont aan dat ze een inherent gevolg zijn van de Transformer-architectuur en causale masking.
Diagnostisch Hulpmiddel: De evolutie van de P0-Sink Circuit kan worden gebruikt als een signaal om de convergentie van pre-training te monitoren. Als een model nog niet in de stabiele fase zit, kan verdere training leiden tot betere prestaties.
Toekomstige Ontwerpen: Het inzicht dat een vaste, hoge-norm representatie in de eerste lagen cruciaal is voor stabiliteit, biedt richtlijnen voor het ontwerpen van efficiëntere en stabielere LLM-architecturen, mogelijk door het bewust manipuleren van deze circuits of het elimineren van onnodige semantische tokens.

Kortom, dit onderzoek onthult dat de "attention sink" op positie 0 geen bug is, maar een fundamenteel, structureel kenmerk van Transformer-modellen dat ontstaat door de wiskundige eigenschappen van causale aandacht en normalisatie, en dat dient als een cruciaal ankerpunt voor de stabiliteit van het model.

How Attention Sinks Emerge in Large Language Models: An Interpretability Perspective

1. Het is niet het label, het is de architectuur

2. De "P0-Sink Schakeling": De AI bouwt een herkenningssysteem

3. Hoe ontstaat dit tijdens het leren? (De Reis van de AI)

Waarom is dit belangrijk?

Probleemstelling

Methodologie

Kernbijdragen en Mechanisme: De P0-Sink Circuit

Resultaten

Significantie en Implicaties

Meer zoals dit

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers