On the Existence and Behavior of Secondary Attention Sinks

Each language version is independently generated for its own context, not a direct translation.

De Verborgen "Tweede Hulp" in de Breinen van AI: Een Simpele Uitleg

Stel je voor dat een groot taalmodel (zoals een slimme AI) een heel lang verhaal schrijft. Om dit te doen, moet het elke zin onthouden die het eerder heeft geschreven. Maar hoe onthoudt een computer zo'n lange reeks woorden?

In dit nieuwe onderzoek ontdekten de auteurs iets verrassends over hoe deze AI's hun "aandacht" verdelen. Ze praten over Aandachtsgaten (Attention Sinks).

1. Het Oude Geheim: De "Eerste Hulp" (Primary Sink)

Vroeger wisten wetenschappers al dat de eerste woorden van een zin (zoals het startwoord) een speciale rol spelen.

De Analogie: Denk aan een leraar in een klas. De eerste persoon die binnenkomt (het startwoord) krijgt vaak de meeste aandacht van de leraar, zelfs als die persoon niets belangrijks zegt. De leraar kijkt steeds weer naar die eerste persoon om zich te oriënteren. In de AI-wereld noemen we dit het Primair Gat. Het is als een anker dat de hele zin bij elkaar houdt.

2. Het Nieuwe Ontdekking: De "Tweede Hulp" (Secondary Sinks)

De auteurs van dit paper ontdekten dat er ook andere woorden zijn die plotseling heel veel aandacht krijgen, maar die er heel anders uitzien dan de eerste woorden.

De Analogie: Stel je voor dat de leraar halverwege de les plotseling ook heel erg gaat kijken naar een leerling die halverwege de rij zit, of naar iemand die alleen maar "..." of een komma zegt. Deze leerling krijgt ineens net zoveel aandacht als de eerste leerling, maar alleen voor een korte tijd.
Wat is het? Dit noemen ze Secundaire Gaten. Ze verschijnen niet direct aan het begin, maar vaak halverwege de "denkproces" van de AI. Ze blijven ook niet de hele tijd bestaan; ze komen en gaan.

3. Hoe werken deze "Tweede Hulpjes"?

Het onderzoek laat zien hoe deze gaten ontstaan, en het is heel ingenieus:

De "Omschakelaar": In het midden van het AI-brein zitten speciale onderdelen (zoals kleine rekenmodules). Deze fungeren als een omschakelaar. Ze nemen een gewone, saaie woord (zoals een leesteken of een getal) en veranderen het plotseling in een "aandachtswaardig" woord.
De Kracht van de Norm: Hoe sterk deze omschakelaar is, bepaalt hoe lang het woord aandacht blijft krijgen.
- Soms is de omschakelaar zwak: het woord krijgt even aandacht en verdwijnt dan weer.
- Soms is de omschakelaar heel sterk: het woord blijft lang een "anker" voor de AI.
De Ruil: Interessant is dat als de "Eerste Hulp" (het startwoord) halverwege de les een beetje moe wordt en minder aandacht krijgt, de "Tweede Hulp" precies dan verschijnt om de bal op te vangen. Het is een compenserend systeem.

4. Waarom is dit belangrijk?

De onderzoekers keken naar 11 verschillende modellen, van kleine tot heel grote (zoals Qwen en DeepSeek).

Slimmer wordt: Ze merkten op dat modellen die getraind zijn om goed te zijn in wiskunde en redeneren (zoals het oplossen van moeilijke raadsels), veel vaker deze "Tweede Hulpjes" hebben.
De Les: Het lijkt erop dat deze extra gaten helpen de AI om complexe problemen op te lossen. Ze fungeren als tijdelijke "steunpunten" in het denkproces, zodat de AI niet verdwaalt in een lange reeks gedachten.

Samenvattend in één zin:

Waar we vroeger dachten dat alleen het eerste woord in een zin de AI vasthield, ontdekten we nu dat halverwege de zin soms andere, saaie woorden plotseling een tijdelijke "superkracht" krijgen om de AI te helpen bij het oplossen van moeilijke taken, net als een tweede anker dat het schip stabiliseert als de eerste anker even slip.

Dit onderzoek helpt ons begrijpen hoe AI's "denken" en hoe we ze misschien nog slimmer en efficiënter kunnen maken in de toekomst.

Each language version is independently generated for its own context, not a direct translation.

Titel: Over het Bestaan en Gedrag van Secundaire Attention Sinks

Auteurs: Jeffrey T.H. Wong et al. (Imperial College London & UnlikelyAI)
Publicatie: ICLR 2026 Workshop on Unifying Concept Representation Learning

1. Het Probleem

Attention Sinks zijn tokens (meestal het Begin-of-Sequence of BOS-token) die in Transformer-modellen onredelijk hoge aandachtswaarden ontvangen, ondanks dat ze semantisch weinig relevant zijn. Dit fenomeen is eerder beschreven als een "primaire sink" die vanaf de eerste laag verschijnt en door het hele netwerk blijft bestaan.

Eerdere studies hebben weliswaar vastgesteld dat andere tokens dan het BOS-token ook als sink kunnen fungeren, maar deze werden gezien als varianten van de primaire sink: ze verschenen op dezelfde lagen en bleven even lang bestaan.
Het probleem dat dit paper adresseert, is de ontdekking van een fundamenteel ander type attention sink: Secundaire Attention Sinks. Deze verschillen in hun ontstaan (laag), levensduur en mechanisme van de bekende BOS-sink, maar hun bestaan en impact op de attentiemechanismen waren tot nu toe niet systematisch onderzocht.

2. Methodologie

De auteurs hebben een uitgebreide empirische studie uitgevoerd over 11 verschillende model-families (waaronder Qwen2/2.5/3, QwQ, DeepSeek, LLaMA-3.1, Phi-4, etc.).

Data: Ze gebruikten redenerings-traces gegenereerd door modellen (zoals DeepSeek-14B) op wiskundedatasets (AIME24, Math).
Detectie: Ze identificeerden attention sinks door de $\ell_2$ -norm van de hidden states te analyseren en de cosine-similariteit te berekenen tussen tokens en het BOS-token. Tokens met een similariteit > 0.95 en een hoge norm werden als sinks gedefinieerd.
Analyse van Vorming:
- Cosine Similarity & PCA: Ze volgden tokens die uiteindelijk secundaire sinks werden ("future sinks") door de lagen van het netwerk. Ze toetsten de "Linear Representation Hypothesis" door PCA toe te passen op de input van de MLP-modules.
- Clustering: Ze gebruikten t-SNE om te zien wanneer "future sinks" en normale tokens in de representatieruimte uit elkaar groeien.
- Token Swapping: Ze voerden experimenten uit waarbij ze de activaties (hidden states, attention outputs, MLP outputs) van toekomstige sinks vroegtijdig vervangen door die van gemiddelde tokens, om de causale oorsprong te traceren.
Karakterisering: Ze definieerden "Sink Levels" gebaseerd op de startlaag ( $l_{start}$ ) en de levensduur (aantal lagen waarin de sink actief blijft).

3. Belangrijkste Bijdragen en Resultaten

A. Identificatie van Secundaire Sinks en Sink Levels

Verschil met Primaire Sinks: Primaire sinks (BOS) ontstaan vroeg en blijven bestaan. Secundaire sinks ontstaan voornamelijk in middelste lagen (bijv. laag 22 in DeepSeek-14B) en bestaan slechts voor een variabel aantal lagen (van 2 tot ~22 lagen).
Sink Levels: Secundaire sinks kunnen worden gegroepeerd in discrete "levels". Grotere modellen tonen een meer deterministisch patroon met specifieke levels.
- Voorbeeld: QwQ-32B heeft 3 levels, Qwen3-14B heeft 6 levels.
Locatie: Deze sinks komen vaak voor op semantisch oninformatieve posities (zoals spaties, leestekens of specifieke cijfers) en kunnen op willekeurige posities in de gegenereerde sequentie verschijnen.

B. Causale Vorming (Het Mechanisme)

Rol van de MLP: De vorming van secundaire sinks wordt primair gestuurd door specifieke MLP-modules in de middelste lagen (aangeduid als $l_{start}$ ).
Vectoruitlijning: De MLP-modules in $l_{start}$ mappen token-representaties naar vectoren die uitgelijnd zijn met de richting van de primaire sink van die laag.
Versterking: De MLP versterkt componenten die uitgelijnd zijn met de sink-richting en onderdrukt afwijkende componenten. Dit resulteert in een grote $\ell_2$ -norm van de hidden state.
Vroege Voorbereiding: Hoewel de sink pas zichtbaar wordt na $l_{start}$ , begint de "beslissing" om een token tot sink te maken al in eerdere lagen (bijv. laag 19), waar attention en MLP-modules de tokens beginnen te scheiden van normale tokens.

C. Relatie tussen Norm, Levensduur en Impact

$\ell_2$ -Norm als Bepaler: De grootte van de $\ell_2$ $ℓ_{2}$ -norm van de output van de MLP in $l_{start}$ $l_{s t a r t}$ bepaalt twee cruciale factoren:
1. De sink-score (hoe sterk de aandacht is).
2. De levensduur (hoeveel lagen de sink blijft bestaan).
Compensatie-effect: Er is een opmerkelijke correlatie gevonden tussen de primaire sink en secundaire sinks. De sterkte van de BOS-sink neemt af in de middelste lagen (een "vallei"). Op het moment dat de BOS-sink het zwakst is, verschijnen de secundaire sinks. Dit suggereert dat secundaire sinks fungeren als een compenserend mechanisme om de aandachtstabiliteit te behouden wanneer de primaire sink faalt.

D. Invloed van Modelgrootte en Training

Secundaire sinks zijn afwezig of zwak in kleine basismodellen.
Ze worden prominenter na mid-training op grote hoeveelheden wiskundige data (bijv. overgang van Qwen2 naar Qwen2-Math).
Grotere modellen en modellen die zijn nage-ge-train op redeneringsdata (zoals QwQ) vertonen een sterker en deterministischer secundaire sink-fenomeen.

4. Significatie en Toekomstperspectief

Fundamenteel Inzicht: Dit paper breekt het paradigma dat alle attention sinks gelijk zijn. Het introduceert een hiërarchie van sinks (primaire vs. secundaire levels) die dynamisch verschuiven afhankelijk van de diepte van het netwerk.
Architecturale Implicaties: Het feit dat specifieke MLP-modules verantwoordelijk zijn voor het creëren van deze sinks, biedt nieuwe aanknopingspunten voor het begrijpen van hoe LLMs informatie comprimeren en positiesystemen opbouwen.
Praktische Toepassingen: Het inzicht in de levensduur en locatie van deze sinks kan leiden tot verbeteringen in:
- KV-cache optimalisatie: Het selectief cachen van tokens die als secundaire sinks fungeren.
- Quantization: Het beter begrijpen van activatie-outliers die door deze sinks worden veroorzaakt.
- Modelverbetering: Het mogelijk manipuleren van deze mechanismen om de redeneercapaciteit van modellen te verbeteren.

Conclusie: De auteurs tonen aan dat attention sinks geen statisch, monolithisch fenomeen zijn, maar een dynamisch systeem van meerdere "niveaus" dat essentieel is voor de interne coördinatie en stabiliteit van moderne Large Language Models, met name in complexe redeneringstaken.