On the Existence and Behavior of Secondary Attention Sinks

Each language version is independently generated for its own context, not a direct translation.

Titel: Die unsichtbaren Anker im Gehirn einer KI – Eine einfache Erklärung

Stellen Sie sich eine große Künstliche Intelligenz (KI) wie einen riesigen, sehr intelligenten Bibliothekar vor, der gerade einen langen Roman liest. Damit er den Text verstehen kann, muss er sich an bestimmte Wörter erinnern.

In der Welt der KI-Forschung gibt es ein bekanntes Phänomen namens „Attention Sinks" (Aufmerksamkeits-Senken). Das ist wie ein magnetischer Anker am Anfang des Textes (oft das erste Wort). Dieser Anker zieht die Aufmerksamkeit des Bibliothekars so stark auf sich, dass er fast vergisst, auf den Rest des Textes zu achten. Man wusste bisher, dass dieser „Anker" am Anfang immer da ist und den ganzen Weg durch das Buch mitgeht.

Die neue Entdeckung: Die „Sekundären Senken"

Dieses Paper von Jeffrey Wong und seinem Team entdeckt etwas Neues: Es gibt nicht nur diesen einen großen Anker am Anfang. In bestimmten, besonders schlauen KIs (wie den Qwen-Modellen) tauchen plötzlich andere Anker mitten im Text auf!

Stellen Sie sich das so vor:

Der Hauptanker (Primäre Senke): Das ist der Bibliothekar am Eingang. Er ist immer da, hält die Tür offen und zieht alle Blicke auf sich.
Die neuen Anker (Sekundäre Senken): Plötzlich, mitten im Kapitel, passiert etwas Seltsames. Ein völlig belangloses Wort (wie ein Komma, eine Zahl oder ein Leerzeichen) fängt an, wie ein Magnet zu wirken. Es zieht die Aufmerksamkeit des Bibliothekars an, obwohl es eigentlich nichts Wichtiges zu sagen hat.

Wie funktioniert das? (Die Magie hinter den Kulissen)

Die Forscher haben herausgefunden, wie diese neuen Anker entstehen:

Der Auslöser: Es gibt eine spezielle „Verarbeitungseinheit" (ein sogenanntes MLP-Modul) in der Mitte des KI-Gehirns. Stellen Sie sich das wie einen Koch vor, der Zutaten mischt.
Die Transformation: Dieser Koch nimmt ein ganz normales, langweiliges Wort und verwandelt es in etwas, das dem Hauptanker am Anfang extrem ähnlich sieht. Er gibt ihm quasi einen „magnetischen Mantel" um.
Die Stärke: Je stärker dieser Mantel ist (gemessen an der mathematischen „Stärke" des Vektors), desto länger bleibt das Wort ein Anker. Manche Anker halten nur für ein paar Sätze, andere bleiben bis zum Ende des Buches.

Warum ist das wichtig?

Ein Ausgleichsspiel: Wenn der Bibliothekar am Anfang (der Hauptanker) müde wird und seine Aufmerksamkeit nachlässt (was in der Mitte des Textes passiert), springen diese neuen Anker ein. Sie übernehmen die Aufgabe, die Aufmerksamkeit stabil zu halten. Es ist, als würde das Team einen neuen Anker werfen, wenn der alte zu schwach wird.
Größe macht den Unterschied: Bei kleinen KIs passiert das selten. Aber bei sehr großen, komplexen KIs (die viel über Mathematik und Logik gelernt haben) tauchen diese Anker sehr häufig und vorhersehbar auf. Es scheint, als ob die KI lernt: „Hey, wenn der Text lang wird, brauche ich mehr Anker, um den Überblick zu behalten."
Das Rätsel der Bedeutung: Interessanterweise sind diese neuen Anker oft Wörter, die keine Bedeutung haben (wie ein Leerzeichen oder eine Zahl). Die KI nutzt sie also nicht, um Informationen zu speichern, sondern eher als „Stützpfeiler" für ihre eigene Struktur.

Zusammenfassung mit einer Analogie

Stellen Sie sich einen Zug vor, der durch eine lange Landschaft fährt.

Der Hauptanker ist der Lokführer vorne. Er zieht den ganzen Zug.
Die sekundären Anker sind wie zusätzliche Kupplungen, die mitten im Zug plötzlich aktiviert werden. Sie sind nicht nötig, um den Zug zu bewegen, aber sie helfen, die Spannung im Zug stabil zu halten, wenn der Lokführer kurz nachlässt.

Was bedeutet das für die Zukunft?

Die Forscher haben gezeigt, dass KIs nicht nur passiv Text lesen, sondern aktiv ihre eigene Aufmerksamkeit steuern, indem sie diese „Anker" an verschiedenen Stellen im Text platzieren. Das hilft uns zu verstehen, wie KIs funktionieren, und könnte in Zukunft helfen, sie effizienter zu machen oder Fehler zu vermeiden.

Das Team hat ihre Ergebnisse offen gelegt, damit jeder sie nachprüfen kann. Es ist ein spannender Schritt, um zu verstehen, was in den „Gedanken" dieser Maschinen wirklich vor sich geht.

Each language version is independently generated for its own context, not a direct translation.

Titel: On the Existence and Behavior of Secondary Attention Sinks

Veröffentlicht bei: ICLR 2026 Workshop on Unifying Concept Representation Learning
Autoren: Jeffrey T.H. Wong et al. (Imperial College London, UnlikelyAI)

1. Problemstellung

Das Phänomen der Attention Sinks (Aufmerksamkeits-Senken) wurde erstmals von Xiao et al. (2023) identifiziert. Dabei erhalten bestimmte Tokens, typischerweise der Beginning-of-Sequence (BOS)-Token, überproportional hohe Aufmerksamkeitsgewichte, obwohl sie semantisch wenig relevant sind. Bisherige Studien konzentrierten sich auf diese „primären Senken" (BOS-Sinks), die in frühen Schichten des Netzwerks entstehen und über die gesamte Tiefe des Modells hinweg persistieren.

Das zentrale Problem dieser Arbeit ist die Identifizierung und Analyse einer bisher unbeachteten Klasse von Attention Sinks, die sich fundamental von den bekannten BOS-Sinks unterscheiden. Während frühere Arbeiten feststellten, dass auch andere Tokens als Senken fungieren können, zeigten diese bisher ähnliche Eigenschaften wie der BOS-Token (gleiche Entstehungsschicht, gleiche Persistenz). Die Autoren stellen die Hypothese auf, dass es eine neue Art von Senken gibt, die in mittleren Schichten entstehen und nur für eine variable Anzahl von Schichten bestehen bleiben.

2. Methodik

Die Autoren führten umfangreiche empirische Experimente an 11 Modellfamilien durch (darunter DeepSeek, Qwen2/2.5/3, QwQ, LLaMA-3.1, Phi-4, CodeLlama).

Datensätze: Es wurden Reasoning-Traces (z. B. aus AIME24, Math-Datensätzen) generiert und durch die Modelle geleitet.
Detektionsmethode: Um Senken zu identifizieren, wurde die paarweise kosinische Ähnlichkeit zwischen den versteckten Zuständen ( $h_t$ ) jedes Tokens und dem BOS-Token ( $h_0$ ) in jeder Schicht berechnet. Tokens mit einer Ähnlichkeit $> 0.95$ wurden als Senken klassifiziert.
Analyse der Entstehung:
- Cosine Similarity & PCA: Analyse der Vektoren, die zu Senken werden, beim Durchlaufen der MLP-Module (Multi-Layer Perceptron).
- Clustering: t-SNE-Clustering von versteckten Zuständen, Attention-Ausgaben und MLP-Ausgaben, um zu sehen, wann sich „zukünftige Senken" von normalen, semantisch uninformierenden Tokens unterscheiden.
- Token-Swapping-Experimente: Austausch der Aktivierungen (Hidden States, Attention Outputs, MLP Outputs) von zukünftigen Senken-Tokens gegen durchschnittliche Tokens in frühen Schichten, um die kausale Entstehung zu testen.
Modellierung: Die Autoren definierten „Sink Levels" basierend auf der Entstehungsschicht ( $l_{start}$ ) und der Lebensdauer (Anzahl der Schichten, in denen die Senke aktiv bleibt).

3. Wichtige Beiträge und Erkenntnisse

A. Existenz und Definition von Secondary Sinks

Die Arbeit identifiziert Secondary Sinks (Sekundäre Senken), die sich von Primary Sinks (BOS) unterscheiden:

Entstehung: Sie entstehen primär in mittleren Schichten des Netzwerks (z. B. Schicht 22 in DeepSeek-14B), nicht in den ersten Schichten.
Persistenz: Sie bestehen nur für eine begrenzte Anzahl von Schichten (von wenigen bis zu ca. der Hälfte der Netzwerktiefe), während BOS-Sinks das gesamte Netzwerk durchlaufen.
Position: Sie können an beliebigen Positionen in der Generierungssequenz auftreten und sind oft semantisch uninformative Tokens (z. B. Leerzeichen, Zahlen, Satzzeichen).

B. Mechanismus der Entstehung (Kausale Analyse)

Die Autoren zeigen, dass die Bildung dieser Senken spezifisch durch MLP-Module in den mittleren Schichten gesteuert wird:

Richtungs-Kodierung: Spezifische MLP-Module (bezeichnet als $l_{start}$ ) bilden Token-Repräsentationen auf Vektoren ab, die sich mit der Richtung des Primary Sinks dieser Schicht ausrichten.
Norm-Abhängigkeit: Die $\ell_2$ -Norm dieser Vektoren bestimmt sowohl die Stärke der Senke (Sink-Score) als auch ihre Lebensdauer. Eine höhere Norm führt zu einer stärkeren und langlebigeren Senke.
Kompensationseffekt: Es wurde beobachtet, dass die Stärke des BOS-Sinks in den mittleren Schichten nachlässt (ein „Tal" im Sink-Score). Genau zu diesem Zeitpunkt treten die Secondary Sinks auf, was auf einen kompensatorischen Mechanismus hindeutet, um die Informationsstabilität im Netzwerk aufrechtzuerhalten.

C. Einfluss von Modellgröße und Training

Skalierung: In größeren Modellen (z. B. QwQ-32B, Qwen3-14B) treten die Sink-Levels deterministischer und häufiger auf.
Trainingseinfluss: Modelle, die extensive Nachtrainings (Post-Training) auf Reasoning-Daten durchlaufen haben (z. B. Qwen-Math, QwQ), zeigen ein stärkeres Secondary-Sink-Phänomen als reine Basismodelle. Dies deutet darauf hin, dass Secondary Sinks mit der Fähigkeit zur komplexen Reasoning-Verarbeitung korrelieren.
Modellunterschiede: Nicht alle Modelle zeigen dieses Phänomen. Während Qwen- und DeepSeek-Familien (mit bestimmten RoPE-Konfigurationen) Secondary Sinks aufweisen, zeigen Modelle wie LLaMA-7B-Chat oder CodeLlama trotz ähnlicher Architekturen oft nur Primary Sinks.

4. Ergebnisse

Quantifizierung: In QwQ-32B wurden 3 Sink-Levels identifiziert, in Qwen3-14B sogar 6 Levels.
Korrelation: Es besteht eine starke log-lineare Beziehung zwischen der $\ell_2$ -Norm des MLP-Ausgangs ( $f_{l_{start}}$ ) und dem Sink-Score sowie der Lebensdauer der Secondary Sinks.
Geometrie: Die PCA-Analyse zeigt, dass die Eingaben der MLPs, die zu Senken werden, eine niedrig-rangige Struktur aufweisen, die durch das MLP in die Senken-Richtung amplifiziert wird.
Token-Verteilung: Secondary Sinks treten häufig bei Tokens wie Leerzeichen, Zahlen oder spezifischen Satzzeichen auf, die im Kontext von mathematischen oder logischen Aufgaben (Reasoning) vorkommen.

5. Bedeutung und Implikationen

Theoretisches Verständnis: Die Arbeit erweitert das Verständnis der internen Dynamik von Transformer-Modellen erheblich. Sie zeigt, dass Attention Sinks kein statisches Phänomen sind, das nur den BOS-Token betrifft, sondern ein dynamisches, mehrstufiges System, das sich über die Netzwerktiefe entwickelt.
Reasoning-Fähigkeiten: Der Zusammenhang zwischen Secondary Sinks und Reasoning-Datentraining legt nahe, dass diese Mechanismen für die Fähigkeit des Modells, komplexe Schlussfolgerungen zu ziehen, essenziell sein könnten.
Praktische Anwendungen: Das Verständnis dieser Senken ist relevant für:
- KV-Cache-Optimierung: Da Secondary Sinks nur temporär existieren, könnten Strategien zur Kompression des KV-Caches angepasst werden, um diese dynamischen Senken effizienter zu handhaben.
- Quantisierung: Da Senken massive Aufmerksamkeitsgewichte tragen, ist ihre korrekte Behandlung für die Quantisierung von LLMs entscheidend.
- Modell-Design: Die Erkenntnis, dass spezifische MLP-Schichten für die Bildung dieser Senken verantwortlich sind, könnte zu neuen Architekturen führen, die Reasoning-Fähigkeiten gezielt fördern.

Fazit: Die Autoren haben eine neue Klasse von Attention Sinks entdeckt, die als dynamische, schichtspezifische Phänomene in mittleren Netzwerkschichten fungieren und eng mit der Reasoning-Leistung von LLMs verknüpft sind. Dies stellt eine fundamentale Erweiterung des bisherigen Verständnisses von Attention-Mechanismen dar.

On the Existence and Behavior of Secondary Attention Sinks

Titel: On the Existence and Behavior of Secondary Attention Sinks

1. Problemstellung

2. Methodik

3. Wichtige Beiträge und Erkenntnisse

A. Existenz und Definition von Secondary Sinks

B. Mechanismus der Entstehung (Kausale Analyse)

C. Einfluss von Modellgröße und Training

4. Ergebnisse

5. Bedeutung und Implikationen

Mehr davon

QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering

OraPO: Oracle-educated Reinforcement Learning for Data-efficient and Factual Radiology Report Generation

Stop Before You Fail: Operational Capability Boundaries for Mitigating Unproductive Reasoning in Large Reasoning Models

Seeing Straight: Document Orientation Detection for Efficient OCR

GHaLIB: A Multilingual Framework for Hope Speech Detection in Low-Resource Languages