The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

Die Studie zeigt, dass massive Aktivierungen und Attention Sinks in Transformer-Modellen zwar häufig gemeinsam auftreten, jedoch durch die Pre-Norm-Architektur bedingt sind und unterschiedliche Funktionen erfüllen, wobei erstere als globale implizite Parameter und letztere als lokale Modulatoren der Aufmerksamkeit wirken.

Shangwen Sun, Alfredo Canziani, Yann LeCun, Jiachen Zhu

Veröffentlicht 2026-03-06
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das Geheimnis der „Riesen" und der „Anker" in KI-Modellen

Stell dir vor, ein großes Sprachmodell (wie ein sehr kluger Chatbot) ist wie ein riesiges, pulsierendes Nervensystem. Es besteht aus Millionen von kleinen Neuronen, die Informationen verarbeiten. Die Forscher haben in diesem System zwei seltsame Phänomene entdeckt, die oft zusammen auftreten, aber eigentlich ganz unterschiedliche Aufgaben haben.

Man könnte sie nennen: Der „Riesen-Spike" und der „Anker" (Sink).

1. Der „Riesen-Spike" (Massive Activations)

Stell dir vor, in diesem Nervensystem gibt es ein paar spezielle Kanäle (Stromleitungen), die normalerweise ruhig sind. Aber plötzlich, bei bestimmten Wörtern (oft das allererste Wort eines Satzes oder Satzzeichen wie ein Punkt), schießen die Werte in diesen Kanälen in die Höhe – wie ein Vulkan, der ausbricht.

  • Was passiert? Die Werte werden so riesig, dass sie Tausende von Malen größer sind als bei normalen Wörtern.
  • Warum? Das liegt an der Bauweise des Modells. Es gibt spezielle „Verstärker" (die Feed-Forward-Blöcke), die wie ein Quadrat-Verstärker funktionieren. Wenn ein Signal genau in die richtige Richtung trifft, wird es nicht nur laut, sondern quadratisch lauter.
  • Die Folge: Diese riesigen Werte bleiben durch das gesamte Netzwerk hindurch erhalten, wie ein lauter Hintergrundgeräusch, das sich durch den ganzen Raum zieht. Sie wirken fast wie ein stiller, unsichtbarer Parameter des Modells – eine Art „eingebaute Konstante", die immer da ist.

2. Der „Anker" (Attention Sinks)

Jetzt kommt der zweite Teil. Das Modell muss entscheiden, worauf es sich konzentriert (Aufmerksamkeit). Normalerweise würde es sich auf die wichtigsten Wörter konzentrieren. Aber oft passiert etwas Seltsames: Das Modell klebt seine Aufmerksamkeit an das allererste Wort (oder ein Satzzeichen) fest, egal ob dieses Wort inhaltlich wichtig ist oder nicht.

  • Das Bild: Stell dir vor, du bist in einer lauten Party. Normalerweise hörst du den Menschen zu, die etwas Spannendes sagen. Aber plötzlich hörst du nur noch eine Person, die in der Ecke steht und gar nichts sagt, weil sie einfach nur da ist. Alle anderen Stimmen werden leise, weil alle Ohren auf diese eine Person gerichtet sind. Diese Person ist der „Anker".
  • Warum? Hier kommt der „Riesen-Spike" ins Spiel. Weil die Werte bei diesem ersten Wort so riesig sind, normalisiert das Modell sie (macht sie „kleiner" und „normierter"). Durch diesen Prozess werden alle diese ersten Wörter fast identisch. Für das Modell sehen sie alle gleich aus: „Da ist dieses eine, stabile Ding am Anfang."
  • Die Funktion: Das Modell nutzt diesen Anker, um sich kurzfristig zu orientieren. Es ist wie ein Sicherheitsnetz oder ein Anker, der verhindert, dass das Modell in einer langen Geschichte den Faden verliert, indem es sich kurz auf etwas Statisches festhält, bevor es sich wieder auf den Inhalt konzentriert.

Das große Missverständnis

Bisher dachten viele Forscher: „Oh, die riesigen Werte (Spike) verursachen den Anker (Sink). Wir müssen die riesigen Werte weg machen, damit der Anker verschwindet."

Die neue Erkenntnis dieser Studie:
Nein! Die beiden sind nur zufällig Nachbarn, weil die Architektur des Modells (die „Pre-Norm"-Bauweise) beide gleichzeitig erzeugt.

  • Der Spike ist wie ein riesiger Motor, der das Modell antreibt.
  • Der Anker ist wie ein Lenkrad, das hilft, die Aufmerksamkeit kurzfristig zu steuern.

Man kann den Motor (die riesigen Werte) reparieren oder dämpfen, ohne dass das Lenkrad (der Anker) kaputtgeht. Und umgekehrt.

Was bedeutet das für die Zukunft?

Die Forscher haben gezeigt, dass man die Architektur des Modells leicht ändern kann, um diese Effekte zu trennen:

  1. Ohne riesige Werte: Man kann das Modell so bauen, dass es keine extremen Ausreißer mehr gibt (was gut ist, um Speicherplatz zu sparen und die KI schneller zu machen).
  2. Mit funktionierenden Ankern: Gleichzeitig behält das Modell die Fähigkeit, sich kurzfristig zu orientieren.

Fazit in einem Satz:
Die riesigen Werte und die seltsame Fixierung auf das erste Wort sind keine unauflösbare Einheit, sondern zwei separate Werkzeuge, die durch die aktuelle Bauweise der KI zufällig zusammenarbeiten. Wenn wir die Bauweise anpassen, können wir die KI effizienter machen, ohne ihre Intelligenz zu verlieren.

Es ist, als würde man herausfinden, dass ein Auto nicht unbedingt einen riesigen Motor und ein spezielles Lenkrad braucht, um zu fahren – man kann das Lenkrad auch mit einem kleineren Motor nutzen, wenn man die Technik ein bisschen anders baut.