Ursprüngliche Autoren: Daniel Goldstein, Eugene Cheah

Veröffentlicht 2026-05-12✓ Author reviewed ⓘ

📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Daniel Goldstein, Eugene Cheah

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie versuchen, ein sehr langes Buch zu lesen, aber Ihr Gehirn verfügt nur über eine begrenzte Menge an „Arbeitsgedächtnis", um die Geschichte während des Lesens im Kopf zu behalten.

Das Problem mit aktueller KI
Aktuelle KI-Modelle (Transformer) verhalten sich wie ein Schüler, der versucht, jedes einzelne Wort, das er jemals in dem Buch gelesen hat, zu merken.

Das Gute: Sie sind unglaublich präzise, weil sie die gesamte Geschichte vor sich haben.
Das Schlechte: Je länger das Buch wird, desto riesig wächst ihr „Arbeitsgedächtnis". Das Lesen eines 100-seitigen Buches erfordert nur einen winzigen Aufwand, aber das Lesen eines 1.000-seitigen Buches erfordert eine massive Menge an Zeit und Energie. Es ist, als würde man versuchen, einen Rucksack zu tragen, der mit jedem Schritt schwerer wird.

Das Problem mit rekurrenten (RNN-artigen) Modellen
RNN-artige Modelle verfolgen einen anderen Ansatz: Sie behalten eine kleine, fest große Zusammenfassung dessen, was sie bisher gelesen haben, und aktualisieren diese fortlaufend.

Das Gute: Sie sind superschnell und leicht. Ihr Rucksack wird nie schwerer, egal wie lang das Buch ist.
Das Schlechte: Sie vergessen den Anfang der Geschichte. Wenn Sie sie nach einem Handlungspunkt von Seite 10 fragen, erinnern sie sich möglicherweise nicht daran, weil sie nur die letzten paar Seiten festhalten.

Die neue Lösung: Key-Value Means (KVM)
Die Autoren dieses Papiers stellen eine neue Methode vor, die Key-Value Means (KVM) genannt wird. Betrachten Sie KVM als ein intelligentes, magisches Notizbuch, das das Beste aus beiden Welten vereint.

So funktioniert es mit einer einfachen Analogie:

1. Das „Gleitende Fenster" (Der unmittelbare Kontext)

Stellen Sie sich vor, Sie lesen ein Buch und haben eine Lupe, durch die Sie nur die letzten paar Seiten klar sehen können. Dies ist das „Gleitende Fenster". KVM achtet perfekt auf die neuesten Wörter, genau wie eine Standard-KI. Dies stellt sicher, dass der unmittelbare Kontext nicht übersehen wird.

2. Die „Komprimierte Zusammenfassung" (Das Langzeitgedächtnis)

Wenn Sie über diese wenigen Seiten hinauslesen, rutschen die alten Seiten aus Ihrer Lupe. Anstatt sie wegzuwerfen (wie bei RNN-artigen Modellen) oder das ganze Buch zu tragen (wie bei aktuellen Modellen), macht KVM etwas Cleveres:

Es betrachtet die Seiten, die gerade herausgerutscht sind.
Es fragt: „Welche dieser Seiten sind die wichtigsten oder einzigartigsten?"
Es schreibt eine kurze, komprimierte Zusammenfassung dieser wichtigen Seiten in ein spezielles Notizbuch.
Wenn eine neue Seite kommt, die dem sehr ähnlich ist, was bereits im Notizbuch steht, aktualisiert es einfach den bestehenden Eintrag. Wenn es etwas völlig Neues und Überraschendes ist, fügt es eine frische Zeile zum Notizbuch hinzu.

3. Das „Intelligente Zusammenführen" (Der magische Trick)

Das Papier beschreibt eine spezifische Art des Zusammenführens von Informationen, die als „Winner-Take-All"-Regel bezeichnet wird.

Stellen Sie sich einen Eimer Wasser (die neuen Informationen) und einen Schwamm (das Notizbuch) vor.
Anstatt das Wasser einfach hineinzuschütten, findet KVM genau die Stelle im Schwamm, die am besten zum Wasser passt, und saugt es dort auf.
Es verwendet auch eine „Just-in-Time"-Normalisierung. Das bedeutet: KVM hält die laufenden Summen und Zähler im Notizbuch in einer unnormalisierten Form (als rohe Summen), während neue Einträge hinzugefügt werden. Die eigentliche Division, um den korrekten Durchschnitt zu erhalten, wird erst dann durchgeführt, wenn das Notizbuch tatsächlich ausgelesen wird. Diese „faule" Division – genau zum richtigen Zeitpunkt – vermeidet es, die Normalisierung bei jedem neuen Eintrag erneut durchzuführen, was den Prozess effizienter macht.

Warum dies wichtig ist

Flexibles Format: Sie können KVM anweisen, ein winziges Notizbuch (feste Größe) für Geschwindigkeit zu behalten, oder das Notizbuch wachsen lassen, während das Buch länger wird (erweiterbare Größe).
Geschwindigkeit vs. Gedächtnis: Es ermöglicht Ihnen, einen Mittelweg zu wählen. Sie müssen sich nicht zwischen „superschnell aber vergesslich" oder „superklug aber langsam" entscheiden. Sie können es so einstellen, dass es schnell genug für die Echtzeitnutzung ist, aber klug genug, um die ganze Geschichte zu erinnern.
Keine benutzerdefinierte Hardware: Im Gegensatz zu einigen anderen neuen Methoden, die spezielle, teure Computerchips zum Ausführen benötigen, kann KVM auf Standardcomputern mit normalen Softwareoperationen laufen.

Die Ergebnisse

Die Autoren testeten dies an Sprachmodellen (KI, die Text liest und schreibt).

Kontexte mit kurzer Länge: KVM erreichte die gleiche Leistung wie die besten Standard-KI-Modelle.
Kontexte mit langer Länge: Wenn die Eingabe auf Tausende von Tokens anwuchs, erinnerte sich die erweiterbare Variante von KVM mit einem wachsenden Notizbuch viel besser an Details als Modelle mit festem RNN-artigem Speicher und war viel schneller als Transformer mit voller Aufmerksamkeit.
Die „Nadel im Heuhaufen": In Tests, bei denen die KI einen bestimmten Satz in einem massiven Text finden musste, schnitt die Version von KVM, die ihr Notizbuch wachsen ließ, sehr gut ab und bewies, dass sie tatsächlich Informationen aus der fernen Vergangenheit abrufen konnte.

Kurz gesagt, KVM ist eine neue Art für KI, lange Bücher zu lesen, ohne müde zu werden, ohne den Anfang zu vergessen und ohne einen Rucksack zu benötigen, der unendlich schwer wird. Dies erreicht es, indem es einen klaren Blick auf die Gegenwart behält und gleichzeitig eine intelligente, komprimierte Zusammenfassung der Vergangenheit pflegt.

Technische Zusammenfassung: Key-Value Means (KVM)

Problemstellung

Transformer ermöglichen effizientes Training auf moderner Hardware, leiden jedoch unter einer linearen Skalierung von Speicherbedarf und Zeit pro Ausgabeprotokoll-Token in Abhängigkeit von der Kontextlänge ( $O(N)$ Speicher, $O(N)$ Dekodierzeit). Umgekehrt erreichen moderne lineare RNNs (LRNNs) konstanten Speicherbedarf und konstante Zeit pro Token ( $O(1)$ ), haben jedoch typischerweise Schwierigkeiten mit einer begrenzten Erinnerungsfähigkeit für lange Kontexte. Bestehende Architekturen, die versuchen, diese Lücke zu schließen, verlassen sich oft auf Zustände fester Größe (was die Erinnerungsfähigkeit begrenzt) oder auf komplexes Training zur Laufzeit mit Optimierern zur Laufzeit (was die Geschwindigkeit beeinträchtigt). Es besteht ein Bedarf an einer Architektur, die Speichereffizienz, Geschwindigkeit und Erinnerungsfähigkeit für lange Kontexte ausbalanciert, ohne benutzerdefinierte Kernel oder komplexe Hyperparameter-Optimierung für das Training zur Laufzeit zu erfordern.

Methodik: Key-Value Means (KVM)

KVM ist ein neuartiger block-rekurrenter Aufmerksamkeitsmechanismus, der eine blockweise gleitende Fenster-Aufmerksamkeit (BSWA) mit einem dynamisch erweiterbaren, komprimierten Zustand integriert. Er arbeitet innerhalb einer einzelnen Softmax-Aufmerksamkeits-Schicht und vereint die Vorteile traditioneller Transformer (erweiterbarer Kontext, Parallelisierung in Blöcken) und linearer RNNs.

Kernmechanismen

Blockweise gleitendes Fenster mit komprimiertem Zustand:
KVM verarbeitet Eingaben in Blöcken. Es unterhält ein Fenster fester Größe für BSWA für jüngste Token und einen separaten, periodisch aktualisierten Zustand für ältere Token. Wenn ein Block von Token das BSWA-Fenster überläuft, wird er verarbeitet, um den Zustand zu aktualisieren, anstatt verworfen zu werden.
Zustandskomprimierung und -verschmelzung:
Überlauf-Token werden unter Verwendung einer „Winner-Take-All"-Cosine-Ähnlichkeits-ähnlichen Verschmelzungsregel in den Zustand komprimiert.
- Ähnlichkeitsmetrik: Anstelle von Standard-Softmax verwendet KVM eine maximal sparse Aktualisierungsmatrix (inspiriert von Online-Vektor-Quantisierung), wobei jeder überlaufende Schlüssel dem einzigen am stärksten korrelierten Zustandsschlüssel zugewiesen wird.
- Just-In-Time (JIT)-Renormierung: Um zu verhindern, dass die Norm von Zustandsvektoren im Laufe der Zeit durch das Mitteln orthogonaler oder entgegengesetzter Vektoren schrumpft, wendet KVM eine JIT-Normierung an. Zustandsschlüssel werden vor der Aufmerksamkeit mittels LayerNorm normalisiert. Zustandswerte werden auf einen festen „Ausleseradius" ( $\rho_i$ ) normalisiert, der bei der Erstellung des Slots bestimmt wird, wodurch die Wertmagnituden erhalten bleiben, während Richtungsänderungen ermöglicht werden.
- Merge-Gate: Ein datenabhängiges skalares Gate moduliert die Menge des eingehenden überlaufenden Schlüssels/Werts, der vom Zustand absorbiert wird.
Strategie zur Zustandserweiterung:
Im Gegensatz zu RNNs mit fester Größe unterstützt KVM einen erweiterbaren Zustand. Die „überraschendsten" (am wenigsten redundanten) überlaufenden Token werden direkt an den Zustand angehängt, während der Rest verschmolzen wird. Dies ermöglicht ein sublineares Speicherwachstum (z. B. $O(\sqrt{N})$ ) bei gleichzeitiger Beibehaltung der Erinnerungsfähigkeit für den frühen Kontext.
Handhabung der Positionscodierung:
Um die Kompatibilität mit Rotationalen Positionseingebettungen (RoPE) im BSWA-Fenster zu wahren und gleichzeitig RoPE im komprimierten Zustand zu vermeiden (der Token aus stark variierenden Positionen aggregiert), setzt KVM eine partielle RoPE-Nullsetzung ein. Der rotatorische Unterraum der Zustandsschlüssel wird auf Null gesetzt, während das BSWA-Fenster die volle RoPE beibehält. Dies ermöglicht es dem Modell, unrotierte Abfragen für den Zustand und rotierte Abfragen für das Fenster innerhalb desselben Aufmerksamkeitsdurchlaufs zu verwenden.
Sink-Token:
Eine geschützte Menge initialer Zustandszeilen (Senken) wird bewahrt, um die Verschlechterung kritischer Informationen des frühen Kontexts zu verhindern und das Problem zu adressieren, dass Sink-Token unterschiedliche Wertmagnituden aufweisen.

Hauptbeiträge

Die Arbeit stellt folgende spezifische Beiträge vor:

Neuartige block-rekurrente Formulierung: Eine Methode, um überlaufende Token unter Verwendung einer „Winner-Take-All"-Verschmelzungsregel in einen dynamisch renormierten Zustand zu komprimieren, wodurch die Notwendigkeit separater Kompressionsschichten entfällt.
Strategie zur Zustandserweiterung: Ein Mechanismus, um neue überlaufende Token an den Zustand anzuhängen, was sublineares Speicherwachstum ohne Verlust der Erinnerungsfähigkeit ermöglicht.
JIT-Renormierung: Ein Schema zur Just-in-Time-Normierung von Zustandsschlüsseln und -werten, um Vektornormen zu erhalten und destruktive Interferenz während des Mittelens zu verhindern.
Partielle RoPE-Freigabe: Eine Methode, um die Positionscodierung über komprimierte und unkomprimierte Bereiche hinweg zu teilen, indem die RoPE-Dimension in Zustandsschlüsseln auf Null gesetzt wird, was zusätzliche Parameter oder komplexe Neu-Verschmelzungsmechanismen überflüssig macht.
Vereinheitlichte Architektur: Eine einzelne Aufmerksamkeits-Schicht, die zwischen RNNs mit festem Zustand und Voll-Aufmerksamkeits-Transformer interpoliert und einen kontinuierlichen Kompromiss zwischen Speichereffizienz und Erinnerungsfähigkeit bietet.

Experimentelle Ergebnisse

Die Autoren trainierten Modelle (120M und 350M Parameter) auf dem Prolong-Datensatz mit 8k Kontextlängen.

Leistung bei langen Kontexten:
- Festzustands-KVM (256 Token): Übertraf größere OVQ/SWA-Modelle bei Verlusten für Sequenzpositionen und Benchmarks für kurze Kontexte. Es hatte jedoch Schwierigkeiten bei „Needle In A Haystack"-Tests (NIAH) mit neuen Ablenkungen (NIAH-S2/S3) bei extremen Längen, wo die Zustandskapazität zum Engpass wurde.
- Erweiterbarer KVM (Power-law/Sättigende Pläne): Die Variante „KVM sqrt" (Zustandsgröße $\propto \sqrt{N}$ ) erzielte konkurrenzfähige Ergebnisse bei Benchmarks für lange Kontexte (RULER, LongBench, NIAH) und entsprach oder übertraf nicht-hybride GPTAlpha-Modelle in Extrapolationszonen jenseits des 8k-Trainingskontexts. Sie übertraf festzuständige KVMs und reine LRNNs (RWKV-7) bei Aufgaben, die die Wiederherstellung neuer Informationen über große Distanzen erforderten, deutlich.
Leistung bei kurzen Kontexten: KVM-Varianten zeigten auf Benchmarks für kurze Kontexte (LAMBADA, ARC, HellaSwag usw.) konsistente Leistung mit Standard-Transformern, was bestätigt, dass das BSWA-Fenster die Fähigkeiten der Standardaufmerksamkeit bewahrt.
Ablationsstudien: Die Entfernung der Wertlängen-Normierung verursachte die signifikanteste Leistungsverschlechterung. Das Entfernen des Sink-Schutzes und des Merge-Gates schwächte ebenfalls die Wiederherstellung langer Kontexte erheblich.

Bedeutung und Behauptungen

Die Arbeit behauptet, dass KVM erfolgreich die Lücke zwischen RNNs mit festem Zustand und Voll-Aufmerksamkeits-Transformer schließt.

Effizienz vs. Erinnerungsfähigkeit: Es bietet eine flexible Wahl der Zustandsgröße, die es Benutzern ermöglicht, den Kompromiss zwischen Speichereffizienz und Erinnerungsfähigkeit zu justieren. Mit einem festen Zustand bietet es rekurrentes Verhalten in Blöcken mit $O(N)$ ; mit einem erweiterbaren Zustand erreicht es sublineares Speicherwachstum mit starker Wiederherstellungsfähigkeit für lange Kontexte.
Implementierungseinfachheit: KVM ist mit Standardoperationen ohne benutzerdefinierte Kernel implementierbar und unterstützt parallelisierbares Training und Vorbelegung in Blöcken.
Hybridpotenzial: Die Architektur kann in hybriden Lösungen zusammen mit LRNN-Schichten verwendet werden, um diese mit verbessertem sublinearem Speicherwachstum und Fähigkeiten zur Dekodierung langer Kontexte zu ergänzen.
Keine Optimierer zur Laufzeit: Im Gegensatz zu Ansätzen für Training zur Laufzeit (TTT) verlässt sich KVM auf eine einfache Zustandsaktualisierungsregel anstelle von Optimierern zur Laufzeit wie SGD oder Adam und vermeidet damit damit verbundene Herausforderungen bei Hyperparametern.

Die Autoren kommen zu dem Schluss, dass KVM demonstriert, dass es möglich ist, auf einfache und effektive Weise zwischen RNNs mit festem Zustand und Vollaufmerksamkeit nahtlos zu interpolieren, und bietet ein vereinheitlichtes Paket für die Modellierung langer Kontexte.

Key-Value Means