M$^2$RNN: Non-Linear RNNs with Matrix-Valued States for Scalable Language Modeling

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du versuchst, ein riesiges Buch zu lesen und gleichzeitig jeden einzelnen Charakter, jede Handlung und jeden versteckten Hinweis im Gedächtnis zu behalten. Das ist genau das Problem, mit dem moderne Künstliche Intelligenz (KI) bei der Verarbeitung von Sprache kämpft.

Die aktuelle Standard-KI-Architektur, der Transformer, ist wie ein extrem schneller, aber etwas oberflächlicher Leser. Er kann viele Wörter gleichzeitig scannen (parallel), aber wenn es darum geht, komplexe Zusammenhänge über lange Zeit zu verfolgen (wie in einem Programmcode oder einem spannenden Krimi), stolpert er oft. Er vergisst Details oder verliert den Faden.

Andere Modelle, die sogenannten linearen RNNs (wie Mamba oder DeltaNet), sind wie sehr effiziente Notizblock-Systeme. Sie sind schnell und brauchen wenig Speicher, aber ihr "Gedächtnis" ist zu starr. Sie können nur einfache Muster speichern, aber keine komplexen, nicht-linearen Zusammenhänge (wie das Lösen eines mathematischen Rätsels oder das Verfolgen von Figuren in einem Spiel).

Hier kommt M2RNN ins Spiel – die neue Erfindung aus diesem Papier.

Die Metapher: Vom Taschenbuch zum riesigen Archiv

Um M2RNN zu verstehen, stellen wir uns drei verschiedene Arten vor, wie ein KI-Modell Informationen speichert:

Der alte RNN (Vektor-basiert): Stell dir vor, das Modell hat nur einen einzigen kleinen Zettel in der Hand. Wenn es einen neuen Satz liest, muss es alles Wichtige auf diesen einen Zettel quetschen. Ist der Zettel voll, muss es alte Informationen löschen, um Platz für neue zu machen. Das führt zu Chaos und Vergessen.
Der lineare RNN (Matrix-basiert, aber starr): Jetzt hat das Modell ein großes Raster (eine Matrix) aus Zetteln. Es ist viel größer als der kleine Zettel, aber die Art, wie es die Informationen darauf schreibt, ist sehr starr. Es kann nur einfache Additionen machen. Wenn du ihm sagst: "Vergiss das, was vor 100 Zeilen stand, und behalte nur das Neue", kann es das nicht flexibel genug tun.
Das M2RNN (Matrix-zu-Matrix): Das ist der Gewinner. Stell dir vor, das Modell hat nicht nur ein großes Raster, sondern es kann jeden einzelnen Zettel in diesem Raster dynamisch umschreiben. Es ist wie ein riesiges, lebendiges Archiv, in dem jeder Schrank (jeder Teil der Matrix) sich selbstständig entscheiden kann, was er behält und was er verwirft.

Was macht M2RNN so besonders?

Das Papier beschreibt drei Hauptvorteile, die wir uns so vorstellen können:

1. Das "Super-Gedächtnis" (State Tracking)

Frühere Modelle scheiterten an Aufgaben, bei denen sie Dinge über lange Zeit verfolgen mussten (z. B. "Wer hat wann was getan?").

Die Analogie: Stell dir vor, du musst in einem Labyrinth den Weg zurückfinden. Ein linearer RNN ist wie jemand, der nur geradeaus läuft und sich nicht umdreht. Ein M2RNN ist wie jemand, der eine detaillierte 3D-Karte zeichnet, auf der er jeden Abzweig markiert.
Das Ergebnis: M2RNN kann Aufgaben lösen, bei denen andere Modelle komplett versagen, selbst wenn die Texte extrem lang sind. Es behält den "Faden" perfekt.

2. Der "Smart-Notizblock" (State Expansion)

Das Geheimnis von M2RNN ist, dass es seine Notizen nicht in einer Liste, sondern in einer Tabelle (einer Matrix) schreibt.

Die Analogie: Wenn du eine Liste hast, brauchst du für 100 Fakten 100 Zeilen. Wenn du eine Tabelle hast, kannst du 100 Fakten in einem einzigen, gut strukturierten Raster speichern, ohne dass die Seite riesig wird.
Der Vorteil: Das Modell kann viel mehr Informationen speichern, ohne dass es teurer wird oder langsamer rechnet. Es nutzt den Speicherplatz effizienter als je zuvor.

3. Der "Vergessens-Button" (Forget Gate)

Ein Problem bei alten RNNs war, dass sie sich alles zu sehr merken wollten, was sie verwirrte.

Die Analogie: Stell dir vor, du hast einen Freund, der dir jede Kleinigkeit erzählt, die ihm je passiert ist. Du würdest wahnsinnig werden. M2RNN hat einen intelligenten "Vergessens-Button". Dieser Button entscheidet proaktiv: "Das hier ist wichtig, behalte es!" und "Das hier ist alt, wirf es weg!".
Das Besondere: Dieser Button funktioniert unabhängig vom aktuellen Gedächtnis, was es dem Modell erlaubt, sehr schnell zu lernen und nicht stecken zu bleiben.

Warum ist das ein Game-Changer?

Bisher gab es ein Dilemma: Entweder war das Modell schnell und effizient (aber dumm bei komplexen Aufgaben) oder es war schlau (aber langsam und teuer).

Hybrid-Modelle: Das Papier zeigt, dass man M2RNN nicht überall einbauen muss. Man kann es wie einen Spezialisten in ein Team einfügen. Stell dir ein Team von 100 Mitarbeitern vor. 99 sind schnelle, effiziente Mitarbeiter (lineare RNNs), aber einer ist ein genialer Detektiv (M2RNN). Selbst wenn nur dieser eine Detektiv im Team ist, löst das Team komplexe Fälle viel besser als ohne ihn.
Ergebnis: Die Modelle werden nicht nur schlauer (bessere Vorhersagen, besseres Verständnis von Code und langen Texten), sondern bleiben auch schnell genug für den echten Einsatz.

Zusammenfassung für den Alltag

Stell dir vor, du baust ein Gehirn für eine KI.

Die alten Modelle waren wie ein Gehirn mit einem kurzen Arbeitsgedächtnis (vergisst schnell) oder einem steifen Langzeitgedächtnis (kann nicht flexibel lernen).
M2RNN ist wie ein Gehirn, das beides kann: Es hat einen riesigen, organisierten Speicher, der sich selbst verwaltet. Es kann komplexe Rätsel lösen, lange Geschichten verstehen und dabei trotzdem schnell rechnen.

Das Papier beweist, dass wir nicht unbedingt riesigere Modelle brauchen, um schlauer zu werden. Wir brauchen nur die richtige Art, Informationen zu speichern. M2RNN ist dieser neue, effiziente Weg, der KI endlich erlaubt, wirklich "nachzudenken" und nicht nur Muster zu erkennen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper adressiert die fundamentalen Einschränkungen der derzeit dominierenden Transformer-Architekturen sowie der neueren linearen RNNs (Recurrent Neural Networks) und State Space Models (SSMs) wie Mamba oder Gated DeltaNet:

Begrenzte Ausdruckskraft (Expressivity): Transformer und lineare RNNs fallen in die Komplexitätsklasse TC0. Sie sind theoretisch nicht in der Lage, komplexe Zustandsverfolgungsaufgaben (State Tracking) wie das Ausführen von Code, das Verfolgen von Entitäten oder das Zusammensetzen von Permutationsgruppen (z. B. $S_5$ ) zu lösen, die in die Klasse NC1 fallen.
Schlechte In-Context-Retrieval-Leistung: Lineare RNNs leiden unter einer begrenzten Speicherkapazität ihres Zustandsvektors. Wenn die Anzahl der Key-Value-Assoziationen die Kapazität des Zustands übersteigt, werden Informationen überschrieben, was zu schlechter Leistung bei Aufgaben wie „Needle in a Haystack" führt.
Ineffizienz nichtlinearer RNNs: Traditionelle nichtlineare RNNs (wie LSTMs oder GRUs) besitzen zwar die notwendige Ausdruckskraft, unterliegen jedoch massiven Nachteilen:
- Schlechte Sprachmodellierung: Sie schneiden bei Sprachmodellierungsaufgaben deutlich schlechter ab als Transformer oder lineare RNNs. Die Autoren argumentieren, dass dies primär an der geringen Zustandsgröße (State Size) liegt, nicht an der Nichtlinearität selbst.
- Hardware-Ineffizienz: Herkömmliche nichtlineare RNNs können nicht parallel über die Sequenzlänge berechnet werden. Zudem führt die Vektor-zu-Vektor-Rechnung auf GPUs oft zu ineffizienter Nutzung von Tensor-Cores, da Padding entlang der Batch-Dimension erforderlich ist, was Rechenleistung (FLOPs) verschwendet.

2. Methodik: M2RNN (Matrix-to-Matrix RNN)

Die Autoren stellen M2RNN vor, eine nichtlineare RNN-Architektur, die diese Probleme durch folgende Innovationen löst:

Matrixwertige Zustände (Matrix-Valued States): Anstelle eines Vektorzustands $h_t \in \mathbb{R}^d$ $h_{t} \in R^{d}$ verwendet M2RNN einen Matrixzustand $H_t \in \mathbb{R}^{K \times V}$ $H_{t} \in R^{K \times V}$ . Dies wird durch eine Outer-Product-Erweiterung erreicht (ähnlich wie bei linearer Attention), bei der der neue Zustand als Summe aus dem vorherigen Zustand und einem Outer-Product ( $k_t v_t^\top$ $k_{t} v_{t}^{⊤}$ ) berechnet wird.
- Vorteil: Dies erhöht die Speicherkapazität drastisch, ohne die Parameterzahl proportional zu erhöhen.
Nichtlineare Zustandsübergänge: Die Aktualisierung des Zustands beinhaltet eine nichtlineare Aktivierung (Tanh), was die Ausdruckskraft über TC0 hinaushebt und komplexe Zustandsverfolgung ermöglicht.
Unabhängiges Forget-Gate: M2RNN verwendet ein Forget-Gate, das nur vom Eingabevektor abhängt und nicht vom vorherigen Zustand. Dies ermöglicht eine parallele Berechnung des Gates über die Sequenz hinweg (im Gegensatz zu LSTMs/GRUs) und verhindert das Verschwinden von Gradienten.
Hybride Architekturen: Da M2RNN-Layer rechenintensiv sind, wird ein hybrides Design vorgeschlagen, bei dem M2RNN-Layer sparsam mit Attention-Layern oder linearen RNN-Layern (wie Gated DeltaNet) kombiniert werden.

3. Systemoptimierung und Hardware-Nutzung

Ein wesentlicher Beitrag des Papers liegt in der effizienten Implementierung auf GPUs:

Vermeidung von Padding: Durch die Matrix-zu-Matrix-Formulierung sind die Dimensionen der GEMM-Operationen (Matrix-Matrix-Multiplikation) unabhängig von der Batch-Größe. Dies ermöglicht die direkte Nutzung von Tensor-Cores (z. B. WMMA-Instructions auf NVIDIA Hopper-GPUs) ohne das Padding, das bei vektorwertigen RNNs (wie in FlashRNN) zu 75% verschwendeten FLOPs führen kann.
Distributed Training: Es werden zwei Strategien für Tensor Parallelism (TP) vorgestellt:
1. Topologie-bewusst: Nutzt eine gruppierte Value-Formulierung, erfordert keine zusätzliche Kommunikation, koppelt aber die Parameterzahl an die TP-Größe.
2. Topologie-unabhängig: Erhält die Parameterzahl unabhängig von der Anzahl der GPUs, erfordert jedoch zusätzliche AllReduce-Kommunikation für die Synchronisation von RMSNorm und Gradienten.

4. Wichtige Ergebnisse

Die Experimente wurden an Modellen mit 410M Parametern (dense) und 7B Parametern (MoE) durchgeführt:

Zustandsverfolgung (State Tracking): M2RNN erreicht eine perfekte Generalisierung bei Permutationsgruppen-Aufgaben ( $S_3$ ), selbst bei Sequenzlängen, die weit über die Trainingslänge hinausgehen. Lineare Modelle (Mamba-2, Gated DeltaNet) scheitern hier oder generalisieren schlecht.
Sprachmodellierung:
- Reine M2RNN-Modelle erreichen eine Leistung, die Mamba-2 und Gated DeltaNet sehr nahe kommt (innerhalb von 0,01–0,5 Perplexity-Punkten), was die These untermauert, dass die geringe Zustandsgröße der Grund für die schlechte Leistung früherer nichtlinearer RNNs war.
- Hybrid M2RNN (Kombination mit Attention) übertrifft Hybrid Mamba-2 und Hybrid Gated DeltaNet um 0,4–0,5 Perplexity-Punkte auf dem 7B MoE-Modell.
In-Context Retrieval & Long-Context:
- M2RNN zeigt überlegene Fähigkeiten beim Abrufen von Informationen aus langen Kontexten.
- Auf dem LongBench-Benchmark übertreffen Hybrid-Modelle mit M2RNN den State-of-the-Art (Hybrid Gated DeltaNet) um bis zu 8 Punkte in der durchschnittlichen Genauigkeit.
- Selbst das Ersetzen nur einer einzigen Schicht in einem bestehenden Hybrid-Modell durch M2RNN führt zu signifikanten Genauigkeitsgewinnen bei minimalem Verlust im Trainingsdurchsatz (nur ~6% Einbuße).
Hardware-Effizienz: M2RNN vermeidet die durch Padding verursachten FLOPs-Verschwendung und nutzt Tensor-Cores effizienter als vektorwertige nichtlineare RNNs.

5. Bedeutung und Fazit

Das Paper etabliert nichtlineare RNN-Schichten als einen vielversprechenden Baustein für skalierbare und effiziente Sprachmodelle.

Theoretische Bedeutung: Es beweist, dass nichtlineare RNNs mit ausreichender Zustandsgröße die theoretischen Grenzen von TC0 durchbrechen und Aufgaben lösen können, die für Transformer und lineare SSMs unmöglich sind.
Praktische Bedeutung: M2RNN bietet eine Lösung für das „Dilemma" zwischen Ausdruckskraft und Effizienz. Durch die Kombination mit linearen Architekturen (Hybrid-Modelle) können Modelle erstellt werden, die sowohl die Effizienz linearer Modelle (für lange Kontexte) als auch die hohe Ausdruckskraft nichtlinearer Modelle (für komplexe Logik und Retrieval) vereinen.
Skalierbarkeit: Die vorgestellten Kernel-Optimierungen und TP-Strategien machen M2RNN für das Training großer Modelle in der Praxis nutzbar.

Zusammenfassend zeigt das Paper, dass die Wiederaufnahme nichtlinearer RNNs, unterstützt durch matrixwertige Zustände und moderne Hardware-Optimierungen, einen neuen Weg für leistungsfähigere und effizientere Sprachmodelle jenseits der reinen Transformer-Architektur darstellt.

M2^22RNN: Non-Linear RNNs with Matrix-Valued States for Scalable Language Modeling

Die Metapher: Vom Taschenbuch zum riesigen Archiv

Was macht M2RNN so besonders?

1. Das "Super-Gedächtnis" (State Tracking)

2. Der "Smart-Notizblock" (State Expansion)

3. Der "Vergessens-Button" (Forget Gate)

Warum ist das ein Game-Changer?

Zusammenfassung für den Alltag

1. Problemstellung

2. Methodik: M2RNN (Matrix-to-Matrix RNN)

3. Systemoptimierung und Hardware-Nutzung

4. Wichtige Ergebnisse

5. Bedeutung und Fazit

Mehr davon

The Diffusion-Attention Connection

Fairboard: a quantitative framework for equity assessment of healthcare models

Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

Human-like Working Memory Interference in Large Language Models

Belief-State RWKV for Reinforcement Learning under Partial Observability

M $^2$ RNN: Non-Linear RNNs with Matrix-Valued States for Scalable Language Modeling