Compiler-First State Space Duality and Portable O(1)O(1) Autoregressive Caching for Inference

Diese Arbeit demonstriert, dass sich Mamba-2 durch compilerbasierte XLA-Optimierungen ohne handgeschriebene CUDA-Kernels effizient auf CPU, NVIDIA-GPUs und TPUs portieren lässt, wodurch eine theoretische O(1)O(1)-Zustandsverwaltung und hardwareunabhängige Inferenz mit hoher Leistung erreicht werden.

Cosmo Santoni

Veröffentlicht Wed, 11 Ma
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschung von Cosmo Santoni, als würde man sie einem Freund beim Kaffee erzählen – ohne komplizierte Fachbegriffe, aber mit ein paar guten Bildern.

Das Problem: Der "NVIDIA-Schlüssel"

Stell dir vor, du hast einen hochmodernen, extrem schnellen Motor für ein Auto (das ist das KI-Modell namens Mamba-2). Bislang funktionierte dieser Motor nur, wenn du ein ganz bestimmtes Schloss hast: den NVIDIA-Schlüssel.

Das Problem? Dieser Schlüssel passt nur in Autos mit NVIDIA-Motoren (Grafikkarten). Wenn du ein Auto mit einem anderen Motor hast (z. B. von Google, AMD oder sogar einen normalen Computer-Prozessor), musst du den Motor komplett zerlegen und mit Schraubenzieher und Klebeband (sogenannte "handgeschriebene Kernel") neu zusammenbauen, damit er läuft. Das ist teuer, fehleranfällig und macht das Auto nur für eine einzige Marke nutzbar.

Die Lösung: Der "Universal-Adapter"

Cosmo Santoni hat jetzt einen genialen Trick gefunden. Er hat entdeckt, dass der Motor von Mamba-2 eigentlich so aufgebaut ist, dass er nicht zwingend diesen speziellen Schlüssel braucht.

Statt den Motor zu zerlegen, hat er ihn so umgebaut, dass er direkt mit dem Bordcomputer des Autos (dem Compiler, hier XLA) kommunizieren kann.

  • Die alte Methode: Ein Handwerker baut jeden Motor einzeln und maßgeschneidert.
  • Die neue Methode: Der Bordcomputer liest die Bauanleitung des Motors, optimiert ihn automatisch für das jeweilige Auto und baut ihn in Sekunden zusammen.

Das Tolle daran: Ein einziger Bauplan (der Code) funktioniert jetzt für alle Autos – egal ob du einen NVIDIA-Motor, einen Google-Chip (TPU) oder einen normalen Computer hast.

Wie funktioniert das? (Die Analogie)

Stell dir vor, du musst eine riesige Bibliothek durchsuchen, um ein bestimmtes Buch zu finden.

  1. Der alte Weg (Nur NVIDIA): Du hast einen speziellen Roboter, der die Regale nur in einem bestimmten Muster abtasten kann. Wenn du einen anderen Roboter hast, musst du die ganze Bibliothek neu organisieren, damit er sie lesen kann.
  2. Der neue Weg (Compiler-First): Die Bibliothek ist so aufgebaut, dass sie aus klaren, quadratischen Blöcken besteht. Der Compiler (der Bordcomputer) sieht diese Blöcke und sagt: "Ah, ich kann diese Blöcke einfach stapeln und parallel bearbeiten!" Er muss nichts manuell umbauen. Er nutzt die natürliche Struktur des Systems.

Die zwei großen Vorteile

1. Der "Unendliche" Speicher (O(1) Caching)
Wenn ein KI-Modell einen Text schreibt, muss es sich alles merken, was es bisher gesagt hat.

  • Bei normalen Modellen: Es ist wie ein Schüler, der für jede neue Zeile einen neuen Zettel in einen immer länger werdenden Stapel legt. Je länger der Text, desto mehr Platz braucht er und desto langsamer wird er.
  • Bei diesem neuen Ansatz: Es ist wie ein Schüler, der nur einen einzigen Notizblock hat. Egal wie lange der Text wird, er schreibt nur den neuesten Gedanken auf den Block und löscht den alten. Der Platzverbrauch bleibt immer gleich (konstant), egal ob der Text 10 Wörter oder 10.000 Wörter lang ist.
  • Der Clou: Früher musste dieser Schüler immer wieder zum Lehrer (dem Computer-Prozessor) laufen, um den Block zu aktualisieren. Cosmo hat den Schüler so trainiert, dass er den Block direkt im Kopf behält. Er läuft nirgendwohin mehr. Das macht ihn extrem schnell.

2. Die "Einheitsgröße" (Portabilität)
Früher musste man für jeden Chip-Typ (NVIDIA, Google, AMD) eine eigene Version des Programms schreiben. Jetzt reicht ein einziger Code.

  • Stell dir vor, du hast ein Rezept für einen Kuchen. Früher musstest du das Rezept für jeden Ofen (Gas, Elektro, Induktion) neu schreiben.
  • Jetzt sagst du dem Ofen einfach: "Backe bei 180 Grad." Der Ofen (der Compiler) weiß genau, wie er die Hitze für seinen Typ am besten verteilt. Das Rezept funktioniert überall gleich gut.

Was hat das gebracht? (Die Ergebnisse)

Der Autor hat das auf einem Google-Supercomputer (TPU v6e) getestet:

  • Geschwindigkeit: Es ist fast so schnell wie die spezialisierten NVIDIA-Versionen.
  • Effizienz: Der Computer nutzt seine volle Leistung aus (bis zu 64 % der maximalen Bandbreite).
  • Genauigkeit: Das Ergebnis ist exakt dasselbe wie bei der Original-Version. Kein Unterschied, kein Fehler.
  • Vielseitigkeit: Der Code läuft auf Google-TPUs, NVIDIA-GPUs und sogar auf normalen Prozessoren (CPUs), ohne dass man etwas ändern muss.

Fazit

Dieser Artikel sagt im Grunde: "Wir müssen nicht mehr jeden Motor manuell schrauben."

Dank einer cleveren Umstrukturierung des Codes (Compiler-First) können wir die neuesten, schnellsten KI-Modelle auf jedem Hardware-Typ laufen lassen, ohne dass wir für jeden Chip-Typ neue, komplizierte Programme schreiben müssen. Das macht KI schneller, günstiger und für viel mehr Menschen zugänglich.

Der Code ist bereits öffentlich verfügbar und wird in der Bibliothek "Bonsai" verwendet. Es ist ein großer Schritt weg von der Abhängigkeit von einem einzigen Hardware-Hersteller hin zu einer offenen, flexiblen Zukunft.