FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling

Dieses Paper stellt FlashAttention-4 vor, eine neuartige Implementierung für Blackwell-GPUs, die durch algorithmische und Kernel-Pipelining-Optimierungen zur Bewältigung asymmetrischer Hardware-Skalierung sowie durch die vollständige Implementierung in CuTe-DSL eine bis zu 2,7-fache Beschleunigung und deutlich schnellere Kompilierungszeiten erreicht.

Ted Zadouri, Markus Hoehnerbach, Jay Shah, Timmy Liu, Vijay Thakkar, Tri Dao

Veröffentlicht 2026-03-06
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

FlashAttention-4: Der neue Rennwagen für die künstliche Intelligenz

Stellen Sie sich vor, Sie bauen eine riesige Bibliothek, in der ein superkluger Roboter (eine KI) Millionen von Büchern liest, um Fragen zu beantworten. Je mehr Bücher er liest (je länger der Kontext), desto schwieriger wird es für ihn, den Überblick zu behalten. Die Technik, die ihm hilft, den Überblick zu behalten, nennt man „Attention" (Aufmerksamkeit).

Bisher war diese Technik wie ein Stau auf einer Autobahn: Die KI konnte zwar sehr schnell rechnen (die Mathematik war super), aber sie verstopfte ständig an den Ampeln, wenn sie Daten zwischen den Speichern hin- und hertransportieren musste oder wenn sie komplexe Berechnungen (wie das „Exponential"-Rechnen für die Wahrscheinlichkeiten) durchführen musste.

Mit dem neuen Chip-Design von NVIDIA, genannt Blackwell (z. B. der B200-Chip), hat sich das Problem verschoben. Die Autobahn (die Rechenleistung) wurde doppelt so breit und schnell, aber die Ampeln und die Zufahrtsstraßen (der Speicher und die Spezial-Rechner) sind genauso geblieben wie vorher. Das führt zu einem neuen Stau.

FlashAttention-4 ist die Lösung für genau dieses Problem. Hier ist, wie es funktioniert, einfach erklärt:

1. Der neue Bauplan: Asynchrones Arbeiten

Stellen Sie sich eine Baustelle vor. Früher (bei den alten Chips) mussten alle Arbeiter warten, bis der Maurer fertig war, bevor der nächste Handwerker anfangen durfte. Das war ineffizient.
FlashAttention-4 nutzt die neue Technik des Blackwell-Chips, bei der die Arbeiter (die Rechenkerne) vollständig asynchron arbeiten können.

  • Die Analogie: Ein Arbeiter malt die Wand, während ein anderer gleichzeitig die Farbe mischt und ein dritter schon die nächsten Steine trägt. Niemand wartet auf den anderen. Der Chip nutzt eine spezielle Art von „Gedächtnis" (Tensor Memory), die direkt am Arbeitsplatz liegt, damit die Arbeiter nicht ständig zum Hauptlager rennen müssen.

2. Der Trick mit dem „Kopfrechnen" statt dem Taschenrechner

Eine der größten Engpässe war das Berechnen von Exponentialfunktionen (eine spezielle mathematische Operation, die für die KI sehr wichtig, aber für den Chip sehr langsam ist). Der Chip hat nur wenige dieser speziellen „Exponential-Maschinen".

  • Die Lösung: FlashAttention-4 hat sich etwas Cleveres ausgedacht. Statt auf die langsame Maschine zu warten, imitiert es diese Berechnung mit normalen, schnellen Rechenwerkzeugen (Polynomen), die der Chip ohnehin hat.
  • Die Analogie: Es ist so, als würde ein Mathematiker, der einen langsamen Taschenrechner hat, die schwierige Aufgabe im Kopf durch eine einfache Näherungsformel lösen, die er auswendig kann. Das Ergebnis ist fast genauso gut, aber viel, viel schneller.

3. Der „Zwischenstopp"-Trick (Softmax)

Bei der Berechnung muss die KI oft Zahlen neu skalieren (um sie stabil zu halten). Früher wurde das bei jedem Schritt gemacht, auch wenn es gar nicht nötig war.

  • Die Lösung: FlashAttention-4 schaut erst genau hin: „Muss ich das wirklich jetzt tun?" Wenn die Zahlen nicht zu groß werden, überspringt es diesen Schritt.
  • Die Analogie: Stellen Sie sich vor, Sie überprüfen Ihren Geldbeutel nur dann, wenn Sie etwas kaufen wollen. Früher hätten Sie ihn bei jedem Schritt des Tages geöffnet und geschlossen, auch wenn Sie nur spazieren gingen. FlashAttention-4 spart sich diese unnötigen Öffnungen.

4. Teamarbeit auf zwei Ebenen (2-CTA)

Der neue Chip erlaubt es, zwei Arbeitsgruppen (CTAs) so zu koordinieren, dass sie wie ein riesiges Team agieren.

  • Die Lösung: Anstatt dass jede Gruppe ihre eigenen Daten vom Speicher holen muss, teilen sie sich die Last. Eine Gruppe holt die Hälfte der Daten, die andere die andere Hälfte.
  • Die Analogie: Zwei LKWs, die eine große Ladung transportieren. Statt dass jeder LKW zwei volle Fahrten macht, laden sie sich die Ladung so auf, dass jeder nur eine halbe Fahrt braucht und sie gleichzeitig losfahren. Das halbiert den Verkehr auf der Zufahrtsstraße (dem Speicher).

5. Programmieren wie mit LEGO (CuTe-DSL)

Früher mussten Ingenieure, um solche schnellen Programme zu schreiben, extrem komplizierten C++-Code schreiben, der wie eine verschachtelte Matrjoschka-Puppe aussah. Das dauerte Stunden, um den Code zu übersetzen (kompilieren).

  • Die Lösung: FlashAttention-4 wurde komplett in einer neuen Sprache geschrieben, die wie Python aussieht, aber direkt in die Maschinensprache übersetzt wird.
  • Die Analogie: Früher musste man einen Motor selbst aus Schrauben und Metallteilen schweißen (C++). Jetzt kann man mit vorgefertigten, hochmodernen LEGO-Steinen (CuTe-DSL) bauen, die sofort funktionieren. Das Programmieren ist 20- bis 30-mal schneller, und die Forscher können sofort neue Ideen testen, ohne stundenlang auf den Computer warten zu müssen.

Das Ergebnis

Auf dem neuen Blackwell-Chip (B200) ist FlashAttention-4:

  • Bis zu 1,3-mal schneller als die beste Standard-Software von NVIDIA (cuDNN).
  • Bis zu 2,7-mal schneller als andere beliebte Open-Source-Lösungen (Triton).
  • Es nutzt den Chip zu 71 % seiner theoretischen Höchstleistung aus.

Fazit:
FlashAttention-4 ist nicht nur ein kleines Update, sondern eine komplette Neugestaltung, die genau auf die Schwächen des neuen Hardware-Designs zugeschnitten ist. Es sorgt dafür, dass KI-Modelle schneller lernen, längere Texte verstehen und effizienter arbeiten, während die Entwickler, die diese Modelle bauen, endlich wieder Zeit haben, kreativ zu sein, statt nur auf Kompilierzeiten zu warten.