Double-Precision Matrix Multiplication Emulation via Ozaki-II Scheme with FP8 Quantization

Diese Arbeit stellt eine neuartige Methode vor, die es ermöglicht, die Ozaki-II-Scheme zur Emulation von FP64-Matrixmultiplikation auf FP8-MMA-Einheiten anzuwenden, wodurch im Vergleich zum Ozaki-I-Ansatz die Anzahl der erforderlichen FP8-Multiplikationen signifikant reduziert und eine effiziente Berechnung auf zukünftigen GPU-Architekturen ermöglicht wird.

Yuki Uchino, Katsuhisa Ozaki, Toshiyuki Imamura

Veröffentlicht Thu, 12 Ma
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein Architekt, der einen riesigen, extrem präzisen Wolkenkratzer bauen muss. In der Welt des Supercomputing (HPC) ist diese Aufgabe die Doppelgenauigkeits-Matrixmultiplikation (DGEMM). Das ist die mathematische Basis für alles von Wettervorhersagen bis hin zu Simulationen von Atomkernen.

Früher hatten die Computerbausteine (GPUs) spezielle Werkzeuge für diese feine, langsame Arbeit (FP64). Aber in den letzten Jahren haben sich die Hersteller darauf konzentriert, Werkzeuge für künstliche Intelligenz (KI) zu bauen. Diese KI-Werkzeuge sind extrem schnell, aber sie arbeiten nur mit groben, einfachen Zahlen (wie FP8 oder INT8).

Das Problem: Die neuen Supercomputer (wie NVIDIAs "Rubin" oder "Blackwell Ultra") haben die feinen Werkzeuge für die präzise Arbeit fast ganz entfernt oder stark verkleinert. Sie sind jetzt vollgepackt mit den schnellen, aber groben KI-Werkzeugen.

Die Frage lautet: Wie baut man einen präzisen Wolkenkratzer, wenn man nur noch grobe, schnelle Werkzeuge hat?

Hier kommt die Lösung der Autoren ins Spiel: Ein cleverer Trick namens "Ozaki-II-Schema", der jetzt auch mit den neuen FP8-Werkzeugen funktioniert.

Die Analogie: Der Bau mit Lego-Steinen

Stellen Sie sich vor, Sie müssen eine riesige Zahl (z. B. eine sehr genaue Messung) berechnen, aber Ihr Taschenrechner kann nur kleine, einfache Zahlen addieren.

  1. Der alte Weg (Ozaki-I):
    Man nimmt die große Zahl und zerlegt sie in viele kleine, einfache Teile (wie Lego-Steine). Man berechnet jeden Teil einzeln und setzt sie am Ende wieder zusammen.

    • Nachteil: Man braucht sehr viele Lego-Steine (viele Rechenoperationen), um die Genauigkeit zu erreichen. Das ist langsam, auch wenn die einzelnen Steine schnell verarbeitet werden.
  2. Der neue Weg (Ozaki-II mit FP8):
    Die Autoren haben einen noch clevereren Trick gefunden. Statt einfach nur viele Steine zu stapeln, nutzen sie eine Art "mathematisches Puzzle", das auf dem chinesischen Restsatz basiert (ein alter mathematischer Trick, um große Zahlen aus kleinen Resten zu rekonstruieren).

    • Das Problem mit FP8: Früher funktionierte dieser Trick nur mit "INT8" (ganzzahligen Zahlen). Wenn man versuchte, ihn mit "FP8" (Fließkommazahlen) zu machen, passte das Puzzle nicht zusammen, weil FP8 einen "Exponenten" (eine Art Zehnerpotenz) hat, der bei den alten Tricks stört.
    • Die Lösung der Autoren: Sie haben das Puzzle neu gezeichnet. Sie nutzen eine Mischung aus zwei Methoden:
      • Ein Teil des Puzzles wird mit einer Methode namens Karatsuba gelöst (eine Art, große Multiplikationen in kleinere zu zerlegen).
      • Der andere Teil nutzt einen Trick, bei dem sie bestimmte Zahlen so wählen, dass der störende Exponent einfach wegfällt (Modulare Reduktion).

    Das Ergebnis: Sie können die präzise Berechnung mit den schnellen FP8-Werkzeugen durchführen, aber sie brauchen deutlich weniger Rechenschritte als beim alten "viele Steine stapeln"-Verfahren.

Warum ist das wichtig?

Stellen Sie sich vor, Sie haben zwei Arten von Arbeitern:

  • INT8-Arbeiter: Sehr schnell, aber sie können nur ganze Zahlen zählen.
  • FP8-Arbeiter: Auch sehr schnell, aber sie können Dezimalzahlen (wie 3,14) verarbeiten.

In den neuen Computern sind die INT8-Arbeiter teilweise durch FP8-Arbeiter ersetzt worden. Die Autoren zeigen nun, wie man mit den FP8-Arbeitern genauso präzise bauen kann wie mit den alten INT8-Arbeitern, ohne dabei die Geschwindigkeit zu verlieren.

Der Vergleich:

  • Ozaki-I (der alte Trick mit FP8): Benötigt etwa 121 Rechenschritte, um die Genauigkeit zu erreichen.
  • Ozaki-II (der neue Trick mit FP8): Benötigt nur etwa 36 Rechenschritte.

Das ist wie der Unterschied zwischen einem Bau, bei dem man 121 kleine Steine einzeln setzen muss, und einem, bei dem man nur 36 große, vorgefertigte Module braucht.

Das Fazit für den Alltag

Die Autoren haben eine Art "Übersetzer" entwickelt. Dieser Übersetzer nimmt die komplexen, präzisen Aufgaben, die Supercomputer normalerweise nur langsam lösen können, und wandelt sie so um, dass die neuen, extrem schnellen KI-Chips sie blitzschnell bearbeiten können.

Warum sollten wir das wissen?

  1. Zukunftssicherheit: Wenn die Computerhersteller die präzisen Werkzeuge weiter entfernen, können wir trotzdem weiterhin präzise wissenschaftliche Berechnungen durchführen.
  2. Effizienz: Es spart Energie und Zeit, weil die neuen Chips voll ausgenutzt werden.
  3. Flexibilität: Es funktioniert auch auf Hardware, die gar keine "ganzzahligen" (INT8) Werkzeuge mehr hat, sondern nur noch die "Dezimal"-Werkzeuge (FP8).

Kurz gesagt: Die Autoren haben einen Weg gefunden, wie man mit den schnellen, groben Werkzeugen der KI-Ära trotzdem die feine, präzise Arbeit der Wissenschaft erledigen kann – ohne dabei die Geschwindigkeit zu opfern. Sie haben das Puzzle so umgebaut, dass es perfekt in die neue Maschine passt.