The AetherFloat Family: Block-Scale-Free Quad-Radix Floating-Point Architectures for AI Accelerators

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der „AetherFloat"-Forschung, als würde man sie einem Freund beim Kaffee erklären – ohne komplizierte Fachbegriffe, aber mit ein paar bildhaften Vergleichen.

Das große Problem: Der alte Standard ist zu schwerfällig

Stellen Sie sich vor, Computer sind riesige Küchen, in denen Millionen von Köchen (den Prozessoren) gleichzeitig Gerichte (Berechnungen) zubereiten. Seit Jahrzehnten nutzen diese Köche ein festes Rezeptbuch: den IEEE 754 Standard für Gleitkommazahlen.

Das Problem ist: Dieses Rezeptbuch ist wie ein alter, schwerer Kochlöffel aus massivem Holz.

Platzverschwendung: Um Zahlen zu vergleichen oder zu sortieren, müssen die Köche erst einen komplizierten Umweg gehen (wie einen versteckten „Anfangsbuchstaben" in einem Wort zu erraten). Das kostet viel Platz in der Küche (Siliziumfläche) und Zeit.
Die „Outlier"-Krise: Wenn wir heute riesige KI-Modelle (wie Chatbots) trainieren, passieren oft seltsame Dinge: Plötzlich tauchen Zahlen auf, die so riesig sind, dass sie den kleinen Teller des Rezeptbuchs sprengen. Um das zu verhindern, müssen die Köche ständig einen extra Wächter (die sogenannte „Block-Scale"-Logik) einsetzen, der prüft, ob etwas zu groß wird. Das bremst die ganze Küche aus.

Die Lösung: Das AetherFloat-Team

Der Forscher Keita Morisaki hat eine neue Art von Kochlöffel erfunden, die er AetherFloat nennt. Er hat das Rezeptbuch komplett neu geschrieben, damit es perfekt für moderne KI-Küchen passt.

Hier sind die drei genialen Tricks, einfach erklärt:

1. Der „Sortier-Trick" (Lexicographic One's Complement)

Das alte Problem: In der alten Welt waren negative Zahlen beim Sortieren ein Albtraum. Wenn Sie eine Liste von Zahlen sortieren wollten, musste der Computer erst überlegen: „Ist das negativ? Dann muss ich es umdrehen." Das war wie ein Koch, der erst jedes Gemüse schälen muss, bevor er es schneiden kann.
Die AetherFloat-Lösung: AetherFloat baut negative Zahlen so, dass sie sich von selbst sortieren lassen, genau wie positive Zahlen.

Die Analogie: Stellen Sie sich vor, alle Zutaten liegen in einer Reihe. Bei AetherFloat müssen Sie nicht erst umdrehen, um zu sehen, was größer ist. Die Reihenfolge ist von Anfang an perfekt. Der Computer kann jetzt einfach einen billigen, schnellen „Intelligenz-Test" (einen einfachen Vergleicher) nutzen, statt einen teuren, komplexen Rechner. Das spart enorm viel Platz und Strom.

2. Der „Schnell-Experten-Trick" (Quad-Radix / Basis-4)

Das alte Problem: Der alte Standard nutzt die Basis 2 (nur 0 und 1). Um Zahlen anzupassen, muss der Computer viele kleine Schritte machen (wie Treppenstufen).
Die AetherFloat-Lösung: AetherFloat nutzt die Basis 4.

Die Analogie: Stellen Sie sich vor, Sie müssen eine Leiter hochklettern. Der alte Standard hat viele kleine, enge Stufen. AetherFloat hat breite, flache Plattformen. Sie kommen viel schneller oben an.
Der Vorteil: Dadurch passt eine viel größere Spanne von Zahlen in den gleichen kleinen Raum. Das bedeutet: Wenn eine KI plötzlich eine riesige Zahl produziert (ein „Outlier"), passt sie einfach hinein, ohne dass der extra Wächter (Block-Scale) eingreifen muss. Die Küche läuft ohne Stau.

3. Der „Offene-Kasten-Trick" (Explizite Mantisse)

Das alte Problem: Der alte Standard spart einen Bit (eine Stelle) an, indem er annimmt, dass die erste Stelle immer eine „1" ist. Das ist wie ein Koch, der sagt: „Ich nehme an, du hast immer einen Löffel in der Hand, also spare ich den Platz dafür." Das spart zwar Platz, aber wenn der Computer rechnet, muss er diesen Löffel erst wieder „herbeizaubern", was Zeit kostet.
Die AetherFloat-Lösung: AetherFloat zeigt den Löffel offen an (explizit).

Der Trade-off: Man opfert ein winziges bisschen mathematische Genauigkeit (man nimmt eine Stelle weniger mit), aber dafür wird der Rechenweg so einfach, dass der eigentliche Multiplizierer (der „Koch") viel kleiner und schneller wird.
Das Ergebnis: Der Chip wird um 33 % kleiner und verbraucht 22 % weniger Strom. Das ist wie ein Koch, der mit einem kleineren, leichteren Messer arbeitet, aber trotzdem genauso schnell schneidet.

Was bedeutet das für uns?

Es gibt zwei Versionen dieses neuen Systems:

AetherFloat-16 (AF16): Ein fast perfekter Ersatz für das aktuelle Standardformat. Es funktioniert sofort, ohne dass man die KI neu trainieren muss.
AetherFloat-8 (AF8): Das ist das „Super-Modell" für die Zukunft. Es ist so klein und schnell, dass es KI-Chips massiv beschleunigt.
- Aber: Damit es funktioniert, muss man die KI etwas anders trainieren (man nennt das „Quantization-Aware Training"). Man kann es nicht einfach „einschalten" wie ein altes Format. Man muss die KI erst ein paar Stunden lang auf dieses neue Format „einschulen".
- Der Lohn: Wenn die KI einmal trainiert ist, braucht sie keine riesigen Wächter mehr, um zu prüfen, ob Zahlen zu groß werden. Sie ist „Block-Scale-Free" – also völlig frei von diesen Bremsen.

Fazit

Die AetherFloat-Familie ist wie der Wechsel von einem schweren, alten Holzschlitten auf einen modernen, leichten Snowboard.

Alt: Schwer, braucht viel Platz, bremst oft, wenn es steil wird.
Neu (AetherFloat): Leicht, schnell, passt riesige Sprünge (Outlier) problemlos, kostet weniger Energie.

Der Preis dafür ist, dass man sich erst ein paar Minuten lang auf das Snowboard gewöhnen muss (das Training), aber sobald man läuft, ist man viel schneller und effizienter als je zuvor. Das ist ein großer Schritt für die Zukunft von KI-Chips, die kleiner, schneller und sparsamer werden sollen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „The AetherFloat Family: Block-Scale-Free Quad-Radix Floating-Point Architectures for AI Accelerators" auf Deutsch:

1. Problemstellung

Die IEEE-754-Standard für Gleitkommazahlen, obwohl das Fundament des modernen Rechnens, weist erhebliche Nachteile für massiv parallele Neural Processing Units (NPUs) und KI-Beschleuniger auf:

Hardware-Overhead: Die Anforderungen an eine versteckte führende Bit (Hidden Bit), die Basis-2-Normalisierung und die Vorzeichen-Betrag-Kodierung führen zu hohem Siliziumflächen- und Energieverbrauch. Tiefe logarithmische Barrel-Shifters und komplexe Alignments-Crossbars vergrößern die Chipfläche.
Pipeline-Stalls: Subnormale Zahlen (Subnormals) erfordern in herkömmlichen FPUs oft Mikrocode-Fallen (Traps), die Pipelines stoppen.
Block-Skalierung (AMAX) bei 8-Bit: Der Trend zu 8-Bit-Formaten (wie FP8) für Large Language Models (LLMs) führt zu Problemen mit Ausreißern in den Aktivierungen. Um Überläufe zu verhindern, ist zwingend eine komplexe Hardware für die Block-Skalierung (AMAX-Logik) erforderlich, die den dynamischen Bereich pro Tensor-Block begrenzt und zusätzliche Latenz sowie Hardware-Komplexität einführt.

2. Methodik und Architekturelle Innovationen

Die AetherFloat-Familie ist eine parametrisierbare Architektur, die von Grund auf für das Co-Design von Hardware und Software entwickelt wurde. Sie basiert auf drei Kerninnovationen:

Lexikografische Einer-Komplement-Unpacking (Lexicographic One's Complement Unpacking):
- Anstatt der herkömmlichen Vorzeichen-Betrag-Kodierung, die die Ganzzahl-Vergleichbarkeit bricht, nutzt AetherFloat eine Kodierung, die die Vorzeichenbits so manipuliert, dass negative Zahlen durch bitweises Invertieren (Einer-Komplement) der Betragsbits eine monotone, ganzzahlige Sortierreihenfolge beibehalten.
- Vorteil: Dies ermöglicht einen Zero-Cycle-Vergleich (ohne FPU-Overhead) und erlaubt die Ausführung von nichtlinearen Operationen wie ReLU oder Max-Pooling direkt auf kostengünstigen Integer-SIMD-ALUs.
Quad-Radix (Basis-4) Skalierung:
- Statt der Basis-2 wird der Exponent in Basis-4 (Potenzen von 4) skaliert.
- Vorteil: Dies eliminiert die tiefen Bit-Level-Crossbars zugunsten eines extrem flachen 2-stufigen Multiplexers.
- Kompromiss: Dies führt zu einer Präzisionsvarianz („Wobble"), die jedoch im Kontext des Stochastic Gradient Descent (SGD) als benigner Regularisierungseffekt absorbiert wird, ohne die Genauigkeit bei 16-Bit zu beeinträchtigen.
Explizite Mantisse und Einheitlicher Datapfad:
- Das Konzept des „versteckten Bits" wird aufgegeben. Die Mantisse wird explizit gespeichert.
- Subnormale Zahlen: Da keine Normalisierungslogik für das führende Bit nötig ist, fließen subnormale Zahlen (wenn der Exponent 0 ist) nativ durch denselben Multiplikator-Array und Addierer ohne Pipeline-Stalls oder Mikrocode-Fallen.
- Hardware-Optimierung: Bei der 8-Bit-Variante (AF8) wird bewusst eine Bit-Präzision geopfert (3 explizite Bits statt 4 implizit+explizit), um den Multiplikator von 4x4 auf 3x3 zu verkleinern.

3. Schlüsselbeiträge: Die Formate AF8 und AF16

AetherFloat-8 (AF8) – „Block-Scale-Free":
- Ziel: Ein Inferenzformat, das keine dynamische AMAX-Hardware benötigt.
- Spezifikation: 1 Bit Vorzeichen, 4 Bit Exponent (Basis-4), 3 Bit explizite Mantisse.
- Dynamischer Bereich: Deutlich erweitert (ca. $1,22 \times 10^{-4} $bis$ 57.344 $im optimierten Hardware-Modus, theoretisch bis$ 229.376$). Dies reicht aus, um LLM-Ausreißer nativ zu absorbieren.
- Anforderung: Da es keine Block-Skalierung gibt, erfordert AF8 zwingend Quantization-Aware Training (QAT) für den Einsatz, ist aber nicht als reines Post-Training-Quantization (PTQ) Format geeignet.
AetherFloat-16 (AF16):
- Ziel: Ein Ersatz für bfloat16.
- Spezifikation: 1 Bit Vorzeichen, 7 Bit Exponent, 8 Bit explizite Mantisse.
- Leistung: Erreicht eine nahezu verlustfreie Äquivalenz zu bfloat16, nutzt aber den vereinfachten Datapfad.
Vector-Shared Stochastisches Runden:
- Um das Problem des „Vanishing Gradients" bei niedriger Präzision zu lösen, wird ein neuartiges Topologie-Konzept eingeführt: Ein einzelner 32-Bit Galois-LFSR teilt sich über einen Vektor von MAC-Einheiten (z. B. 1 PRNG pro 16 MACs). Dies reduziert den Hardware-Overhead für Zufallszahlengenerierung drastisch und verhindert Korrelations-Collapse.

4. Ergebnisse und Evaluierung

Hardware-Effizienz (Synthese auf SkyWater 130nm):
- Fläche: Reduktion der MAC-Einheit um 33,17 %.
- Leistung: Reduktion der Gesamtleistung um 21,99 %.
- Latenz: Reduktion des kritischen Pfads um 11,73 %.
- Diese Verbesserungen resultieren primär aus der Verkleinerung des Multiplikator-Arrays (3x3 statt 4x4) und dem Wegfall komplexer Alignments-Logik.
Software-Accuracy (PyTorch Simulationen mit Qwen2.5-7B):
- AF16: Zeigt eine nahezu identische Leistung wie bfloat16 (z. B. +0,0012 PPL auf WikiText-2), was die Unschädlichkeit der Basis-4-Varianz bestätigt.
- AF8 (PTQ): Zeigt bei reinem Post-Training-Quantization eine signifikante Verschlechterung, da kleine Gewichte unter den minimalen positiven Wert fallen und zu Null werden (Gradient Underflow).
- AF8 (QAT): Mit Quantization-Aware Training und Straight-Through Estimator (STE) zeigt AF8 eine stabile Konvergenz und übertrifft in der Feinabstimmung (Step 150) sogar FP8 mit AMAX-Hardware in Bezug auf die Stabilität, bestätigt aber die Notwendigkeit von QAT für den Einsatz.

5. Bedeutung und Fazit

Die AetherFloat-Architektur stellt einen Paradigmenwechsel dar, indem sie die Vorteile ganzzahliger Hardware (Vergleichbarkeit, Geschwindigkeit) mit dem dynamischen Bereich von Gleitkommazahlen für KI kombiniert.

Hauptvorteil: Sie eliminiert die Notwendigkeit komplexer, energieintensiver Block-Skalierungs-Hardware (AMAX), die derzeit als Engpass für 8-Bit-Inferenz gilt.
Trade-off: Der Gewinn an Hardware-Effizienz und dynamischem Bereich wird durch die Anforderung an Quantization-Aware Training erkauft. AF8 ist kein „Drop-in"-Ersatz für bestehende PTQ-Workflows, sondern ein Format für spezialisierte Inferenz-Pipelines, die mit QAT vorbereitet wurden.
Zukunftspotenzial: Die Architektur bietet eine vielversprechende Lösung für die nächste Generation von KI-Chips, die auf extreme Energieeffizienz und geringe Latenz bei der Inferenz großer Modelle ausgelegt sind, indem sie die „Block-Scale-Free"-Eigenschaft nutzt, um Ausreißer nativ zu handhaben.

Das Paper schließt mit dem Hinweis, dass Simulationen und Verilog-Code unter einer akademischen Lizenz verfügbar sind, während eine kommerzielle Nutzung einer Lizenz bedarf.

The AetherFloat Family: Block-Scale-Free Quad-Radix Floating-Point Architectures for AI Accelerators

Das große Problem: Der alte Standard ist zu schwerfällig

Die Lösung: Das AetherFloat-Team

1. Der „Sortier-Trick" (Lexicographic One's Complement)

2. Der „Schnell-Experten-Trick" (Quad-Radix / Basis-4)

3. Der „Offene-Kasten-Trick" (Explizite Mantisse)

Was bedeutet das für uns?

Fazit

1. Problemstellung

2. Methodik und Architekturelle Innovationen

3. Schlüsselbeiträge: Die Formate AF8 und AF16

4. Ergebnisse und Evaluierung

5. Bedeutung und Fazit

Mehr davon

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models