Unleashing Low-Bit Inference on Ascend NPUs: A Comprehensive Evaluation of HiFloat Formats

Each language version is independently generated for its own context, not a direct translation.

🚀 Das Geheimnis der effizienten KI: Wie man große Modelle auf kleinen Chips zum Laufen bringt

Stellen Sie sich vor, Sie haben einen riesigen, hochintelligenten Roboter (eine KI, wie ein großes Sprachmodell). Dieser Roboter ist unglaublich schlau, aber er ist auch riesig, schwer und braucht einen enormen Stromverbrauch, um zu denken. Um ihn in ein kleines, batteriebetriebenes Gerät (wie ein Smartphone oder einen speziellen Computer-Chip von Huawei, genannt Ascend NPU) zu packen, müssen wir ihn „leichter" machen.

Das Problem: Wenn man einen schweren Gegenstand einfach nur verkleinert, wird er oft zerbrechlich oder verliert seine Form. In der KI-Welt bedeutet das: Wenn man die Zahlen, mit denen die KI rechnet, zu stark vereinfacht (man nennt das Quantisierung), wird die KI dumm und macht Fehler.

Dieses Papier untersucht einen neuen Weg, um diesen Roboter leicht zu machen, ohne ihn dumm zu werden.

1. Das Problem: Der „Einheitsgrößen"-Ansatz funktioniert nicht

Bisher haben Forscher versucht, alle Zahlen der KI auf eine einzige Art zu verkleinern, ähnlich wie man alle Kleidungsstücke in eine einzige Standardgröße schneidet.

Die alten Methoden (Ganzzahlen/INT): Diese sind wie ein Lineal mit gleichmäßigen Strichen. Sie funktionieren super, wenn die Zahlen alle in einem kleinen, ruhigen Bereich liegen (wie bei den „Gewichten" des Roboters, also seinem gespeicherten Wissen).
Das Problem bei den „Aktivitäten": Wenn der Roboter jedoch spricht oder denkt (die „Aktivitäten"), gibt es plötzlich riesige Ausreißer – Zahlen, die extrem groß oder extrem klein sind. Ein einfaches Lineal mit gleichmäßigen Strichen kann diese extremen Werte nicht gut abbilden, ohne dass die kleinen, wichtigen Details im Rauschen untergehen.

2. Die Lösung: HiFloat – Der „verstellbare Gummizug"

Die Autoren stellen eine neue Familie von Zahlenformaten vor, genannt HiFloat (speziell HiF8 und HiF4).
Stellen Sie sich HiFloat nicht als starres Lineal vor, sondern als einen verstellbaren Gummizug oder einen Schubkarren mit verstellbaren Rädern.

Wie es funktioniert:
- Wenn die Zahlen klein und ruhig sind, zieht sich der Gummizug zusammen und bietet viele feine Einstellmöglichkeiten (hohe Präzision).
- Wenn plötzlich ein riesiger Wert kommt (ein Ausreißer), dehnt sich der Gummizug aus, um diesen großen Wert zu fangen, ohne dass die kleinen Werte daneben verloren gehen.
- HiF8 (8-Bit): Ein flexibler Gummizug für den allgemeinen Einsatz.
- HiF4 (4-Bit): Ein extrem starker, mehrstufiger Gummizug. Da 4 Bit sehr wenig Platz bieten (nur 16 Stufen), ist dieser Gummizug besonders clever aufgebaut: Er hat drei Ebenen der Verfeinerung. Er kann also gleichzeitig einen riesigen Berg und ein kleines Tal in derselben Gruppe von Zahlen darstellen.

3. Was das Papier herausgefunden hat (Die drei großen Erkenntnisse)

Die Forscher haben dieses System auf Huawei-Chips getestet und drei wichtige Dinge entdeckt:

🏗️ Erkenntnis 1: Nicht alles braucht den gleichen Werkzeugkasten

Für das Gedächtnis (Gewichte): Hier sind die Zahlen ruhig und vorhersehbar. Ein einfaches, starres Lineal (INT8) ist hier oft sogar besser als der flexible Gummizug, weil es den verfügbaren Platz nicht für unnötige extreme Bereiche verschwendet.
Für das Denken (Aktivitäten): Hier gibt es Chaos und Ausreißer. Hier glänzt der Gummizug (HiFloat), weil er sich an die Situation anpasst.

📉 Erkenntnis 2: Bei 4-Bit ist der „starre Ansatz" katastrophal

Wenn man den Platz auf nur 4 Bits (16 Stufen) reduziert, bricht das alte System (INT4) komplett zusammen. Es ist, als würde man versuchen, einen ganzen Ozean in eine kleine Teetasse zu pressen – alles läuft über.

Der HiFloat-Effekt: Dank seiner mehrstufigen Struktur (HiF4) kann das System den Ozean in mehrere Eimer aufteilen und trotzdem die Wassertiefe genau messen. Es verhindert, dass die KI „dumm" wird, selbst bei extrem wenig Speicher.

🤝 Erkenntnis 3: Teamwork macht stark

HiFloat funktioniert nicht isoliert. Die Forscher haben gezeigt, dass HiFloat perfekt mit anderen Tricks (wie SmoothQuant) zusammenarbeitet.

Die Analogie: Stellen Sie sich HiFloat als einen starken Athleten vor und die anderen Tricks als einen Coach, der dem Athleten hilft, seine Schwachstellen zu verstecken. Zusammen sind sie unbesiegbar und erreichen fast die gleiche Leistung wie das riesige, unkomprimierte Original.

4. Das Ergebnis: Warum das wichtig ist

Das Ziel ist es, riesige KI-Modelle (wie Qwen3 oder openPangu) auf speziellen Chips von Huawei (Ascend NPUs) laufen zu lassen, ohne dass sie an Intelligenz verlieren.

Das Fazit: Mit HiF4 (dem 4-Bit HiFloat) können die Forscher die Modelle so stark komprimieren, dass sie fast so gut funktionieren wie die Originalversionen, aber mit einem Bruchteil des Speicherbedarfs und der Rechenleistung.
Warum das cool ist: Das bedeutet, dass wir in Zukunft viel schnellere, effizientere und günstigere KI auf unseren Geräten haben werden, ohne Kompromisse bei der Qualität eingehen zu müssen.

Zusammenfassung in einem Satz

Das Papier zeigt, dass man KI nicht einfach nur „kleiner" machen darf, sondern ihr einen intelligenten, flexiblen Zahlen-Format (HiFloat) geben muss, der sich je nach Bedarf dehnen und stauchen kann – besonders wenn der Platz extrem knapp ist.

Unleashing Low-Bit Inference on Ascend NPUs: A Comprehensive Evaluation of HiFloat Formats

🚀 Das Geheimnis der effizienten KI: Wie man große Modelle auf kleinen Chips zum Laufen bringt

1. Das Problem: Der „Einheitsgrößen"-Ansatz funktioniert nicht

2. Die Lösung: HiFloat – Der „verstellbare Gummizug"

3. Was das Papier herausgefunden hat (Die drei großen Erkenntnisse)

🏗️ Erkenntnis 1: Nicht alles braucht den gleichen Werkzeugkasten

📉 Erkenntnis 2: Bei 4-Bit ist der „starre Ansatz" katastrophal

🤝 Erkenntnis 3: Teamwork macht stark

4. Das Ergebnis: Warum das wichtig ist

Zusammenfassung in einem Satz

Problemstellung

Methodik

Wichtige Erkenntnisse & Beiträge

Ergebnisse

Bedeutung und Fazit

Unleashing Low-Bit Inference on Ascend NPUs: A Comprehensive Evaluation of HiFloat Formats

🚀 Das Geheimnis der effizienten KI: Wie man große Modelle auf kleinen Chips zum Laufen bringt

1. Das Problem: Der „Einheitsgrößen"-Ansatz funktioniert nicht

2. Die Lösung: HiFloat – Der „verstellbare Gummizug"

3. Was das Papier herausgefunden hat (Die drei großen Erkenntnisse)

🏗️ Erkenntnis 1: Nicht alles braucht den gleichen Werkzeugkasten

📉 Erkenntnis 2: Bei 4-Bit ist der „starre Ansatz" katastrophal

🤝 Erkenntnis 3: Teamwork macht stark

4. Das Ergebnis: Warum das wichtig ist

Zusammenfassung in einem Satz

Problemstellung

Methodik

Wichtige Erkenntnisse & Beiträge

Ergebnisse

Bedeutung und Fazit

Mehr davon

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá

Enabling Intrinsic Reasoning over Dense Geospatial Embeddings with DFR-Gemma