Orion: Characterizing and Programming Apple's Neural Engine for LLM Training and Inference

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, dein iPhone oder dein Mac ist wie ein riesiges, hochmodernes Bürogebäude. In diesem Gebäude gibt es einen speziellen, super-schnellen Super-Computer-Raum, den Apple „Neural Engine" (ANE) nennt. Dieser Raum ist darauf spezialisiert, extrem schnelle Rechenaufgaben für künstliche Intelligenz zu erledigen.

Das Problem? Obwohl dieser Raum in über zwei Milliarden Geräten existiert, wird er für das Lernen und Trainieren von großen KI-Modellen (wie Chatbots) fast gar nicht genutzt. Warum? Weil die Tür zu diesem Raum verschlossen ist. Die normalen Werkzeuge, die Apple Entwicklern gibt (CoreML), erlauben es nicht, direkt hineinzugehen oder zu sehen, was dort passiert. Es ist, als würde man versuchen, ein Rennauto zu fahren, aber man darf nur den Motor im Leerlauf hören, nicht aber das Lenkrad berühren.

Orion ist der Schlüssel, den die Forscher in diesem Papier entwickelt haben. Hier ist die Erklärung, wie Orion funktioniert, mit ein paar einfachen Vergleichen:

1. Der Schlüssel zur verschlossenen Tür (Direkter Zugriff)

Bisher mussten Entwickler ihre KI-Modelle durch einen „Blackbox"-Manager schicken, der selbst entschied, ob die Arbeit im Super-Raum (ANE), im normalen Büro (CPU) oder im Grafik-Abteilung (GPU) erledigt wird. Orion umgeht diesen Manager komplett.

Die Analogie: Stell dir vor, Orion ist ein Meister-Schlosspicker, der die Hintertür zum Super-Raum aufbricht. Plötzlich können die Entwickler direkt hineingehen, die Werkzeuge selbst bedienen und sogar neue Dinge im Raum lernen lassen.

2. Das Problem mit dem „Backen" (Das Trainings-Problem)

Ein großes Hindernis beim Trainieren von KI auf diesem Chip ist, wie er Gewichte (das „Wissen" der KI) speichert.

Das alte Problem: Stell dir vor, der Super-Raum ist eine Bäckerei. Wenn du ein Brot backen willst (ein KI-Modell trainieren), musst du den Ofen (den Compiler) jedes Mal neu aufheizen und das Rezept (das Programm) komplett neu schreiben, sobald du auch nur eine einzige Zutat (ein Gewicht) ändern willst. Das dauert ewig. Früher musste man das Programm bei jedem kleinen Lernschritt komplett neu „backen", was den Prozess extrem langsam machte.
Die Orion-Lösung (Delta-Compilation): Orion hat einen genialen Trick gefunden. Statt das ganze Brot neu zu backen, nimmt Orion das fertige Brot aus dem Ofen, schneidet nur die Zutat aus, die man ändern will, tauscht sie gegen die neue aus und legt es wieder hinein.
- Das Ergebnis: Was früher 4,2 Sekunden pro Schritt dauerte (das komplette Neubauben), dauert jetzt nur noch 0,5 Sekunden. Das Training ist dadurch 3,8-mal schneller geworden!

3. Die strengen Regeln des Raumes (Die 20 Einschränkungen)

Der Super-Raum (ANE) ist sehr speziell und folgt strengen Regeln, die niemand vorher kannte. Die Forscher haben eine „Checkliste" mit 20 Regeln erstellt.

Beispiel: Wenn du mehrere Zutaten gleichzeitig hineingibst, müssen alle Teller genau die gleiche Größe haben, auch wenn die Zutaten eigentlich unterschiedlich groß sind. Oder: Wenn du ein Rezept aufschreibst, darfst du bestimmte Wörter (Befehle) nicht benutzen, sonst verweigert der Raum die Annahme.
Orion hat diese Regeln entschlüsselt und einen Übersetzer (Compiler) gebaut, der die normalen KI-Befehle automatisch in die Sprache des Super-Raums übersetzt, damit nichts schiefgeht.

4. Der „Hot-Swap"-Trick (LoRA)

Normalerweise muss man ein KI-Modell neu trainieren, wenn man es für eine neue Aufgabe anpassen will (z. B. von „allgemeine Sprache" auf „medizinische Sprache").

Orions Trick: Orion erlaubt es, kleine Zusatzmodule (Adapter) wie einen USB-Stick einfach „einzustecken", ohne das ganze System neu zu starten. Man kann also die KI-Fähigkeiten im Flug wechseln, ohne den Computer neu zu starten oder neu zu programmieren.

5. Das Ergebnis: Ein stabiler Lerner

Früher versuchten andere, KI auf diesem Chip zu trainieren, aber das System wurde oft verrückt (es entstanden „NaN"-Fehler, also mathematischer Unsinn, und das Training brach ab).

Orion hat drei spezifische Fehler gefunden und behoben (wie ein Mechaniker, der undichte Rohre repariert).
Der Test: Orion konnte ein KI-Modell mit 110 Millionen Parametern in nur 22 Minuten für 1.000 Lernschritte trainieren – und das, ohne dass es jemals abgestürzt ist.

Zusammenfassung für den Alltag

Stell dir vor, du hast einen Ferrari im Keller (den Apple Neural Engine), aber du darfst ihn nur als Parkausweis benutzen. Orion ist der Schlüssel, der dir erlaubt, das Lenkrad zu greifen, den Motor zu starten und den Ferrari zu fahren.

Zusätzlich hat Orion einen Trick entwickelt, wie man den Tank (die KI-Gewichte) nachfüllt, ohne den Motor jedes Mal komplett zu zerlegen und neu zu bauen. Das macht das Lernen der KI auf deinem eigenen iPhone oder Mac so schnell und effizient, dass es in Zukunft möglich sein könnte, dass deine Geräte KI direkt vor Ort lernen, ohne Daten in die Cloud schicken zu müssen.

Kurz gesagt: Orion macht den verborgenen Super-Computer in deinen Apple-Geräten endlich nutzbar, schnell und stabil für das Lernen von künstlicher Intelligenz.

Orion: Characterizing and Programming Apple's Neural Engine for LLM Training and Inference

1. Der Schlüssel zur verschlossenen Tür (Direkter Zugriff)

2. Das Problem mit dem „Backen" (Das Trainings-Problem)

3. Die strengen Regeln des Raumes (Die 20 Einschränkungen)

4. Der „Hot-Swap"-Trick (LoRA)

5. Das Ergebnis: Ein stabiler Lerner

Zusammenfassung für den Alltag

1. Problemstellung

2. Methodik: Das Orion-System

A. Charakterisierung der Hardware

B. Compiler-Pipeline

C. Delta-Kompilierung (Kerninnovation)

D. Numerische Stabilität

E. LoRA als Input

3. Wichtige Ergebnisse

Inference-Performance (GPT-2 124M auf M4 Max)

Trainings-Performance (Stories110M auf TinyStories)

4. Bedeutung und Ausblick

Orion: Characterizing and Programming Apple's Neural Engine for LLM Training and Inference

1. Der Schlüssel zur verschlossenen Tür (Direkter Zugriff)

2. Das Problem mit dem „Backen" (Das Trainings-Problem)

3. Die strengen Regeln des Raumes (Die 20 Einschränkungen)

4. Der „Hot-Swap"-Trick (LoRA)

5. Das Ergebnis: Ein stabiler Lerner

Zusammenfassung für den Alltag

1. Problemstellung

2. Methodik: Das Orion-System

A. Charakterisierung der Hardware

B. Compiler-Pipeline

C. Delta-Kompilierung (Kerninnovation)

D. Numerische Stabilität

E. LoRA als Input

3. Wichtige Ergebnisse

Inference-Performance (GPT-2 124M auf M4 Max)

Trainings-Performance (Stories110M auf TinyStories)

4. Bedeutung und Ausblick

Mehr davon

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models