ZorBA: Zeroth-order Federated Fine-tuning of LLMs with Heterogeneous Block Activation

Die Arbeit stellt ZorBA vor, ein Framework für das federierte Fine-Tuning von LLMs, das durch den Einsatz von Zeroth-Order-Optimierung und einer heterogenen Blockaktivierung den VRAM-Verbrauch erheblich senkt und gleichzeitig die Konvergenz beschleunigt.

Chuiyang Meng, Ming Tang, Vincent W. S. Wong

Veröffentlicht 2026-03-06
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie und eine Gruppe von Freunden wollen gemeinsam ein riesiges, komplexes Puzzle lösen. Dieses Puzzle ist ein Künstlicher Intelligenz-Modell (ein sogenanntes "Large Language Model" oder LLM), das so groß ist, dass es den gesamten Speicher (VRAM) eines einzelnen Computers sprengen würde.

Das Ziel ist es, das Modell zu verbessern, ohne dass jemand seine privaten Notizen (die Daten) mit anderen teilt. Das nennt man Federated Learning (verteiltes Lernen).

Das Problem bisher: Um das Puzzle zu verbessern, mussten alle Freunde ihre gesamten Puzzleteile (die Berechnungen) aufwendig hin- und herschicken. Das brauchte viel Speicherplatz auf ihren Geräten und viel Zeit für den Datentransfer.

Hier kommt ZorBA ins Spiel – eine neue, clevere Methode, die wie ein genialer Puzzle-Leiter funktioniert.

1. Das Problem: Der "Speicher-Überlauf"

Stellen Sie sich vor, jeder Freund hat nur einen kleinen Arbeitstisch (begrenzter VRAM). Wenn sie versuchen, das ganze riesige Puzzle auf einmal zu bearbeiten, stürzt ihr Tisch um. Außerdem ist es mühsam, das ganze Puzzle immer wieder zu fotografieren und per E-Mail zu versenden (hoher Kommunikationsaufwand).

2. Die Lösung: ZorBA (Der clevere Leiter)

ZorBA löst dieses Problem mit drei genialen Tricks:

Trick A: "Raten statt Rechnen" (Zeroth-Order Optimization)

Normalerweise müssen die Freunde genau berechnen, warum ein Puzzleteil falsch liegt (das nennt man "Gradienten berechnen"). Das ist wie eine komplizierte mathematische Analyse, die viel Speicher braucht.
ZorBA sagt: "Vergessen wir die komplizierte Analyse! Wir machen einfach einen kleinen Test."

  • Die Analogie: Statt die genaue Ursache eines Fehlers zu berechnen, probieren die Freunde einfach eine winzige Verschiebung eines Puzzleteils aus. Sie schauen nur, ob das Bild dadurch besser oder schlechter aussieht (Vorwärtsdurchlauf).
  • Der Vorteil: Sie müssen keine aufwendigen Berechnungen speichern. Das spart enorm viel Platz auf dem Arbeitstisch (VRAM).

Trick B: "Jeder bearbeitet nur einen Teil" (Heterogene Block-Aktivierung)

Das Puzzle besteht aus vielen Abschnitten (Blöcken). Früher musste jeder Freund versuchen, alle Abschnitte gleichzeitig zu bearbeiten. Das war zu viel für die kleinen Tische.
ZorBA sagt: "Wir teilen die Arbeit auf! Du bearbeitest nur die Landschaftsteile, du nur die Gesichter, und er nur die Gebäude."

  • Die Analogie: Der Leiter (Server) weist jedem Freund genau zu, welche Puzzleteile er gerade anfassen darf, basierend darauf, wie groß sein Tisch ist.
  • Der Vorteil: Jeder braucht weniger Platz. Aber das Puzzle wird trotzdem schneller fertig, weil alle gleichzeitig an verschiedenen Teilen arbeiten, ohne sich im Weg zu stehen.

Trick C: "Der geheime Code" (Shared Random Seeds)

Normalerweise müssten die Freunde ihre Verschiebungen (die Testbewegungen) genau beschreiben und verschicken. Das sind riesige Datenmengen.
ZorBA sagt: "Wir nutzen alle denselben geheimen Zufalls-Code (Seed)."

  • Die Analogie: Alle Freunde haben das gleiche Buch mit Zufallszahlen. Wenn der Leiter sagt "Nimm Seite 5", wissen alle sofort, welche Zahl sie nehmen müssen, ohne dass er sie ihm schicken muss.
  • Der Vorteil: Statt riesige Datenpakete zu senden, reicht es, nur zu sagen: "Wir haben Seite 5 benutzt." Das spart enorm viel Zeit und Bandbreite.

3. Das Ergebnis: Schneller und schlanker

In Tests hat sich gezeigt, dass ZorBA:

  • Bis zu 62 % weniger Speicherplatz auf den Geräten der Freunde braucht.
  • Viel schneller lernt als andere Methoden, weil die Arbeit intelligent aufgeteilt wird.
  • Kaum Datenverkehr verursacht, weil nur kleine "Hinweise" statt ganzer Datenpakete ausgetauscht werden.

Zusammenfassung

Stellen Sie sich ZorBA wie einen effizienten Koch vor, der eine riesige Suppe für viele kocht:

  • Statt dass jeder Koch den ganzen Topf umrührt (was den Herd sprengen würde), bekommt jeder nur einen kleinen Löffel und rührt einen bestimmten Teil der Suppe um.
  • Statt komplizierte Rezepte zu schreiben, nutzen alle denselben Timer und dieselben Zutatenlisten.
  • Das Ergebnis: Die Suppe ist schneller fertig, niemand hat den Herd überhitzt, und es wurde kaum Papier für Rezepte verschwendet.

ZorBA macht es also möglich, dass auch kleine, schwache Geräte gemeinsam an riesigen KI-Modellen lernen können, ohne dass der Speicherplatzt oder die Internetverbindung kollabiert.