Sign Lock-In: Randomly Initialized Weight Signs Persist and Bottleneck Sub-Bit Model Compression

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der "Ein-Bit-Hindernis"

Stell dir vor, du möchtest ein riesiges, komplexes Gehirn (ein KI-Modell) in einen kleinen Rucksack packen, um es mitzunehmen. Um Platz zu sparen, willst du die Gewichte des Gehirns (die Zahlen, die das Lernen steuern) extrem komprimieren.

Bisher war das kein Problem: Man hat die Zahlen auf wenige Bits reduziert, und das passte gut. Aber die Forscher haben ein neues Ziel gefunden: Sub-Bit-Kompression. Das bedeutet, man will im Durchschnitt weniger als ein Bit pro Zahl speichern.

Doch hier stößt man auf eine unsichtbare Mauer, die die Autoren den "Ein-Bit-Hindernis" (One-Bit Wall) nennen.

Warum? Eine Zahl in einem KI-Modell besteht aus zwei Teilen:

Der Betrag (Magnitude): Wie groß ist die Zahl? (z. B. 5, 100, 0,001).
Das Vorzeichen (Sign): Ist die Zahl positiv (+) oder negativ (-)?

Die Forscher haben herausgefunden:

Die Beträge lassen sich super komprimieren. Man kann sie auf winzige Größen reduzieren, ohne dass das Gehirn kaputtgeht.
Die Vorzeichen sind aber ein Albtraum für die Kompression. Sie verhalten sich wie reines Rauschen. Wenn man versucht, sie zu komprimieren, spart man fast nichts. Sie sind so zufällig, als würdest du Münzen werfen (Kopf oder Zahl).

Das Problem: Wenn du die Beträge auf 0,1 Bit komprimierst, aber für jedes Vorzeichen immer noch 1 Bit brauchst, stehst du bei 1,1 Bit pro Zahl. Du kommst also nicht unter die magische 1-Bit-Marke. Das Vorzeichen ist der Flaschenhals.

Die Entdeckung: Warum sind die Vorzeichen so chaotisch?

Die große Frage war: Warum sind die Vorzeichen nach dem Training so chaotisch und zufällig?

Die Antwort ist überraschend einfach: Sie waren es schon am Anfang.

Stell dir vor, du baust ein Haus. Du legst die Ziegelsteine zufällig hin (das ist die Initialisierung). Dann fängst du an, das Haus zu renovieren (das Training).
Die Forscher haben entdeckt, dass die KI während des Trainings die Vorzeichen der Ziegelsteine fast gar nicht ändert.

Wenn ein Stein am Anfang "positiv" war, bleibt er fast immer "positiv".
Wenn er "negativ" war, bleibt er "negativ".

Die KI ändert zwar die Größe der Steine (die Beträge), aber sie schiebt die Steine kaum von "Plus" zu "Minus" oder umgekehrt. Die scheinbare Zufälligkeit der Vorzeichen ist also gar nicht das Ergebnis des Lernens, sondern ein Erbe der zufälligen Startposition.

Die Theorie: Der "Vorzeichen-Verschluss" (Sign Lock-In)

Die Autoren nennen dieses Phänomen "Sign Lock-In" (Vorzeichen-Verschluss).

Stell dir vor, jedes Gewicht ist ein Ball, der in einem Tal rollt.

Das Tal hat zwei Seiten: links (negativ) und rechts (positiv).
In der Mitte ist ein sehr schmaler, steiler Abgrund (die Null).
Damit der Ball von links nach rechts wechselt (das Vorzeichen ändert), muss er genau durch den Abgrund rollen.

Die Theorie besagt:

Der Ball startet zufällig links oder rechts.
Während des Trainings wird der Ball hin und her geschubst (durch das Lernen), aber er bleibt meistens auf seiner Seite.
Um die Seite zu wechseln, muss er zufällig genau in den Abgrund (nahe Null) rollen. Das passiert extrem selten.
Wenn er doch mal in den Abgrund rollt, fällt er oft sofort wieder auf die gleiche Seite zurück, bevor er die andere Seite erreicht.

Das Ergebnis: Die Vorzeichen sind "eingeschlossen" (locked-in). Sie bleiben stabil, sind aber zufällig verteilt, weil der Start zufällig war.

Die Lösung: Wie man die Mauer durchbricht

Da die Vorzeichen so stabil sind, aber zufällig, haben die Forscher eine clevere Idee: Warum nicht die Zufälligkeit von Anfang an kontrollieren?

Statt die Vorzeichen zufällig zu starten, starten wir sie mit einem geplanten Muster.

Der "Gap"-Start (Der Abstand): Wir stellen sicher, dass alle Zahlen am Anfang weit genug von der Null entfernt sind. Sie dürfen nicht zu nah am Abgrund stehen. Das verhindert, dass sie beim ersten Schubsen sofort ins Chaos fallen.
Der "Drift"-Schutz (Der Schutzzauber): Während des Trainings fügen wir eine kleine Regel hinzu, die die Zahlen davon abhält, wieder in die Nähe der Null zu wandern. Es ist wie ein unsichtbarer Schutzzauber, der sie auf ihrer Seite hält.

Das Geniale daran:
Wenn wir die Vorzeichen von Anfang an so steuern, dass sie ein einfaches, wiederholbares Muster bilden (z. B. ein Muster, das man leicht mit einem Code beschreiben kann), brauchen wir keinen Speicherplatz mehr für die Vorzeichen.
Der Computer kann das Muster einfach "nachbauen", wenn er das Modell lädt. Wir speichern nur noch die Beträge.

Das Ergebnis

Durch diese Methode schaffen sie es, die Vorzeichen so zu stabilisieren, dass sie fast nie wechseln.

Die Vorzeichen werden komprimierbar (fast kostenlos).
Die Beträge bleiben gut komprimierbar.
Das gesamte Modell passt nun tatsächlich unter 1 Bit pro Zahl (Sub-Bit), ohne dass die KI ihre Intelligenz verliert.

Zusammenfassung in einem Satz

Die Forscher haben herausgefunden, dass die Vorzeichen in KI-Modellen wie eingefrorene Münzwürfe sind, die kaum bewegt werden; indem man diese "Einfrierung" von Anfang an plant und schützt, kann man den Speicherbedarf drastisch senken und die "Ein-Bit-Hindernis" überwinden.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung: Die „One-Bit Wall"

Das Paper adressiert ein kritisches Hindernis bei der Kompression von neuronalen Netzen auf Sub-Bit-Niveau (weniger als 1 Bit pro Gewicht).

Hintergrund: Herkömmliche Kompressionsverfahren (Quantisierung, Low-Rank-Faktorisierung, Pruning) konzentrieren sich stark auf die Reduktion der Betragswerte (Magnitudes) der Gewichte.
Das Problem: Sobald die Beträge aggressiv auf unter 1 Bit komprimiert werden, wird das Vorzeichen (Sign, ±1) zum Flaschenhals.
Beobachtung: Die Autoren zeigen empirisch, dass gelernte Vorzeichenmuster in verschiedenen Architekturen (Transformers, CNNs, MLPs) kaum komprimierbar sind. Sie verhalten sich spektral wie unabhängige, identisch verteilte (i.i.d.) Rademacher-Rauschen (zufällige ±1).
Folge: Da Vorzeichen kaum Redundanz aufweisen, kostet ihre Speicherung theoretisch immer 1 Bit pro Gewicht. Dies führt zur sogenannten „One-Bit Wall": Selbst wenn die Beträge auf 0,1 Bit komprimiert werden können, dominiert der Vorzeichen-Overhead die Gesamtspeicherkosten, sodass eine echte Sub-Bit-Kompression nicht erreicht wird.

2. Methodik und Theoretischer Rahmen

A. Empirische Analyse

Die Autoren untersuchen das Verhalten von Gewichten während des Trainings:

Zerlegung: Gewichte $W$ werden in Vorzeichen $S = \text{sign}(W)$ und Betrag $A = |W|$ zerlegt.
Ergebnisse:
- Vorzeichenmatrizen zeigen eine sehr langsame Abnahme des Approximationsfehlers bei Low-Rank-Näherung (SVD) im Vergleich zu Beträgen.
- Die spektralen Statistiken der Vorzeichen ähneln stark zufällig initialisierten Matrizen.
- Wichtigste Beobachtung: Trotz des zufälligen Aussehens bleiben die meisten Vorzeichen während des gesamten Trainings stabil. Sie werden selten geändert; die meisten Gewichte behalten ihr Initialisierungs-Vorzeichen bei.

B. Sign Lock-In Theorie (Theorie des Vorzeichen-Lock-ins)

Um dieses Phänomen zu erklären, führen die Autoren eine stochastische Analyse mittels Stopping-Times (Stoppzeiten) durch.

Mechanismus: Ein Vorzeichenwechsel kann nur stattfinden, wenn die Trajektorie eines Gewichts die Nulllinie (die Grenze zwischen positiv und negativ) kreuzt.
Annahmen:
1. Begrenzte Updates: Die Schrittweite des SGD-Optimierers ist begrenzt ( $\Delta$ ). Ein Gewichtswechsel über die Nulllinie erfordert daher, dass das Gewicht zunächst in eine kleine $\epsilon$ -Umgebung der Null wandert.
2. Seltene Wiedereintritte: Unter Standard-Trainingsbedingungen ist die Wahrscheinlichkeit gering, dass ein Gewicht, das einmal die Null-Nähe verlassen hat, wieder dorthin zurückkehrt.
Theorem: Die Anzahl der effektiven Vorzeichenwechsel (von „außen" zu „außen" über die Null) folgt einer geometrischen Verteilung mit einem dünnen Schwanz (geometric tail). Das bedeutet, dass Vorzeichenwechsel extrem selten sind und sich exponentiell schnell abklingen.
Implikation: Die scheinbare Zufälligkeit der Vorzeichen ist nicht das Ergebnis des Trainings, sondern wird von der zufälligen Initialisierung „mitgenommen" (inherited). Das Training ändert die Vorzeichen kaum.

3. Schlüsselbeiträge

Empirische Entdeckung: Nachweis, dass Vorzeichen in modernen Architekturen schwerer zu komprimieren sind als Beträge und dass ihre Persistenz eine direkte Folge der Initialisierung ist.
Sign Lock-In Theorie: Eine formale mathematische Herleitung, die zeigt, dass die Anzahl effektiver Vorzeichenwechsel unter SGD eine geometrische Schwanzverteilung aufweist. Dies erklärt die Stabilität der Vorzeichen.
Verifizierung auf Billionen-Skala: Die Theorie wurde an Modellen bis zu 12,9 Milliarden Parametern validiert. Es zeigte sich, dass mit zunehmender Modellgröße das „Lock-in"-Verhalten (Stabilität der Vorzeichen) noch stärker wird.
Praktische Interventionen (Enhancement): Basierend auf der Theorie wurden zwei Methoden entwickelt, um das Lock-in zu verstärken und Vorzeichen für die Kompression nutzbar zu machen:
- Gap-Initialisierung: Gewichte werden initialisiert, sodass sie eine explizite Lücke (Gap) zur Null haben (z. B. durch Ablehnungssampling von Werten nahe 0). Dies reduziert die Wahrscheinlichkeit, dass ein Gewicht überhaupt die Null-Nähe erreicht ( $h_T$ ).
- Outer-Drift Regularisierung: Ein leichter Logarithmus-Barrier-Regulator wird während des frühen Trainings angewendet, um Gewichte fern von der Null zu halten und Wiedereintritte in die Null-Nähe zu bestrafen. Dies reduziert die Wahrscheinlichkeit von Wiedereintritten ( $g_T$ ).

4. Ergebnisse

Reduktion der Flip-Rate: Durch die Kombination von Gap-Initialisierung und Regularisierung konnte die effektive Vorzeichen-Flip-Rate auf ca. $10^{-3}$ gesenkt werden.
Qualitätsverlust: Dieser Gewinn an Stabilität wurde mit nur einer geringfügigen Erhöhung der Perplexity (ca. 1 Punkt) erkauft.
Komprimierbarkeit: Durch das Stabilisieren der Vorzeichenmuster (die nun einem strukturierten Template folgen) und die Reduktion der Flips, werden die Vorzeichen für Low-Rank-Kompression oder Templates zugänglich.
Sub-Bit-Erfolg: Die Autoren demonstrieren, dass durch die Nutzung eines deterministisch regenerierbaren Vorzeichen-Templates (das nur einen Seed benötigt) und die Kompression der Beträge, eine effektive Bitrate von deutlich unter 1 Bit pro Gewicht erreicht werden kann, ohne die Modellleistung drastisch zu beeinträchtigen.

5. Bedeutung und Fazit

Das Paper liefert einen fundamentalen neuen Blickwinkel auf die Kompression neuronaler Netze:

Paradigmenwechsel: Anstatt zu versuchen, zufällig wirkende Vorzeichen zu komprimieren, sollte man die Vorzeichenstruktur durch gezielte Initialisierung und Regularisierung erzwingen und stabilisieren.
Überwindung der One-Bit Wall: Die Arbeit zeigt einen Weg, die „One-Bit Wall" zu durchbrechen, indem sie die Vorzeichen von einem festen Kostenfaktor in eine kontrollierbare, komprimierbare Komponente verwandelt.
Allgemeine Anwendbarkeit: Der theoretische Rahmen (Stopping-Times, seltene Ereignisse) könnte auch auf andere diskrete Phänomene im Deep Learning anwendbar sein, wie z. B. Sparsity-Muster oder Routing-Entscheidungen.

Zusammenfassend beweist das Paper, dass die Persistenz von Vorzeichen ein fundamentales Merkmal des SGD-Trainings ist, das nicht als Rauschen, sondern als Ressource für extreme Kompression genutzt werden kann.