Half the Nonlinearity Is Wasted: Measuring and Reallocating the Transformer's MLP Budget

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich einen riesigen, hochmodernen Koch vor, der für jeden Gast ein komplexes Gericht zubereitet. Dieser Koch ist ein KI-Modell (ein Transformer), und seine wichtigste Arbeitsstation ist der MLP (ein mehrschichtiges Perzeptron).

Die gängige Annahme war bisher: „Jeder Koch muss für jeden einzelnen Schritt des Rezepts seine volle Kreativität und alle seine Werkzeuge einsetzen. Wenn er auch nur einen Schritt vereinfacht, wird das Essen schmecken wie Papier."

Dieser Artikel von Peter Balogh sagt jedoch: „Nein, das ist nicht wahr. Die Hälfte der Arbeit dieses Kochs wird verschwendet."

Hier ist die einfache Erklärung, was die Forscher herausgefunden haben, mit ein paar anschaulichen Vergleichen:

1. Das Problem: Der Koch arbeitet zu viel

Stellen Sie sich vor, Sie bestellen einen einfachen Salat. Der Koch nimmt jedoch einen riesigen, elektrischen Mixer, einen Dampfgarer und eine Flammenwerfer-Küche, um die Tomaten zu schneiden. Das ist ineffizient.
In KI-Modellen passiert genau das: Bei fast jedem Wort, das das Modell verarbeitet, wird eine komplexe, nicht-lineare Berechnung durchgeführt. Die Forscher haben herausgefunden, dass für viele dieser Schritte ein einfacher Lineal-Zug (eine lineare Rechnung) völlig ausreicht. Man könnte den Mixer durch ein einfaches Messer ersetzen, und das Ergebnis wäre fast genauso gut.

2. Die Lösung: Der intelligente Türsteher (Das „Gate")

Statt den Koch dauerhaft zu entlassen, haben die Forscher einen Türsteher (ein sogenanntes „Gate") vor die Arbeitsstation gestellt.

Wie funktioniert er? Der Türsteher schaut sich den Gast (den Kontext) an.
Die Entscheidung: Wenn der Gast nur einen einfachen Salat will (ein einfaches Wort in einem einfachen Satz), sagt der Türsteher: „Kein Mixer! Nimm nur das Messer." (Lineare Berechnung). Wenn der Gast aber ein kompliziertes Steak braucht (ein schwieriger Kontext), sagt er: „Voller Einsatz! Nimm den Mixer." (Komplexe Berechnung).

Das Wunderbare ist: Dieser Türsteher braucht nur winzige Informationen (so viel Speicherplatz wie ein einziger Satz), um diese Entscheidung zu treffen.

3. Die große Überraschung: Es kommt nicht auf das Wort an

Zuerst dachten die Forscher: „Ah, der Türsteher erkennt bestimmt, ob es ein 'langweiliges' Wort (wie 'und' oder 'der') oder ein 'wichtiges' Wort (wie 'Elefant' oder 'Liebe') ist."
Das war falsch.

Stellen Sie sich vor, das Wort „Bank" zu hören.

Im Satz „Ich sitze auf der Bank" braucht es keine komplexe Rechnung.
Im Satz „Ich gehe zur Bank, um Geld zu holen" braucht es vielleicht mehr.

Der Türsteher entscheidet nicht basierend auf dem Wort selbst, sondern darauf, was gerade passiert. Er liest die Situation. Wenn man versucht, eine Liste von „Wörtern, die immer kompliziert sind" zu erstellen, funktioniert das nicht. Diese Liste wäre auf einem anderen Text (z. B. in einem Roman statt in einer Nachricht) völlig nutzlos. Es ist wie ein Sicherheitsdienst, der nicht nach dem Ausweis schaut, sondern danach, wie nervös die Person wirkt.

4. Das Ergebnis: Weniger Arbeit, besseres Essen

Was passierte, als sie den Koch anwiesen, in der Mitte des Restaurants nur noch einfache Messer zu benutzen?

Überraschung: Das Essen wurde sogar besser!
In einigen Teilen des Restaurants (den mittleren Schichten des Modells) war der komplexe Mixer eigentlich schädlich. Er hat das Essen zu sehr „verdreht" (Overfitting). Als sie ihn durch ein einfaches Messer ersetzten, wurde das Modell präziser und machte weniger Fehler.
Sie konnten bei einem Modell (GPT-2) fast die Hälfte der Rechenarbeit sparen, ohne dass die Qualität litt. Bei einem anderen Modell (Pythia) war es schwieriger, aber auch dort gab es Bereiche, die man vereinfachen konnte.

5. Was bedeutet das für die Zukunft?

Die Forscher schlagen vor, dass wir KI-Modelle nicht mehr so bauen sollten, dass jeder Teil des Gehirns gleich stark ist.

Der neue Plan: Baue ein Gehirn, bei dem die Eingangs- und Ausgangsbereiche (wo die Dinge wirklich komplex sind) riesige Supercomputer sind. Aber die Mitte? Die Mitte kann ein einfacher Rechenblock sein.
Das spart enorm viel Energie und Rechenleistung.

Zusammenfassung in einem Satz

Die Forscher haben entdeckt, dass KI-Modelle oft unnötig kompliziert rechnen; ein kleiner, intelligenter Türsteher kann entscheiden, wann man die „Super-Komplexität" abschalten darf, was die Modelle schneller, effizienter und manchmal sogar schlauer macht – aber man muss dabei auf die Situation achten, nicht auf das Wort.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Transformer-Modelle nutzen in jeder Schicht und an jeder Token-Position Multilayer Perceptrons (MLPs) mit nichtlinearen Aktivierungsfunktionen (z. B. GELU). Die vorherrschende Annahme in der Architektur und Literatur ist, dass diese Nichtlinearität essenziell ist, um komplexe Sprachfunktionen zu lernen; ohne sie würde das Netzwerk auf eine lineare Abbildung kollabieren.

Die zentrale Hypothese dieses Papers ist jedoch, dass ein erheblicher Teil dieser nichtlinearen Berechnungen verschwendet wird. Die Autoren untersuchen, ob die Nichtlinearität in MLPs tatsächlich an jedem Punkt notwendig ist oder ob ein Großteil der Transformationen durch lineare Matrizen ersetzt werden kann, ohne die Modellleistung (Perplexität) signifikant zu beeinträchtigen.

2. Methodik

Die Studie basiert auf systematischen Experimenten mit sechs Modellen (162M bis 2,8 Mrd. Parameter) aus zwei Architekturfamilien (GPT-2 und Pythia/GPT-NeoX) über drei verschiedene Korpora hinweg.

Die Methodik gliedert sich in folgende Schritte:

Lineare Approximation (Ridge Regression): Für jede Schicht $\ell$ wird eine lineare Surrogatfunktion $\hat{f}_\ell(x) = W_\ell x + b_\ell$ an die MLP-Ausgaben angepasst. Dies geschieht durch Lösen eines regularisierten Least-Squares-Problems (Tikhonov-Regularisierung) auf Aktivierungsvektoren aus dem WikiText-103-Datensatz.
Adaptives Gating: Anstatt MLPs vollständig zu ersetzen, wird ein „Gate" (eine logistische Regression mit $d+1$ $d + 1$ Parametern) trainiert. Dieses Gate entscheidet pro Token, ob die volle nichtlineare MLP oder die lineare Approximation verwendet wird.
- Das Training des Gates erfolgt als binäre Klassifikation: Ist der Verlustunterschied ( $\delta = L_{lin} - L_{full}$ ) gering, wird die lineare Route gewählt.
Analyse der Gate-Entscheidungen: Um zu verstehen, warum das Gate entscheidet, wie es tut, werden drei Analysen durchgeführt:
1. Token-Identität vs. Kontext: Die Eingabe wird in Token-Embedding und kontextuellen Beitrag (durch Attention und vorherige Schichten) zerlegt. Separate Gates werden auf diesen Komponenten trainiert.
2. Cross-Corpus-Stabilität: Es wird getestet, ob Token, die in einem Korpus Nichtlinearität benötigen („No-Fly"-Listen), dies auch in anderen Korpora tun.
3. Clustering: Es wird geprüft, ob sich lineare und nichtlineare Fälle im Residual-Stream-Raum klar trennen lassen.
Progressive Linearisierung: Ein Proof-of-Concept-Experiment, bei dem MLPs in mehreren Schichten nacheinander durch gefrorene lineare Matrizen ersetzt und das restliche Modell feinabgestimmt (Fine-Tuning) wird.

3. Wichtige Beiträge und Ergebnisse

A. Quantifizierung der Linearität

Ergebnis: Ein großer Teil der MLP-Berechnungen ist bereits fast linear. In GPT-2-Modellen können viele mittlere Schichten vollständig linearisiert werden, wobei die Perplexität nur minimal steigt (oft < 3 %).
Schwellenwerte: In GPT-2 Medium können 70 % der Schichten mit einem Kostenanstieg von unter 3 % linearisiert werden. Bei GPT-2 Large sind 11 von 36 Schichten so gut linearisierbar, dass sie die Basislinie sogar übertreffen (d.h. die Nichtlinearität war hier schädlich/überangepasst).
Architektur-Abhängigkeit: GPT-2-Modelle sind deutlich linearisierbarer als Pythia-Modelle. Pythia zeigt höhere Kosten, wobei Schicht 0 bei Pythia-2.8B katastrophal ist (+513 % Perplexität), wenn linearisiert wird. Dennoch zeigt auch Pythia-2.8B in der Mitte des Netzes (Schichten 7–15) niedrige Kosten.

B. Das Versagen token-basierter Routing-Strategien

Kernergebnis: Die Notwendigkeit von Nichtlinearität kann nicht aus der Token-Identität vorhergesagt werden.
Evidenz:
- Per-Token-Routing-Listen, die auf einem Korpus erstellt wurden, zeigen eine Korrelation von $r < 0,05$ (nahe Null) auf anderen Korpora, selbst innerhalb desselben Domänenbereichs.
- Token-Identität (einschließlich Funktion vs. Inhaltswörter) erklärt weniger als 1,3 % der Varianz in der Notwendigkeit von Nichtlinearität.
- Die Gate-Entscheidung ist rein kontextabhängig. Ein Gate, das nur den kontextuellen Beitrag sieht, erreicht fast die gleiche Leistung wie ein Gate, das den vollen Input sieht, während ein Gate nur für Token-Identität versagt.

C. Funktion des Gates und Regularisierung

Verteilung: Die Verteilung des „Kostenunterschieds" ( $\delta$ ) ist stark schief. Die meisten Tokens benötigen kaum Nichtlinearität. Das Gate fungiert als „Betrugsdetektor", der die wenigen Ausreißer identifiziert, die die volle MLP benötigen.
Negative Regularisierung: In 4 von 23 Schichten von GPT-2 Medium führt die Verwendung des linearen Surrogats (gesteuert durch das Gate) zu einer Verbesserung der Perplexität gegenüber dem vollen MLP. Dies deutet darauf hin, dass die nichtlinearen MLPs an diesen Stellen überangepasst waren und die lineare Approximation als Regularisierer wirkt.

D. Proof of Concept: Progressive Linearisierung

Experiment: 5 von 24 Schichten wurden durch gefrorene lineare Matrizen ersetzt.
Ergebnis:
- Mit minimalem Fine-Tuning (50 Schritte pro Schicht) konnte die Perplexität auf das Niveau des Originalmodells gesenkt werden (0 % Kosten).
- Bei einem vollständigen Fine-Tuning-Budget (117,9 Mio. Tokens) erzielte das linearisierte Modell eine 10,2 %ige Verbesserung der Perplexität.
- Ein zweiphasiger Ansatz (Linearisierung + Training von Gates) steigerte die Verbesserung auf 17,3 % (19,00 PPL), was eine Vanilla-Fine-Tuning-Kontrolle schlägt. Dies beweist, dass die Nichtlinearität an diesen Stellen aktiv schädlich war.

4. Signifikanz und Implikationen

Das Paper liefert einen Paradigmenwechsel im Verständnis von Transformer-MLPs:

Ressourcen-Allokation: Die Nichtlinearität ist eine knappe Ressource, die nicht gleichmäßig über alle Schichten verteilt werden sollte. Die „verschwendete Hälfte" kann umverteilt werden.
Architektur-Design: Die Ergebnisse deuten darauf hin, dass zukünftige Architekturen nicht-uniforme MLP-Kapazitäten nutzen sollten. Schichten an den Rändern (Eingabe/Ausgabe) benötigen volle Nichtlinearität, während mittlere Schichten hybride oder rein lineare Ansätze nutzen könnten.
Routing-Strategien: Token-basiertes Routing (z. B. Lookup-Tabellen für bestimmte Wörter) ist zum Scheitern verurteilt, da die Notwendigkeit von Nichtlinearität kontextuell ist. Effizientes Routing muss den Kontext (Residual Stream) analysieren.
Effizienz: Durch die Reduzierung der MLP-Berechnungen in mittleren Schichten können bis zu 21 % der gesamten Forward-Pass-FLOPs eingespart werden, ohne (oder sogar mit) Leistungssteigerung.

Fazit: Die Nichtlinearität in Transformer-MLPs ist selektiv und kontextabhängig. Ein Großteil der Berechnungen ist redundant oder sogar schädlich. Durch gezielte Linearisierung und adaptives Gating können Modelle effizienter und leistungsfähiger gemacht werden, wobei die spezifische Architektur (sequentiell vs. parallel) einen entscheidenden Einfluss auf die Linearisierbarkeit hat.