The Discrete Charm of the MLP: Binary Routing of Continuous Signals in Transformer Feed-Forward Layers

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, ein großes KI-Modell (wie GPT-2) ist wie eine riesige, hochmoderne Fabrik, die Texte schreibt. In dieser Fabrik gibt es eine spezielle Abteilung, die „MLP" genannt wird. Die Wissenschaftler haben lange geglaubt, dass diese Abteilung wie ein glatter, geschmeidiger Schleifstein funktioniert: Sie nimmt einen Satz, poliert ihn ein wenig und gibt ihn weiter, wobei sie kleine, kontinuierliche Anpassungen vornimmt.

Die neue Studie von Peter Balogh sagt jedoch: „Nein, das ist nicht wie ein Schleifstein. Es ist eher wie ein Schalterkasten mit Lichtern."

Hier ist die einfache Erklärung der wichtigsten Entdeckungen, gemischt mit ein paar anschaulichen Bildern:

1. Der große Irrtum: Glatt vs. Schalter

Stellen Sie sich vor, Sie laufen durch einen Park (die Daten). Die alte Theorie sagte: „Der Weg ist eine sanfte, wellenförmige Straße. Das Modell passt sich einfach langsam an die Kurven an."

Die neue Studie zeigt aber: Der Weg ist eigentlich ein Straßenkreuzungssystem mit Ampeln.

Die Ampel (der Schalter): Das Modell trifft eine harte, binäre Entscheidung: „Braucht dieser Satz eine komplexe Überarbeitung oder reicht ein simpler Durchlauf?"
Das Ergebnis: Für die meisten Wörter (ca. 90 %) ist die Ampel auf „Grün" für den schnellen Weg. Das Modell macht fast nichts, es lässt den Satz einfach durch. Für die schwierigen Wörter (ca. 10 %) springt die Ampel auf „Rot", und das Modell schaltet den „Super-Modus" ein, um hart zu arbeiten.

2. Das Team der 7 und der „Ausnahme-Manager"

In der obersten Etage der Fabrik (Schicht 11) hat der Autor ein faszinierendes Team entdeckt:

Die 7 Wächter (Die „Default-ON"-Neuronen): Diese sieben Mitarbeiter sind fast immer wach. Sie sagen im Grunde: „Alles ist in Ordnung, der Text ist einfach, wir können weitermachen."
Der Ausnahme-Manager (Neuron N2123): Dieser eine Mitarbeiter schläft fast immer. Aber! Wenn die 7 Wächter sich nicht einig sind (wenn die Ampel rot wird), wacht er sofort auf und schreit: „Stopp! Hier ist etwas Komplexes! Wir brauchen den vollen Aufwand!"

Das Spannende: Diese beiden Gruppen sind wie Tag und Nacht. Wenn die 7 Wächter aktiv sind, schläft der Manager. Wenn der Manager aktiv ist, schlafen die Wächter. Sie arbeiten zu 93–98 % gegenseitig aus. Das ist kein Zufall, das ist ein perfekt getimter Mechanismus.

3. Der „Konsens" (Die Einigkeit)

Stellen Sie sich vor, die 7 Wächter sind ein Jury-Team.

Wenn alle 7 zustimmen (Konsens): Das Team sagt „Alles klar". Das Modell spart Energie und lässt den Satz fast unverändert durch. Wenn man diesen Teil der Fabrik hier abschaltet, passiert kaum etwas.
Wenn die Jury zerstritten ist (Konsens-Bruch): Die 7 Wächter sind sich uneinig. Dann springt der Ausnahme-Manager ein. Jetzt wird die Fabrik voll aktiviert. Wenn man diesen Teil hier abschaltet, kollabiert die Qualität des Textes sofort (die Verwirrung steigt um das 4-fache!).

Das bedeutet: Das Modell weiß genau, wann es „schlafen" darf und wann es „wach" sein muss.

4. Warum Polynome (Mathe-Kurven) versagen

Früher haben Mathematiker versucht, das Verhalten dieser Abteilung mit glatten Kurven (Polynomen) zu beschreiben, wie man eine Kurve durch Punkte zeichnet.

Das Ergebnis: Es hat nicht funktioniert. Es ist, als würde man versuchen, einen digitalen Schalter (Ein/Aus) mit einer glatten Wasserwelle zu beschreiben. Es passt einfach nicht.
Die Wahrheit: Die Entscheidung ist digital (Ja/Nein), auch wenn die Daten, die durchfließen, analog (fließend) sind. Das Modell trifft eine digitale Entscheidung über einen analogen Fluss.

5. Ein Vergleich mit Claude Shannon

Der Autor zitiert Claude Shannon, einen Pionier der Informationstheorie. Shannon zeigte, dass man mit einfachen Schaltern (Ein/Aus) komplexe Logik bauen kann, egal wie stark der Strom fließt.

Der Unterschied hier: Bei Shannons Relais war der Strom nur das „Material". Bei der KI ist der Strom (die Daten) wichtig, aber die Entscheidung, ob der Strom durchgelassen wird, ist eine harte, binäre Regel.
Die Metapher: Stellen Sie sich einen Wasserhahn vor. Der Wasserfluss ist kontinuierlich (analog). Aber die Entscheidung, den Hahn ganz aufzudrehen oder fast zuzudrehen, wird von einem Schalter getroffen, der nur zwei Zustände kennt: „Normal" oder „Notfall".

Zusammenfassung: Was lernen wir daraus?

Diese Studie zeigt uns, dass KI-Modelle nicht nur „glatt" rechnen. Sie haben eine innere Architektur aus Schaltern.

Sie versuchen, so viel wie möglich einfach und schnell zu erledigen (der „schnelle Pfad").
Nur wenn es wirklich schwierig wird (z. B. bei mehrdeutigen Wörtern wie „Bank" oder „das"), schalten sie auf den „langsamen, komplexen Pfad" um.

Das ist wie bei uns Menschen: Wir lesen den Satz „Ich gehe zur Bank" automatisch durch. Aber wenn wir hören „Ich gehe zur Bank, um Geld zu holen" vs. „Ich gehe zur Bank, um zu sitzen", muss unser Gehirn kurz anhalten, um zu entscheiden, welche Bedeutung gemeint ist. Die KI macht genau das: Sie schaltet einen internen Schalter um, um die richtige Bedeutung zu finden.

Der „Discrete Charm" (Der diskrete Charme): Der Charme liegt darin, dass diese riesigen, komplexen Maschinen im Inneren sehr einfache, klare Regeln (Schalter) verwenden, um ihre Arbeit zu erledigen. Sie sind nicht chaotisch, sie sind organisiert wie ein gut funktionierender Schalterkasten.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „The Discrete Charm of the MLP: Binary Routing of Continuous Signals in Transformer Feed-Forward Layers" von Peter Balogh auf Deutsch.

1. Problemstellung und Motivation

Die vorherrschende Sichtweise auf die Feed-Forward-Schichten (MLPs) in Transformer-Modellen betrachtet diese als glatte Funktionsapproximatoren. Basierend auf dem Universal Approximation Theorem und der Theorie der stückweise-affinen Splines (Balestriero & Baraniuk, 2018) wird angenommen, dass das MLP kontinuierliche Eingaben durch eine komplexe, aber stetige nichtlineare Funktion in kontinuierliche Ausgaben überführt.

Das Paper stellt diese Annahme in Frage und untersucht folgende zentrale Frage:

Implementiert das MLP tatsächlich eine glatte, polynomiale Approximation entlang des Datenmanifolds?
Oder handelt es sich bei der zugrundeliegenden Berechnung um diskrete Routing-Entscheidungen, die kontinuierliche Signale durch qualitativ unterschiedliche Pfade leiten?

Der Autor argumentiert, dass die stückweise-affine Struktur nicht notwendigerweise eine glatte Variation widerspiegelt, sondern diskrete Bedingungen (binäre Entscheidungen) sein könnte, die bestimmen, ob ein Token eine nichtlineare Verarbeitung benötigt oder linear weitergeleitet werden kann.

2. Methodik

Die Studie verwendet das GPT-2 Small-Modell (124M Parameter, 12 Schichten, 3072 MLP-Neuronen pro Schicht) auf dem WikiText-103-Datensatz (500.000 Tokens). Die Analyse erfolgt in drei Hauptphasen:

A. Polynomiale Probing (Überprüfung der Glattheit)

Um zu testen, ob die nichtlinearen Residuen ( $\delta = y_{MLP} - y_{linear}$ ) glatte Strukturen aufweisen:

Es wurden Eingabe-Ausgabe-Paare gesammelt.
Es wurden Ridge-Regressionen mit Polynomen bis zum Grad 7 auf PCA-komprimierten Daten gefittet.
Branch Detection: Selbst bei der Clusterbildung hoch-nichtlinearer Tokens (z. B. via K-Means, Spectral Clustering, UMAP) und der Anpassung separater Polynome pro Cluster konnte keine glatte Struktur gefunden werden. Die $R^2$ -Werte blieben extrem niedrig (max. 0,06 für Layer 9).

B. Binäre Merkmalsextraktion und Routing-Analyse

Regime-Unterscheidung: Tokens wurden basierend auf der Stärke des nichtlinearen Residuums ( $\|\delta\|$ ) in drei Gruppen eingeteilt: linear, schwach nichtlinear und hoch nichtlinear.
Neuronale Forensik: Es wurden Neuronen identifiziert, deren Feuerraten sich drastisch zwischen diesen Regimen unterscheiden.
Binärisierung: Die Aktivierungen der top-Neuronen wurden binarisiert (Feuern > 0.1 vs. nicht Feuern), um Muster der gegenseitigen Exklusivität und Konsensbildung zu analysieren.

C. Kausale Validierung (Ablation)

Um die funktionale Bedeutung der gefundenen Struktur zu testen, wurde der MLP-Ausgang für Tokens bei verschiedenen Konsens-Niveaus (Anzahl der feuernenden „Konsens-Neuronen") auf Null gesetzt.
Der Einfluss auf die Perplexität (Verwirrungsgrad) wurde gemessen, um den kausalen Beitrag des MLP zu quantifizieren.

3. Schlüsselbeiträge und Ergebnisse

A. Das Scheitern der polynomiellen Approximation

Die Analyse zeigt, dass die nichtlinearen Residuen nicht durch Polynome (selbst bei hohen Graden oder nach Clusterbildung) vorhergesagt werden können. Die Nichtlinearität ist kein Mischmodell glatter Funktionen, sondern deutet auf eine diskrete Struktur hin. Die einzige Ausnahme bilden Paragraph-Endzeichen (\n\n), die ein konsistentes, polynomiales Muster aufweisen – dies bestätigt jedoch die Regel, da dies ein einfacher, einheitlicher Routing-Fall ist.

B. Entdeckung der „Konsens-Architektur" (Layer 11)

In der 11. Schicht von GPT-2 Small wurde eine hochstrukturierte Architektur identifiziert, die als Binäres Routing fungiert:

7 „Default-ON" Neuronen: Diese feuern bei ca. 74–99 % der linearen/standard-Tokens und schalten bei hoch-nichtlinearen Tokens ab.
1 „Exception Handler" (Neuron N2123): Dieses Neuron ist bei linearen Tokens fast immer aus (0,4 % Feuerrate) und feuert bei hoch-nichtlinearen Tokens mit 80,7 %.
Gegenseitige Exklusivität: N2123 und die 7 Konsens-Neuronen sind zu 93–98 % gegenseitig exklusiv. Dies ist kein Zufall der Feuerraten, sondern eine Eigenschaft der gelernten Gewichte (komplementäre Halbräume im Eingaberaum).
Konsens-Gradient: Es existiert eine perfekt monotone Beziehung: Je mehr Konsens-Neuronen feuern, desto weniger feuert N2123 und desto kleiner ist die Norm des MLP-Ausgangs.
- Bei vollem Konsens (7/7): MLP-Ausgang ist minimal (~70), das MLP wirkt fast linear.
- Bei Konsens-Bruch (0/7): N2123 feuert, der MLP-Ausgang ist groß (~194, Faktor 2,8 höher).

C. Kausale Validierung

Die Ablationsstudie bestätigt, dass diese Struktur funktional ist:

Entfernt man das MLP bei Konsens-Bruch (0/7 feuern), steigt die Perplexität um 43,3 %.
Entfernt man das MLP bei vollem Konsens (7/7 feuern), steigt die Perplexität nur um 10,1 %.
Dies zeigt einen 4-fachen Unterschied in der funktionalen Wichtigkeit. Das MLP ist bei Konsens-Bruch essenziell für die Auflösung von Mehrdeutigkeiten, während es bei vollem Konsens eher Rauschen hinzufügt oder sogar leicht schädlich ist.

D. Entwicklungsverlauf über die Schichten

Die Analyse aller 12 Schichten zeigt eine dreiphasige Entwicklung:

Scaffold (L0–L3): Einzelne Gateway-Neuronen leiten Ausnahmen weiter, aber ohne Konsens-Quorum.
Diffuse (L4–L6): Keine klare Gateway- oder Konsens-Struktur; verteilte Verarbeitung.
Decision (L7–L11): Die Konsens/Ausnahme-Architektur kristallisiert sich aus. Die Größe des Konsens-Quorums nimmt mit der Tiefe zu (1 → 3 → 7 Neuronen).

E. Binäres Routing vs. Kontinuierliche Signale

Ein entscheidender Befund ist die Trennung von Routing-Entscheidung und Signalstärke:

Die Routing-Entscheidung (benötigt das Token nichtlineare Verarbeitung?) kann zu fast 100 % Genauigkeit (79,2 % vs. 78,8 %) allein durch binarisierte Aktivierungen vorhergesagt werden.
Die kontinuierliche Signalstärke (wie stark muss korrigiert werden?) enthält zusätzliche Information ( $R^2 = 0,36$ für kontinuierliche vs. $0,22$ für binäre Merkmale).
Das MLP ist also ein hybrides System: Binäres Routing kontinuierlicher Signale.

4. Bedeutung und Implikationen

Neues Interpretationsparadigma: Das Paper schlägt vor, MLPs nicht primär als Funktionsapproximatoren, sondern als gelernte Quorum-Systeme zu betrachten. Die Neuronen fungieren als Schalter, die entscheiden, ob ein Token den „Fast Path" (linear) oder den „Slow Path" (voll nichtlinear) nimmt.
Shannon-Analogie: Ähnlich wie Claude Shannon zeigte, dass Relais-Schalter (kontinuierliche Hardware) Boolesche Algebra (diskrete Logik) implementieren, nutzen Transformer-MLPs kontinuierliche GELU-Aktivierungen, um diskrete Routing-Logik zu implementieren. Im Gegensatz zu Shannons Relais ist hier jedoch das kontinuierliche Signal selbst informationstragend (für die Korrekturstärke).
Auflösung von Polysemie: Die Architektur bietet einen Mechanismus zur Auflösung von Mehrdeutigkeiten (Polysemie). Wenn der Kontext klar ist (Konsens), reicht lineare Verarbeitung. Wenn der Kontext mehrdeutig ist (Konsens-Bruch), feuert der Exception Handler und leitet das Token zur komplexen nichtlinearen Verarbeitung.
Effizienz und Linearisierung: Da das MLP bei vollem Konsens oft nur Rauschen hinzufügt, könnte man diese Tokens effizient linearisieren oder überspringen, ohne die Modellleistung signifikant zu beeinträchtigen. Dies bietet neue Ansätze für die Kompression und Beschleunigung von Transformer-Modellen.
Skalierbarkeit: Die saubere Konsens-Architektur wurde in GPT-2 Small gefunden, zeigt sich aber in größeren Modellen (Medium, Large) weniger klar. Dies wirft die Frage auf, ob binäres Routing eine Kompressionsstrategie kleiner Modelle ist oder ob es sich in größeren Modellen in komplexeren Mustern (z. B. verteilte Konsenssysteme) wiederfindet.

Fazit

Das Paper widerlegt die Annahme, dass Transformer-MLPs rein glatte polynomiale Funktionen approximieren. Stattdessen offenbart es eine diskrete Routing-Struktur, bei der spezifische Neuronen-Kombinationen als binäre Schalter fungieren, die kontinuierliche Signale durch unterschiedliche Verarbeitungspfade leiten. Diese Struktur ist kausal relevant, interpretierbar und bildet eine Brücke zwischen der Theorie der stückweise-affinen Splines und der praktischen Funktionsweise von neuronalen Netzen als logische Schaltungen.