The Discrete Charm of the MLP: Binary Routing of Continuous Signals in Transformer Feed-Forward Layers

Each language version is independently generated for its own context, not a direct translation.

De Discrete Charme van de "Geheime Schakelaar" in AI

Stel je voor dat een kunstmatige intelligentie (zoals de beroemde GPT-2) een enorm kantoor is waar duizenden werknemers (de neuronen) elke dag duizenden brieven (woorden) verwerken. De standaardtheorie was dat deze werknemers als een gladde, continue machine werken: ze nemen een brief, buigen hem een beetje, rekken hem uit en geven hem terug, alsof ze een soepel getekende curve volgen.

Maar dit nieuwe onderzoek van Peter Balogh zegt: "Nee, dat klopt niet helemaal."

In plaats van een soepele machine, gedraagt dit AI-systeem zich meer als een slimme postsorteermachine met een geheime schakelaar. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De Twee Wegen: Snelweg of Omweg?

Stel je voor dat elke brief die binnenkomt twee mogelijke routes heeft:

Route A (De Snelweg): De brief is duidelijk en simpel (bijvoorbeeld het woord "de" of "en"). De werknemers hoeven niet na te denken. Ze sturen de brief gewoon door. Dit is de "lineaire" weg. Het kost weinig energie en gebeurt razendsnel.
Route B (De Omweg): De brief is lastig, dubbelzinnig of complex (bijvoorbeeld een zin die begint met "Hoewel..."). Dan moet er echt nagedacht worden. De brief wordt naar een speciale kamer gestuurd waar zware, ingewikkelde berekeningen plaatsvinden. Dit is de "niet-lineaire" weg.

Het verrassende ontdekking is: De beslissing welke route te nemen, is niet soepel, maar binary (ja/nee). Het is als een lichtschakelaar: of je gaat de snelweg op, of je gaat de omweg op. Er is geen "halfweg" of "een beetje omweg".

2. Het Comité en de Exceptionele Hulp

In de diepere lagen van het AI-systeem (zoals in laag 11 van GPT-2) werkt dit als een comité van 7 werknemers en één speciale hulp.

Het Comité (De 7 "Default-ON" werknemers): Deze 7 mensen zijn bijna altijd aan het werk. Als ze het eens zijn (wat ze bijna altijd zijn), dan is alles goed. De brief is simpel, en de hulp hoeft niet ingeschakeld te worden. De machine doet alsof er niets aan de hand is.
De Hulp (Neuron N2123): Dit is de "exception handler". Deze persoon zit normaal gesproken stil. Maar zodra het comité niet eens is (bijvoorbeeld omdat de context verward is), springt deze persoon direct op. Hij schakelt de zware machines in om de lastige brief op te lossen.

Het fascinerende is dat het comité en de hulp nooit samen werken. Als het comité aan het werk is, slaapt de hulp. Als de hulp wakker is, slaapt het comité. Het is een perfecte "of-dit-of-dat"-situatie, met een betrouwbaarheid van 93% tot 98%.

3. Waarom is dit belangrijk? (De "Schakelaar" van Shannon)

De auteur vergelijkt dit met de beroemde wiskundige Claude Shannon. Hij ontdekte dat je met simpele aan/uit-schakelaars (relais) complexe logica kunt bouwen.

De oude gedachte: De AI berekent een complexe, soepele kromme.
De nieuwe gedachte: De AI gebruikt de soepele signalen (de brieven) om te beslissen welke schakelaar je moet indrukken.

De kracht zit hem in de beslissing, niet in de hoeveelheid energie die erin gaat. De AI "weet" precies wanneer hij moet stoppen met simpele dingen doen en moet beginnen met hard werken.

4. Wat gebeurt er als je de schakelaar verwijdert?

Om te bewijzen dat dit echt belangrijk is, deed de auteur een experiment:

Als je de zware machines (de "omweg") uitschakelt voor de simpele brieven (waar het comité het eens is), gebeurt er bijna niets. De AI maakt nog steeds goede voorspellingen.
Maar als je de zware machines uitschakelt voor de lastige brieven (waar het comité het oneens is en de hulp moet springen), stort de AI in. De fouten nemen met 43% toe!

Dit bewijst dat de "schakelaar" niet zomaar een decoratie is. Het is de kern van hoe de AI slim blijft.

5. De Ontwikkeling: Van Bouwsteunen naar Beslissers

Het onderzoek laat ook zien hoe dit systeem groeit, net als een kind dat leert:

De vroege lagen (Baby-fase): Hier zijn er nog geen duidelijke committees. Er zijn alleen wat losse poortwachters die proberen te beslissen.
De middelste lagen (Tieners-fase): Alles is een beetje vaag. Er is nog geen duidelijke structuur; alles wordt verspreid verwerkt.
De late lagen (Volwassen-fase): Hier kristalliseert het systeem zich. De committees worden groter (van 1 naar 7 mensen) en de regels worden strakker. De AI wordt een meester in het herkennen van: "Is dit simpel? Dan doe ik niets. Is dit lastig? Dan schakel ik de zware machines in."

Conclusie

Deze paper vertelt ons dat AI niet zo werkt als een soepele, dromerige kunstenaar die alles een beetje aanpast. Het werkt meer als een slimme manager die continu kijkt: "Is dit een simpele taak? Dan geef ik het door aan de stagiair (de snelle weg). Is dit een crisis? Dan roep ik de directeur (de zware berekening) erbij."

De "magie" zit hem niet in de complexiteit van de berekening zelf, maar in de perfecte timing van de beslissing om die berekening te starten. En die beslissing is verrassend simpel: een simpele aan/uit-schakelaar in een wereld van continue signalen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "The Discrete Charm of the MLP: Binary Routing of Continuous Signals in Transformer Feed-Forward Layers" van Peter Balogh, geschreven in het Nederlands.

Probleemstelling

De standaardvisie op Feed-Forward (MLP) lagen in Transformer-modellen (zoals GPT-2) is dat ze gladde functiebenaderingen zijn. Volgens deze theorie, ondersteund door het werk van Balestriero & Baraniuk (2018), partitioneert het netwerk de invoerruimte in polytope en past het binnen elk gebied een affiene (lineaire) functie toe, wat resulteert in een continue, stuksgewijs affiene spline-functie.

De kernvraag van dit artikel is: Is de onderliggende berekening inderdaad een gladde benadering van een continue functie, of implementeert het netwerk in plaats daarvan discrete beslissingen? De auteur onderzoekt of de MLP-lagen continu signalen routeren via een gladde polynoom, of dat ze een binair routing-mechanisme gebruiken om te bepalen of een token noodzakelijke niet-lineaire verwerking nodig heeft.

Methodologie

Het onderzoek is uitgevoerd op GPT-2 Small (124M parameters, 12 lagen, 3072 MLP-neuronen per laag) getraind op WikiText-103. De methodologie omvat drie hoofdbenaderingen:

Polynoom-probing (Zoeken naar gladde structuur):
- De auteurs verzamelden input-output paren en isoleerden het niet-lineaire residu ( $\delta$ ) door een lineaire benadering af te trekken.
- Ze probeerden dit residu te modelleren met polynomen (graden 2 tot 7) via Ridge-regressie, zowel op het totale dataset als op geclusterde subgroepen (bijv. tokens met hoge niet-lineariteit).
- Doel: Kijken of de niet-lineariteit verklaard kan worden door een som van gladde functies.
Binair Feature-extractie en Forensiek:
- Tokens werden ingedeeld in regimes op basis van de grootte van het niet-lineaire residu ( $\|\delta\|$ ): lineair, licht niet-lineair en sterk niet-lineair.
- De auteurs analyseerden de vuurfrequenties van neuronactivaties (GELU) en binariseerden deze (aan/uit).
- Ze onderzochten wederzijdse exclusiviteit (mutual exclusivity) tussen specifieke neurongroepen om te zien of er een gestructureerd "IF/ELSE" patroon ontstaat dat niet verklaard kan worden door onafhankelijke vuurfrequenties.
Causale Validatie (Ablatie):
- De auteurs verwijderden de MLP-uitvoer voor tokens op verschillende niveaus van "consensus" (het aantal actieve consensus-neuronen) en maten de impact op de perplexity (verwarring) van het model.
- Dit testte of de geobserveerde structuren functioneel noodzakelijk zijn.

Belangrijkste Bevindingen en Resultaten

1. Polynomen falen categorisch

Polynoomfits (tot graad 7) verklaarden maximaal $R^2 = 0.06$ voor Laag 9 en $R^2 = 0.26$ voor Laag 11 van het niet-lineaire residu.
Zelfs na clustering van tokens in subgroepen (om verschillende "takken" van de spline te vinden) bleef de $R^2$ verwaarloosbaar (maximaal 0.021).
Conclusie: De niet-lineariteit is geen mengsel van gladde functies. De enige uitzondering was bij paragraafgrenzen (\n\n), waar een enkel consistent patroon toevallig polynoom-achtig was.

2. De "Consensus/Exception" Architectuur

In de diepere lagen (vooral Laag 11) werd een opvallende architectuur ontdekt die werkt als een binaire router:

7 "Default-ON" Neuronen: Deze activeren voor 74–99% van de "lineaire" tokens (tokens die geen zware verwerking nodig hebben).
1 "Exception Handler" (Neuron N2123): Deze is 93–98% wederzijds exclusief met de 7 consensus-neuronen. Hij is stil wanneer de consensus helder is, maar activeert voor 80,7% van de tokens wanneer de consensus faalt (d.w.z. bij complexe, niet-lineaire tokens).
Consensus Gradient: Er is een perfect monotone relatie: hoe meer consensus-neuronen actief zijn, hoe lager de activatie van N2123 en hoe kleiner de output-norm van de MLP.
- Bij volledige consensus (7/7): Output norm $\approx 70$ (lineair pad).
- Bij consensus-breuk (0/7): Output norm $\approx 194$ (2,8x hoger, volledig niet-lineair pad).

3. Causale Validatie

Het verwijderen van de MLP had een drastisch verschillende impact afhankelijk van het consensus-niveau:

Bij consensus-breuk (0/7 consensus): Perplexity steeg met 43,3%.
Bij volledige consensus (7/7 consensus): Perplexity steeg slechts met 10,1%.
Dit bevestigt dat de MLP bij consensus-breuk essentieel is voor de berekening, terwijl bij volledige consensus de bijdrage van de MLP nauwelijks meer dan ruis is (soms zelfs licht schadelijk).

4. Binaire vs. Continue Informatie

Het binariseren van de neuronactivaties behield 99,5% van de informatie over de routing-beslissing (79,2% nauwkeurigheid vs. 78,8% voor continue waarden).
De continue magnitudes voegden echter extra informatie toe over hoeveel correctie nodig was ( $R^2 = 0.36$ vs $0.22$).
Conclusie: Het routing-gebeuren is binair, maar het signaal dat wordt gerouteerd is continu.

5. Ontwikkelingsarc over de lagen

De analyse toonde een drie-fase ontwikkeling in GPT-2 Small:

Scaffold lagen (L0–L3): Gebruiken enkele "gateway"-neuronen om uitzonderingen te routeren, zonder complexe consensus.
Diffuse lagen (L4–L6): Geen duidelijke routeringsstructuur; verwerking is verspreid.
Decision lagen (L7–L11): De volledige consensus/exception architectuur kristalliseert, met een toenemende quorum-grootte (van 1 naar 7 consensus-neuronen) naarmate de diepte toeneemt.

Bijdrage en Betekenis

Paradigmaverschuiving: Het paper daagt de heersende opvatting uit dat MLP's puur gladde functiebenaderders zijn. Het stelt dat ze in plaats daarvan binaire routers zijn die continue signalen door kwalitatief verschillende computationele paden sturen (een "fast path" vs. een "slow path").
Interpretabiliteit: De ontdekking van een "Exception Handler" (N2123) en een "Consensus Committee" biedt een nieuwe, interpreteerbare manier om te kijken naar interne mechanismen. Het fungeert als een software-architectuurpatroon (fast/slow path) dat uit gradient descent is ontstaan.
Verband met Shannon: De auteur trekt een parallel met Claude Shannon's relais-schakelaars. Net zoals relais stroom (continu) gebruiken om logische beslissingen (discreet) te nemen, gebruiken GELU-neuronen continue activaties om discrete routing-beslissingen te nemen. In tegenstelling tot Shannon's relais, is het continue signaal in de MLP echter essentieel voor de grootte van de correctie.
Implicaties voor Linearisatie: Omdat tokens met volledige consensus nauwelijks baat hebben bij de MLP (de bijdrage is ruis), suggereert dit een strategie voor efficiëntie: de MLP kan worden overgeslagen voor tokens waar de consensus hoog is, zonder significant verlies aan prestaties.
Beperkingen: De schone "single exception handler" structuur werd niet gevonden in grotere modellen (GPT-2 Medium en Large), wat suggereert dat dit een compressiestrategie is bij beperkte capaciteit of dat de structuur bij schaalvergroting complexer wordt (bijv. gedistribueerde consensus).

Conclusie:
De paper concludeert dat de MLP in Transformer-modellen een hybride systeem is: binaire routing van continue signalen. De routing-beslissing (welk token heeft niet-lineaire verwerking nodig?) is discreet en goed gevangen door binaire patronen, terwijl de magnitude van het signaal bepaalt hoe groot de correctie is. Dit biedt een complementair perspectief op de bestaande theorie van stuksgewijs affiene splines.