Half the Nonlinearity Is Wasted: Measuring and Reallocating the Transformer's MLP Budget

Dit onderzoek toont aan dat een aanzienlijk deel van de niet-lineariteit in transformer-MLP's overbodig is en dat het dynamisch vervangen ervan door lineaire substituten, gebaseerd op context, de rekenkosten kan verlagen of zelfs de prestaties kan verbeteren.

Peter Balogh

Gepubliceerd 2026-03-05
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

De helft van de "niet-lineaire" kracht wordt verspild: Een simpele uitleg van het onderzoek

Stel je voor dat je een enorm, superintelligent kantoor hebt (een AI-model) waar duizenden werknemers (de neurale lagen) elke dag hard werken om teksten te begrijpen en te voorspellen. De directeur van dit kantoor heeft altijd gedacht: "Elke werknemer moet elke dag zijn volledige, complexe takenpakket uitvoeren. Als we één stap overslaan, crasht het hele systeem."

Dit onderzoek van Peter Balogh komt met een schokkend nieuwsbericht voor die directeur: "Nee, dat klopt niet. De helft van de tijd doen ze eigenlijk niets anders dan een simpele, lineaire berekening. We verspillen dus enorm veel energie aan werk dat niet nodig is."

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Kantoor en de "Grote Berekening"

In een AI-model zoals GPT-2 of Pythia is er een specifieke afdeling, de MLP (Multilayer Perceptron). Dit is de afdeling die de echte "denkwerk" doet.

  • De oude aanname: Elke werknemer op deze afdeling moet elke dag een ingewikkelde, niet-lineaire puzzel oplossen (met veel krullen en bochten in de logica).
  • De ontdekking: Het onderzoek toont aan dat voor de meeste woorden, in de meeste situaties, deze "ingewikkelde puzzel" eigenlijk gewoon een rechte lijn is. Het is alsof je een dure, krachtige tractor gebruikt om een postzegel van de muur te halen. Je kunt dat ook met een simpele handbeweging doen.

2. De "Poortwachter" (De Gate)

De onderzoekers hebben een slimme poortwachter bedacht. Dit is een heel klein, simpel algoritme (zoals een simpele ja/nee-vraag) dat kijkt naar wat er op dat moment gebeurt.

  • Hoe werkt het? De poortwachter kijkt niet naar welk woord er is (bijvoorbeeld: "de" of "hond"). Hij kijkt naar de context: "Wat is er net gebeurd? Wat zeggen de andere woorden?"
  • Het resultaat: Als de context simpel is, zegt de poortwachter: "Gebruik de simpele, snelle lijn." Als de context complex is, zegt hij: "Gebruik de dure, krachtige tractor."
  • Het effect: In het GPT-2 model kon ongeveer 40% van de werkkracht worden vervangen door een simpele lijn, zonder dat de kwaliteit van de tekst verslechterde. Op sommige plekken werd het model zelfs beter omdat het niet meer probeerde om ingewikkelde dingen te doen die het niet nodig had.

3. De Grootste Misvatting: "Woorden zijn niet de sleutel"

Eerst dachten de onderzoekers: "Ah, misschien zijn het de 'kleine' woorden (zoals 'de', 'en', 'is') die simpel zijn, en de 'inhoudswoorden' (zoals 'kip', 'vliegen', 'liefde') die complex zijn."

  • De test: Ze maakten een lijstje van woorden die altijd complex leken.
  • De teleurstelling: Toen ze die lijstje gebruikten op een ander stuk tekst (bijvoorbeeld van Wikipedia naar een fictieboek), werkte het helemaal niet meer.
  • De les: Het woord "de" kan soms heel complex zijn (als het in een rare zin staat) en soms heel simpel. Het hangt niet af van het woord zelf, maar van waar het staat. Je kunt niet op voorhand zeggen: "Woord X is altijd moeilijk." Je moet kijken naar de situatie.

4. Architectuur is Koning: Het Verschil tussen GPT-2 en Pythia

Het onderzoek toont een interessant verschil tussen twee soorten kantoren (architecturen):

  • GPT-2 (Het oude kantoor): Hier werken de mensen in een rij. Eén doet iets, dan de ander. Hier bleek dat de meeste werknemers in het midden van de rij eigenlijk maar simpele taken hadden. Je kon ze vervangen door simpele lijnen en het kantoor liep soepeler.
  • Pythia (Het moderne kantoor): Hier werken mensen parallel. Hier is het werk soms echt complexer en moeilijker om te vereenvoudigen. Maar zelfs hier bleek dat op de "midden-afdelingen" veel werk verspild werd.

5. Het Experiment: "De Chirurgische Operatie"

Om te bewijzen dat dit echt werkt, hebben ze een experiment gedaan:

  1. Ze namen een getraind model.
  2. Ze vervangen de "dure" werknemers in het midden van het kantoor door "simpele lijnen" (vaste matrices).
  3. Ze gaven het model een klein beetje training om zich aan te passen.
    Het resultaat: Het model werd beter. Het was alsof je een auto hebt die te zwaar is, en je de zware motor uit het midden haalt en vervangt door een lichte veer. De auto rijdt sneller en zuiniger.

Samenvatting in één zin

Deze paper zegt dat we in AI-modellen veel te veel rekenkracht verspillen aan het doen van complexe berekeningen voor simpele situaties; als we slim kijken naar de context en alleen dan de "dure" kracht gebruiken, kunnen we modellen sneller, goedkoper en soms zelfs slimmer maken.

De metafoor:
Het is alsof je een restaurant hebt waar elke kok, voor elk gerecht, altijd de hele keuken voldraait met de duurste apparatuur. Het onderzoek zegt: "Nee, voor een simpele salade hoef je geen oven te gebruiken. Gebruik een simpele snijplank. En voor de complexe steak? Gebruik dan pas de oven." Door dit slim te regelen, bespaar je energie en wordt het eten soms zelfs lekkerder omdat de chef-koks niet oververmoeid raken door onnodig werk.