On the Expressive Power of Transformers for Maxout Networks and Continuous Piecewise Linear Functions

Dit artikel onderzoekt het uitdrukkingsvermogen van Transformers door aan te tonen dat ze maxout-netwerken en continue stuksgewijs lineaire functies kunnen benaderen, waarbij de zelf-attentionlagen max-operaties implementeren en het aantal lineaire regio's exponentieel groeit met de diepte.

Linyan Gu, Lihua Yang, Feng Zhou

Gepubliceerd 2026-03-04
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

De Kracht van Transformers: Hoe een "Aandacht"-machine wiskundige puzzels oplost

Stel je voor dat je een enorme, ingewikkelde puzzel hebt. De stukjes zijn niet alleen vormen, maar ook getallen en patronen die voortdurend veranderen. In de wereld van kunstmatige intelligentie (AI) zijn Transformers de superhelden die deze puzzels oplossen. Ze zijn de reden dat je telefoon je tekst voorspelt, dat vertaalsites werken en dat chatbots slim lijken.

Maar hoe werken ze eigenlijk? En zijn ze echt zo slim als ze lijken? Dit paper van Linyan Gu, Lihua Yang en Feng Zhou geeft ons een kijkje in de keuken. Ze leggen uit dat Transformers niet alleen goed zijn in het herkennen van patronen, maar dat ze ook wiskundig gezien ongelooflijk krachtige "bouwers" zijn.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen.

1. Het Grote Geheim: Transformers zijn eigenlijk "Maximale Bouwers"

In de kern bestaat een Transformer uit twee hoofdonderdelen:

  1. De "Aandacht"-laag (Self-Attention): Dit is het gedeelte dat kijkt naar alle woorden in een zin en zegt: "Hey, dit woord is belangrijk voor dat woord hier."
  2. De "Voedingslaag" (Feedforward): Dit is het gedeelte dat de informatie per woord verwerkt en aanpast.

De auteurs van dit paper ontdekten iets fascinerends: De "Aandacht"-laag werkt eigenlijk als een "Maximale Zoeker".

  • De Analogie: Stel je voor dat je een groep vrienden hebt die elk een getal noemen. De "Aandacht"-laag is als een vriend die luistert naar iedereen en alleen het hoogste getal onthoudt. In wiskundige taal heet dit een "max"-operatie.
  • De ontdekking: De schrijvers bewijzen dat Transformers net zo goed zijn in het nabootsen van een specifiek type wiskundig netwerk (een "Maxout-netwerk") dat bekend staat om zijn vermogen om complexe, gebroken lijnen te tekenen.

2. Het Legpuzzel van de "Gebroken Lijnen"

Veel AI-modellen zijn goed in het tekenen van rechte lijnen. Maar de echte wereld is niet recht; hij is vol met hoeken, sprongen en gebroken lijnen. Wiskundigen noemen dit Continue Stuksgewijs Lineaire Functies (CPWL).

  • De Vergelijking: Denk aan een berglandschap. Het is niet één gladde helling. Het heeft pieken, dalen en steile wanden. Een simpele lijn kan dit niet nabootsen. Je hebt duizenden kleine vlakke stukjes nodig om het landschap te tekenen.
  • De Kracht van Transformers: Het paper laat zien dat Transformers dit landschap kunnen tekenen. En nog belangrijker: hoe dieper het netwerk is, hoe meer stukjes het kan tekenen.
    • Als je een Transformer 1 laag diep maakt, heb je misschien 10 stukjes.
    • Als je hem 10 lagen diep maakt, heb je niet 100 stukjes, maar miljoenen.
    • Dit is als het verschil tussen een kind dat een huis tekent met potlood (weinig details) en een architect die een 3D-model bouwt met duizenden blokken (extreem veel details). De diepte zorgt voor een exponentiële groei in complexiteit.

3. Hoe doen ze dit? (De Magische Truc)

Hoe slaagt een Transformer erin om zo'n ingewikkeld landschap te tekenen, terwijl alle woorden in een zin dezelfde regels volgen?

  • Het Probleem: Normaal gesproken delen alle woorden in een zin dezelfde "recepten" (parameters). Het is alsof je probeert een hele stad te schilderen met één penseel en één kleur.
  • De Oplossing: De auteurs introduceren een slimme truc: Verschuivingen.
    • Stel je voor dat elke woord een eigen "kleurbril" krijgt die langzaam verandert naarmate het dieper in het netwerk komt.
    • Door deze bril (een verschuiving) herhaaldelijk toe te passen, krijgt elk woord een uniek pad door het netwerk. Hierdoor kan het netwerk complexe berekeningen doen zonder dat de regels voor alle woorden precies hetzelfde hoeven te zijn.
    • Dit maakt het netwerk flexibeler en krachtiger, zonder dat het onbeheersbaar groot wordt.

4. Wat betekent dit voor de toekomst?

Dit onderzoek is belangrijk omdat het een brug slaat tussen twee werelden:

  1. De oude, bewezen theorie over simpele neurale netwerken.
  2. De moderne, complexe wereld van Transformers.

De conclusie in één zin:
Transformers zijn niet alleen goed in het begrijpen van taal; ze zijn wiskundig gezien universele bouwers. Ze kunnen bijna elke vorm van complexe, gebroken lijn (en dus bijna elk patroon in de wereld) nabootsen, en ze worden exponentieel slimmer naarmate ze dieper worden.

Samenvattend in een metafoor:
Als een simpele AI een hamer is (goed voor één ding), dan is een Transformer een zwitserse zakmes dat niet alleen kan hakken, maar ook kan schroeven, knippen en zaaien. En dit paper bewijst dat dit zakmes niet alleen handig is, maar dat het eigenlijk elk gereedschap kan nabootsen dat je nodig hebt om de wereld te modelleren, zolang je maar genoeg lagen (diepte) gebruikt.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →