On the Expressive Power of Transformers for Maxout Networks and Continuous Piecewise Linear Functions

Each language version is independently generated for its own context, not a direct translation.

De Kracht van Transformers: Hoe een "Aandacht"-machine wiskundige puzzels oplost

Stel je voor dat je een enorme, ingewikkelde puzzel hebt. De stukjes zijn niet alleen vormen, maar ook getallen en patronen die voortdurend veranderen. In de wereld van kunstmatige intelligentie (AI) zijn Transformers de superhelden die deze puzzels oplossen. Ze zijn de reden dat je telefoon je tekst voorspelt, dat vertaalsites werken en dat chatbots slim lijken.

Maar hoe werken ze eigenlijk? En zijn ze echt zo slim als ze lijken? Dit paper van Linyan Gu, Lihua Yang en Feng Zhou geeft ons een kijkje in de keuken. Ze leggen uit dat Transformers niet alleen goed zijn in het herkennen van patronen, maar dat ze ook wiskundig gezien ongelooflijk krachtige "bouwers" zijn.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen.

1. Het Grote Geheim: Transformers zijn eigenlijk "Maximale Bouwers"

In de kern bestaat een Transformer uit twee hoofdonderdelen:

De "Aandacht"-laag (Self-Attention): Dit is het gedeelte dat kijkt naar alle woorden in een zin en zegt: "Hey, dit woord is belangrijk voor dat woord hier."
De "Voedingslaag" (Feedforward): Dit is het gedeelte dat de informatie per woord verwerkt en aanpast.

De auteurs van dit paper ontdekten iets fascinerends: De "Aandacht"-laag werkt eigenlijk als een "Maximale Zoeker".

De Analogie: Stel je voor dat je een groep vrienden hebt die elk een getal noemen. De "Aandacht"-laag is als een vriend die luistert naar iedereen en alleen het hoogste getal onthoudt. In wiskundige taal heet dit een "max"-operatie.
De ontdekking: De schrijvers bewijzen dat Transformers net zo goed zijn in het nabootsen van een specifiek type wiskundig netwerk (een "Maxout-netwerk") dat bekend staat om zijn vermogen om complexe, gebroken lijnen te tekenen.

2. Het Legpuzzel van de "Gebroken Lijnen"

Veel AI-modellen zijn goed in het tekenen van rechte lijnen. Maar de echte wereld is niet recht; hij is vol met hoeken, sprongen en gebroken lijnen. Wiskundigen noemen dit Continue Stuksgewijs Lineaire Functies (CPWL).

De Vergelijking: Denk aan een berglandschap. Het is niet één gladde helling. Het heeft pieken, dalen en steile wanden. Een simpele lijn kan dit niet nabootsen. Je hebt duizenden kleine vlakke stukjes nodig om het landschap te tekenen.
De Kracht van Transformers: Het paper laat zien dat Transformers dit landschap kunnen tekenen. En nog belangrijker: hoe dieper het netwerk is, hoe meer stukjes het kan tekenen.
- Als je een Transformer 1 laag diep maakt, heb je misschien 10 stukjes.
- Als je hem 10 lagen diep maakt, heb je niet 100 stukjes, maar miljoenen.
- Dit is als het verschil tussen een kind dat een huis tekent met potlood (weinig details) en een architect die een 3D-model bouwt met duizenden blokken (extreem veel details). De diepte zorgt voor een exponentiële groei in complexiteit.

3. Hoe doen ze dit? (De Magische Truc)

Hoe slaagt een Transformer erin om zo'n ingewikkeld landschap te tekenen, terwijl alle woorden in een zin dezelfde regels volgen?

Het Probleem: Normaal gesproken delen alle woorden in een zin dezelfde "recepten" (parameters). Het is alsof je probeert een hele stad te schilderen met één penseel en één kleur.
De Oplossing: De auteurs introduceren een slimme truc: Verschuivingen.
- Stel je voor dat elke woord een eigen "kleurbril" krijgt die langzaam verandert naarmate het dieper in het netwerk komt.
- Door deze bril (een verschuiving) herhaaldelijk toe te passen, krijgt elk woord een uniek pad door het netwerk. Hierdoor kan het netwerk complexe berekeningen doen zonder dat de regels voor alle woorden precies hetzelfde hoeven te zijn.
- Dit maakt het netwerk flexibeler en krachtiger, zonder dat het onbeheersbaar groot wordt.

4. Wat betekent dit voor de toekomst?

Dit onderzoek is belangrijk omdat het een brug slaat tussen twee werelden:

De oude, bewezen theorie over simpele neurale netwerken.
De moderne, complexe wereld van Transformers.

De conclusie in één zin:
Transformers zijn niet alleen goed in het begrijpen van taal; ze zijn wiskundig gezien universele bouwers. Ze kunnen bijna elke vorm van complexe, gebroken lijn (en dus bijna elk patroon in de wereld) nabootsen, en ze worden exponentieel slimmer naarmate ze dieper worden.

Samenvattend in een metafoor:
Als een simpele AI een hamer is (goed voor één ding), dan is een Transformer een zwitserse zakmes dat niet alleen kan hakken, maar ook kan schroeven, knippen en zaaien. En dit paper bewijst dat dit zakmes niet alleen handig is, maar dat het eigenlijk elk gereedschap kan nabootsen dat je nodig hebt om de wereld te modelleren, zolang je maar genoeg lagen (diepte) gebruikt.

Each language version is independently generated for its own context, not a direct translation.

Titel: Over de Expressieve Kracht van Transformers voor Maxout-netwerken en Continue Stukgewijs Lineaire Functies

Auteurs: Linyan Gu, Lihua Yang en Feng Zhou
Datum: 4 maart 2026

1. Probleemstelling

Hoewel Transformer-netwerken empirisch zeer succesvol zijn in toepassingen zoals natuurlijke taalverwerking (NLP), computer vision en spraakverwerking, blijft hun theoretische expressieve kracht onvoldoende begrepen. Er zijn fundamentele vragen open over hoe goed deze architecturen complexe functies kunnen benaderen, vooral gezien hun unieke kenmerken:

Parameterdeling: Parameters worden gedeeld over alle tokens (woorden/elementen in een sequentie).
Beperkte interactie: Interacties tussen tokens vinden uitsluitend plaats via paarsgewijze dot-producten in het self-attention mechanisme.
Theoretische uitdaging: Bestaande theorieën voor feedforward-neurale netwerken (FNN's) zijn niet direct toepasbaar op Transformers vanwege de hierboven genoemde beperkingen.

De kernvraag is: Hoe goed kunnen Transformers continue stukgewijs lineaire (CPWL) functies benaderen, en wat is de relatie tussen hun architectuur en de complexiteit van deze functies?

2. Methodologie

De auteurs ontwikkelen een theoretisch raamwerk dat de expressieve kracht van Transformers analyseert door een directe link te leggen met Maxout-netwerken.

De Link met Maxout: Het self-attention mechanisme heeft een intrinsieke connectie met de max-operatie. Een Maxout-netwerk is een type feedforward-netwerk waarbij neuronen het maximum nemen van een set affiene functies. Het is bekend dat Maxout-netwerken exact continue stukgewijs lineaire (CPWL) functies kunnen representeren.
Constructie van Benadering: De auteurs construeren expliciete Transformer-netwerken die Maxout-netwerken benaderen met willekeurige nauwkeurigheid ( $L_\infty$ $L_{\infty}$ -norm) terwijl de modelcomplexiteit vergelijkbaar blijft.
- Self-Attention: Deze laag wordt gebruikt om max-achtige operaties te implementeren. Door het gebruik van hardmax (of geschaalde softmax met een hoge schalingsparameter $\lambda$ ) kan de attention-mechanisme het maximum van een reeks waarden selecteren.
- Feedforward (Token-wise): Deze laag voert affiene transformaties per token uit.
Omgaan met Parameterdeling: Om de beperkingen van parameterdeling in de feedforward-lagen te mitigeren (wat normaal gesproken de expressiviteit zou beperken), introduceren de auteurs een token-wise shift. Deze verschuiving wordt herhaaldelijk toegepast langs de diepte van het netwerk. Dit zorgt ervoor dat token-representaties in disjuncte (niet-overlappende) gebieden terechtkomen, waardoor de feedforward-lagen effectief stukgewijs lineaire functies kunnen modelleren zonder afhankelijk te zijn van het concept "contextual mapping" dat in eerdere werken werd gebruikt.
Vectorisatie: Voor sequentie-naar-sequentie mapping worden invoer en uitvoer vectoriseerd om de theorie van standaard FNN's toe te passen op de Transformer-structuur.

3. Belangrijkste Bijdragen

Expliciete Constructie voor Maxout-benadering:
De auteurs bewijzen dat Transformer-netwerken zowel ondiepe als diepe Maxout-netwerken kunnen benaderen. Dit impliceert dat Transformers ook universele benadering bezitten voor ReLU-netwerken (die een speciaal geval zijn van Maxout-netwerken) onder vergelijkbare complexiteitsbeperkingen.
Kwantitatieve Karakterisering via Lineaire Regio's:
Op basis van de connectie met Maxout-netwerken ontwikkelen ze een raamwerk om de expressiviteit van Transformers te kwantificeren via het aantal lineaire regio's (linear regions) dat het netwerk kan representeren. Dit is een fundamentele maatstaf voor de complexiteit van CPWL-functies.
Structurele Inzichten in Architectuur:
Het artikel onthult de specifieke rollen van de twee kerncomponenten van een Transformer:
- Self-Attention: Implementeert max-achtige operaties (selectie van het maximum).
- Feedforward: Realiseert token-wise affiene transformaties.
  De auteurs tonen aan dat de herhaalde toepassing van een token-wise shift de ontwerpvrijheid en expressieve capaciteit van de feedforward-netwerken verhoogt.

4. Resultaten

Universele Benadering: Er bestaat een Transformer-netwerk dat elke CPWL-functie (en dus elke ReLU-functie) op een compact domein willekeurig nauwkeurig kan benaderen.
Exponentiële Groei van Expressiviteit:
Het belangrijkste theoretische resultaat is dat het aantal lineaire regio's dat een Transformer-netwerk kan representeren exponentieel groeit met de diepte van het netwerk.
- Formule (vereenvoudigd): Voor een netwerk met diepte $D$ en bepaalde breedte-parameters, is het aantal regio's $N(\mathcal{F})$ ondergrens door een term die exponentieel is in $D$ (specifiek gerelateerd aan $q^{\lfloor D/3 \rfloor - 1}$ in de paper).
Parameter-efficiëntie: De benadering is parameter-efficiënt; het aantal parameters in de geconstrueerde Transformer komt overeen met de orde van grootte van het doel-Maxout-netwerk, rekening houdend met de sparsiteit van de attention- en feedforward-lagen.
Hardmax vs. Softmax: Hoewel de constructies vaak gebruikmaken van hardmax voor exactheid, tonen de auteurs aan dat een geschaalde softmax-variant (met een grote $\lambda$ ) de hardmax-versie willekeurig nauwkeurig benadert, met een foutmarge die omgekeerd evenredig is met $\lambda$ .

5. Betekenis en Conclusie

Dit werk legt een cruciale theoretische brug tussen de benaderingstheorie van standaard feedforward-neurale netwerken en Transformer-architecturen.

Theoretisch Fundament: Het bevestigt dat Transformers niet alleen empirisch krachtig zijn, maar ook theoretisch gezien een zeer hoge expressieve kracht bezitten, vergelijkbaar met of zelfs superieur aan traditionele diepe netwerken in termen van de groei van lineaire regio's.
Architectonisch Inzicht: Het biedt een nieuw perspectief op hoe Transformers werken: ze combineren globale contextuele selectie (via max in attention) met lokale lineaire transformaties.
Toekomstige Richtingen: De resultaten suggereren dat verfijnde benaderingsresultaten voor FNN's (zoals snelheden van convergentie en het omgaan met de "curse of dimensionality") nu ook naar Transformers kunnen worden overgebracht via hun systematische benadering van Maxout-netwerken.

Samenvattend bewijst dit artikel dat Transformers een fundamenteel vermogen hebben om complexe, niet-lineaire functies te modelleren, waarbij hun diepte een exponentiële meerwaarde biedt voor de expressiviteit, en dat hun interne mechanismen (attention en feedforward) specifieke wiskundige operaties uitvoeren die essentieel zijn voor deze kracht.

On the Expressive Power of Transformers for Maxout Networks and Continuous Piecewise Linear Functions

1. Het Grote Geheim: Transformers zijn eigenlijk "Maximale Bouwers"

2. Het Legpuzzel van de "Gebroken Lijnen"

3. Hoe doen ze dit? (De Magische Truc)

4. Wat betekent dit voor de toekomst?

Titel: Over de Expressieve Kracht van Transformers voor Maxout-netwerken en Continue Stukgewijs Lineaire Functies

1. Probleemstelling

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems