Oorspronkelijke auteurs: Nicholas J. Cooper, François G. Meyer, Michael L. Roberts, Carlos Zapata-Carratalá, Lijun Chen, Danna Gurari

Gepubliceerd 2026-05-07✓ Author reviewed ⓘ

📖 5 min leestijd🧠 Diepgaand

CC BY 4.0

Oorspronkelijke auteurs: Nicholas J. Cooper, François G. Meyer, Michael L. Roberts, Carlos Zapata-Carratalá, Lijun Chen, Danna Gurari

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat het bouwen van een Deep Neural Network (DNN) vergelijkbaar is met het construeren van een enorme, complexe fabriek. De afgelopen 40 jaar hebben ingenieurs deze fabrieken gebouwd door standaard Lego-blokken (lagen) op verschillende manieren op te stapelen. We weten dat deze fabrieken ongelooflijk goed werken, maar we hebben nooit echt een blauwdruk gehad die precies uitlegt hoe de blokken op het meest fundamentele niveau in elkaar passen. We hebben de fabriek van buitenaf bekeken en geraden hoe de tandwielen erbinnen draaien.

Dit artikel introduceert een nieuwe, ultradetailleerde blauwdruk genaamd een Hiërarchisch Combinatorisch Kader. Het kijkt niet alleen naar de fabriek; het maakt deze uit elkaar tot op het moleculaire niveau van hoe data wordt verplaatst en gemengd.

Hier is de uiteenzetting van hun ontdekking met behulp van eenvoudige analogieën:

1. De Nieuwe Blauwdruk: Van "Zwarte Dozen" naar "Transparante Tandwielen"

De meeste eerdere theorieën behandelden neurale netwerklagen als "zwarte dozen". Ze zeiden: "Deze doos neemt een afbeelding en geeft je een label", zonder de interne machinebouw uit te leggen.

De auteurs stellen een nieuwe manier voor om deze netwerken te bekijken met behulp van Hiërarchisch Combinatorische Complexe (HCC's). Denk hierbij aan een set Russische poppetjes:

De Elementen (De Bakstenen): De ruwe data (cijfers).
De Slices (De Stapels): Het groeperen van die cijfers in rijen of kolommen.
De Modes (De Planken): Het ordenen van die stapels in specifieke dimensies (zoals hoogte, breedte, kleur).
De Tensors (De Dozen): De daadwerkelijke 3D (of hogere) containers die de data bevatten.
De Operaties (De Mixers): De machines die deze dozen combineren (zoals Matrixvermenigvuldiging).
De Architectuur (De Fabrieksvloer): Hoe alle mixers en dozen met elkaar verbonden zijn.

De kerninnovatie hier is dat ze expliciet de "Tensor-operaties" (de mixers) modelleren. Eerdere theorieën negeerden de specifieke vorm en structuur van deze mixers. Dit artikel zegt: "Laten we precies tellen hoeveel tandwielen er in de mixer zitten en hoe ze in elkaar grijpen."

2. De Geschiedenisles: Waarom Nieuwe Architecturen Werken

De auteurs gebruikten hun nieuwe blauwdruk om terug te kijken op 40 jaar geschiedenis van neurale netwerken. Ze maten de "complexiteit" van beroemde architecturen (zoals de oorspronkelijke Perceptron, CNN's, ResNets en Transformers) door specifieke soorten verbindingen te tellen.

De Analogie: Stel je voor dat je de complexiteit van een auto meet.

1986 (FCNN): Een fiets. Eenvoudig, één versnelling.
1998 (CNN): Een auto met een versnellingsbak. Het heeft meer versnellingen (operaties van hogere orde) om verschillende terreinen te hanteren.
2016 (ResNet): Een auto met een turbo en een omloopklep (skip-verbindingen). Het voegt meer onderdelen toe aan de motor om hem soepeler te laten lopen.
2017 (Transformer): Een straalmotor. Het gebruikt een volledig ander, complexer type verbranding (een 3-weg mixer in plaats van een 2-weg).

De Bevinding: Elke keer dat een "bodemveranderende" architectuur werd uitgevonden, was het niet slechts een aanpassing; het was een sprong naar een hoger niveau van complexiteit. Het artikel vond dat de meest succesvolle modellen de eersten waren die een nieuwe "versnelling" of een nieuwe manier van datamixing introduceerden die nog nooit eerder was gebruikt.

3. De Ontdekking: Een Universum van Ongebouwde Fabrieken

Hier komt het meest spannende deel. De auteurs realiseerden zich dat we, terwijl we hebben gebouwd met 2-weg mixers (binaire operaties) en 3-weg mixers, een heel universum hebben van 4-weg, 5-weg en zelfs hogere mixers die we volledig hebben genegeerd.

Ze vroegen zich af: "Wat als we een fabriek zouden bouwen met deze super-complexe mixers?"

Met behulp van hun kader gokten ze niet alleen; ze systematisch 3.028 nieuwe fabrieksontwerpen gegenereerd met behulp van deze complexere mixers. Ze theoriseerden niet alleen; ze bouwden ze en testten ze.

Het Resultaat:
Ze ontdekten dat sommige van deze "rare", hoog-complexe ontwerpen verbazingwekkend efficiënt waren.

De Analogie: Stel je een standaard leveringsvrachtwagen (MobileNetV2) voor die beroemd is om zijn kleinheid en efficiëntie. De auteurs bouwden een nieuw voertuig met hun complexe mixers. Dit nieuwe voertuig was kleiner (met slechts 10% van de onderdelen) maar kon meer lading dragen (bereikte een hogere nauwkeurigheid) dan de beroemde vrachtwagen.
Specifiek versloeg een van hun nieuwe 5-laags modellen een beroemd 30-laags model, terwijl het slechts een fractie van de parameters gebruikte.

4. De "Rode Ster" Architectuur

Ze benadrukten één specifiek ontwerp (de "Rode Ster") dat een kampioen was.

Het gebruikte een "skip-verbinding" (het sturen van data om een mixer heen) maar combineerde dit met een zeer complexe 4-weg mixer.
Het hergebruikte onderdelen (gewichten) op slimme manieren, zoals een monteur die een bout van een motordel hergebruikt om een ander te repareren.
Het bewees dat je geen massief, diep netwerk nodig hebt om geweldige resultaten te behalen; je hebt gewoon het juiste type complexe mixen nodig.

Samenvatting

Dit artikel is als het geven van een nieuwe set gereedschappen aan ingenieurs om neurale netwerken te begrijpen en te bouwen.

Het Gereedschap: Een precieze wiskundige taal om precies te beschrijven hoe data wordt gemengd, niet alleen hoe het stroomt.
Het Inzicht: Geschiedenis toont aan dat doorbraken plaatsvinden wanneer we nieuwe soorten "mixers" uitvinden.
Het Experiment: Ze bouwden duizenden nieuwe ontwerpen met deze onontdekte, complexe mixers.
De Verrassing: Sommige van deze nieuwe ontwerpen zijn ongelooflijk efficiënt en presteren beter dan huidige industriestandaarden met veel minder middelen.

Het artikel concludeert dat de toekomst van neurale netwerken misschien niet ligt in het dieper of breder maken, maar in het structureel complexer maken op manieren die we nog niet hebben geprobeerd. Ze hebben hun 3.000+ nieuwe ontwerpen vrijgegeven voor iedereen om te bestuderen en te gebruiken.

Technische Samenvatting: Over de Architecturale Complexiteit van Neuronale Netwerken

Probleemstelling

Diepe neuronale netwerken (DNN's) hebben aanzienlijk empirisch succes behaald door de proliferatie van diverse en complexe architecturen. Echter, bestaande geünificeerde theoretische kaders (zoals Geometric Deep Learning en Categorical Deep Learning) vertrouwen op hoog-niveau abstracties van tensoroperaties, waarbij ze deze vaak behandelen als black-box geparametriseerde functies of abstracte lineaire transformaties. Deze abstractie verdoezelt de ingewikkelde hiërarchische structuur van tensoroperaties—specifiek de lager-niveau informatie over hoe tensoren worden gekoppeld, gesneden en getransformeerd. Bijgevolg bestaat er een kloof in het theoretische begrip van hoe architecturale complexiteit in de loop van de tijd evolueert, en ontbreekt het aan systematische methoden om nieuwe architecturen te construeren op basis van nieuwe typen tensoroperaties. Bovendien is Neural Architecture Search (NAS) momenteel beperkt tot het variëren van verbindingen tussen vaste sets bestaande operaties, waardoor het het ruimt van architecturen dat is opgebouwd uit fundamenteel nieuwe tensoroperaties niet verkent.

Methodologie

De auteurs introduceren een geünificeerd hiërarchisch combinatorisch kader gebaseerd op Hiërarchische Combinatorische Compleksen (HCC's). Dit kader modelleert expliciet de structuur van tensoroperaties in plaats van ze te abstracteren. Het kader construeert een rang-5 HCC om neuronale netwerken te representeren, georganiseerd als volgt:

Rank 0 — Elementen: Een basisset van reële variabelen.
Rank 1 — Slices: Geordende sets afgeleid van de elementen.
Rank 2 — Modi: Partities van slices, die de dimensies van een tensor vertegenwoordigen.
Rank 3 — Tensors: Generaliseerde tensoren gedefinieerd als 3-cellen. In tegenstelling tot standaard multidimensionale arrays kunnen deze "onregelmatige" tensoren (onvolledige arrays) en "hyper-tensors" (die multi-indices afbeelden op meerdere elementen) representeren door gebruik te maken van partities van geordende sets en strikte zwakke ordeningen.
Rank 4 — Operaties: Dit niveau is verdeeld in twee typen:
- Modekaarten: Functies tussen tensoren die slice-ruimtestructuren behouden (bijv. flattenen, unfolden, patch-ifying).
- Tensoroperaties: Mechanismen voor het combineren van meerdere tensoren (bijv. matrixvermenigvuldiging, Hadamard-product, multi-head projectie). Deze worden gedefinieerd via Tensor Operation Matrices (TOM's), die de incidentierelaties tussen invoertensoren en de modi van de uitvoertensor coderen, inclusief contracties (sommaties).
Rank 5 — Neuronale Netwerken: Samengesteld uit modekaarten en tensoroperaties, weergegeven door Tensor Equation Matrices (TEM's) die de relationele structuur tussen operaties en tensoren beschrijven.

Het kader introduceert specifieke metrieken om Architecturale Complexiteit te kwantificeren:

Operatiecomplexiteit ( $C_{op}$ ): Aantal operaties.
Tensorcomplexiteit ( $C_T$ ): Aantal tensoren.
Arity-complexiteit ( $C_\alpha$ ): Maximum aantal operanden in een enkele operatie.
Ordecomplexiteit ( $C_O$ ): Maximum aantal modi in een operatie.
Koppelings-arity-complexiteit ( $C_A$ ): Maximum grootte van een koppeling (gedeelde modi tussen invoeren).

De auteurs maken gebruik van dit kader om twee hoofdtaken uit te voeren: een retrospectieve analyse van 40 jaar DNN-evolutie en een systematische generatie van nieuwe architecturen.

Belangrijkste Bijdragen

Hiërarchisch Combinatorisch Kader: Het artikel construeert het eerste kader dat expliciet de structuur van tensoroperaties modelleert, een brede ruimte van architecturen parametrisert en concepten zoals architectuurdiagrammen formaliseert als incidentierelaties.
Retrospectieve Complexiteitsanalyse: De auteurs passen het kader toe om acht fundamentele architecturen te analyseren (FCNN, CNN, ResNet, Transformer, Poly-Net, MO-Net, ViM, TT-Net). Ze definiëren een "complexiteitsignatuur" voor elk en traceren de evolutie van deze signaturen gedurende de afgelopen vier decennia.
Systematische Generatie van Nieuwe Architecturen: Voorbij de grens van bekende architecturen genereren de auteurs systematisch een dataset van 3.028 nieuwe architecturen met hogere complexiteit. Deze worden geconstrueerd door nieuwe Tensor Operation Matrices (TOM's) en Tensor Equation Matrices (TEM's) te samplen met een hogere arity ( $C_\alpha$ ) en koppelings-arity ( $C_A$ ) dan eerder onderzocht.
Theoretische Decompositie: Het artikel biedt theoretische bewijzen (bijv. Stelling A.35) die aantonen dat onder specifieke voorwaarden (associativiteit en distributiviteit van basisoperaties) tensoroperaties met hogere arity kunnen worden gedecomposeerd in sequenties van binaire operaties, en omgekeerd, dat sequenties van binaire operaties equivalent kunnen zijn aan operaties met hogere arity.

Resultaten

Evolutie van Architecturale Complexiteit

De analyse van historische architecturen onthult een duidelijke trend: baanbrekende architecturale verschuivingen corresponderen met toenames in specifieke soorten complexiteit.

FCNN's vertegenwoordigen de basislijn met lage complexiteit.
CNN's introduceerden hogere ordecomplexiteit ( $C_O$ ) via convolutie.
ResNets verhoogden de tensor- en operatiecomplexiteit ( $C_T, C_{op}$ ) via skip-verbindingen.
Transformers markeerden de eerste significante toename in Arity-complexiteit ( $C_\alpha$ ), met gebruik van ternaire operaties voor self-attention.
Post-Transformer architecturen (Poly-Net, MO-Net, ViM, TT-Net) verhoogden de complexiteit verder, waarbij sommige hogere koppelings-arity ( $C_A > 2$ ) en hogere arity ( $C_\alpha > 3$ ) verkenden.
De studie merkt op dat veel architecturen met hoge complexiteit per ongeluk zijn ontdekt of zijn beschreven met coderingen van lagere complexiteit; het kader onthult hun ware, complexere signaturen.

Prestaties van Nieuwe Architecturen

De dataset van 3.028 gesamplede architecturen werd geëvalueerd op taken voor beeldclassificatie (CIFAR-10, CIFAR-100, Tiny ImageNet).

Parameter-efficiëntie: Veel gesamplede architecturen vertoonden opmerkelijke parameter- en diepte-efficiëntie.
Specifieke prestatie: Een specifieke "rode ster"-architectuur (sample $\star$ ) met slechts 5 lagen en ongeveer 198.000 parameters (152.000 uit de basisfase, 46.342 uit het nieuwe blok) behaalde 65,52% nauwkeurigheid op CIFAR-100.
Vergelijking: Deze prestatie overtrof MobileNetV2 (64,29% nauwkeurigheid), een veelgebruikte lichtgewicht architectuur met 2,5 miljoen parameters, met minder dan 10% van de parameters.
Efficiëntie: De resultaten suggereren dat tensoroperaties met hogere complexiteit modellen kunnen opleveren die aanzienlijk efficiënter zijn dan huidige state-of-the-art lichtgewicht modellen.

Betekenis en Claims

Het artikel claimt de eerste geünificeerde taal te bieden voor het rigoureus analyseren en construeren van neuronale netwerken op basis van de expliciete structuur van tensoroperaties. De betekenis hiervan ligt in:

Het blootleggen van verborgen complexiteit: Het onthult dat de evolutie van deep learning wordt gedreven door toenames in specifieke complexiteitsmetrieken (met name arity en koppelings-arity) die voorheen werden verdoezeld door hoog-niveau abstracties.
Het definiëren van grenzen: Het identificeert de grens van bekende klassen van architecturale complexiteit, waarbij wordt benadrukt dat grote klassen van architecturen met hogere complexiteit (bijv. $C_A > 2$ ) grotendeels onverkend zijn gebleven.
Systematische constructie: Het gaat voorbij aan trial-and-error of op verbindingen gebaseerde zoektochten (NAS) naar een systematische constructie van architecturen vanuit nieuwe tensoroperaties.
Ressource-efficiëntie: De empirische resultaten tonen aan dat het verkennen van deze ruimten met hogere complexiteit kan leiden tot architecturen die niet alleen nieuw zijn, maar ook aanzienlijk meer parameter-efficiënt dan bestaande modellen, wat de aanname uitdaagt dat prestaties enorme parameteraantallen vereisen.

De auteurs concluderen dat hun kader de exploratie mogelijk maakt van nieuwe ruimten van architecturen opgebouwd uit tensoroperaties met hogere complexiteit, en een weg biedt naar next-generation, uiterst efficiënt ontwerpen van neuronale netwerken. De dataset en code zijn publiek vrijgegeven om verder onderzoek op dit domein te faciliteren.

On the Architectural Complexity of Neural Networks