Optimized Architectures for Kolmogorov-Arnold Networks

✨

Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

De Slimme Schaar: Hoe we AI-modellen kleiner, sneller en begrijpelijker maken

Stel je voor dat je een gigantische, overvolle gereedschapskist hebt. Deze kist zit vol met hamers, schroevendraaiers, zagen en zelfs een hele set gereedschappen die je waarschijnlijk nooit nodig hebt. Je noemt dit een KAN (Kolmogorov-Arnold Netwerk). In de wereld van kunstmatige intelligentie zijn deze netwerken speciaal omdat ze niet alleen voorspellingen doen, maar ook laten zien hoe ze tot die conclusie komen. Ze zijn als een open boek, in tegenstelling tot de meeste moderne AI's die een "zwarte doos" zijn waar niemand doorheen kan kijken.

Het probleem? Deze gereedschapskist is vaak veel te groot. Als je te veel gereedschappen hebt, wordt het onmogelijk om te zien welk stukje gereedschap eigenlijk het werk doet. De auteurs van dit paper, James Bagrow en Josh Bongard, willen deze kist opschonen zonder de kwaliteit van het werk te verliezen.

Hier is hoe ze dat doen, vertaald naar alledaagse taal:

1. De Uitdaging: Te veel gereedschap, te weinig overzicht

Normaal gesproken bouwen wetenschappers AI-modellen die steeds groter en complexer worden om nauwkeuriger te zijn. Maar zoals bij een rommelige garage: hoe meer spullen je hebt, hoe moeilijker het is om te vinden wat je nodig hebt. Voor wetenschappers is dit vervelend, omdat ze niet alleen een voorspelling willen, maar ook willen begrijpen waarom die voorspelling klopt.

2. De Oplossing: Een slimme, leerzame schaar

De auteurs hebben een nieuwe manier bedacht om deze grote netwerken te "prunen" (te snoeien). Ze gebruiken drie slimme trucs die samenwerken als een super-efficient team:

De Digitale Schaar (Edge Gates): Stel je voor dat elke verbinding in het netwerk een lantaarnpaal is. Sommige lantaarnpalen staan aan, andere uit. De "Digitale Schaar" kan tijdens het leren beslissen welke lantaarnpalen ze volledig kan doven (uitschakelen) zonder dat het huis donker wordt. Ze leert welke stukjes overbodig zijn.
De Snelle Afrit (Exit Gates): Stel je voor dat je een lange tunnel doorloopt. Meestal loop je de hele tunnel uit, maar soms is de uitgang al op de helft zichtbaar. De "Snelle Afrit" zorgt ervoor dat het netwerk kan beslissen: "Oh, dit probleem is simpel, ik hoef niet de hele tunnel af te lopen, ik kan hier al uitstappen." Dit maakt het model veel sneller en compacter.
De Express-lanes (Forward Connections): Dit zijn speciale tunnels die je direct van de ingang naar de uitgang brengen, zonder de hele wandeling te hoeven maken. Ze zorgen ervoor dat belangrijke informatie niet verloren gaat, zelfs als je de lange weg door de tunnel afkapt.

3. De Regels van het Spel: De "Minimum Beschrijvingslengte"

Hoe weten ze welke lantaarnpalen ze mogen doven en waar ze mogen uitstappen? Ze gebruiken een slimme regel, gebaseerd op een principe uit de natuurkunde en informatietheorie: Minimum Beschrijvingslengte (MDL).

Stel je voor dat je een verhaal moet vertellen. Je wilt het verhaal zo kort en bondig mogelijk houden, maar het moet nog steeds begrijpelijk zijn. Als je te veel details toevoegt (te veel lantaarnpalen), wordt het verhaal saai en onoverzichtelijk. Als je te weinig details hebt, is het verhaal onbegrijpelijk.
De computer zoekt voortdurend naar het perfecte evenwicht: het kleinste mogelijke verhaal dat nog steeds perfect klopt. Het leert dus niet alleen wat de antwoorden zijn, maar ook hoe simpel het verhaal kan zijn.

4. Wat hebben ze ontdekt?

In hun experimenten hebben ze gekeken naar verschillende taken, zoals het voorspellen van het weer, het simuleren van ecosystemen en het voorspellen van de sterkte van beton.

Alleen scheren werkt niet: Als je alleen de "Digitale Schaar" gebruikt (zonder de andere trucs), wordt het model vaak te simpel en maakt het fouten. Het is alsof je alle gereedschappen weggooit en alleen een hamer overhoudt; je kunt dan geen schroeven meer draaien.
De combinatie is goud: Als je de schaar combineert met de "Snelle Afrit" en de "Express-lanes", gebeurt er magie. Het netwerk leert zichzelf in te korten tot een klein, strak model dat net zo goed (of zelfs beter) presteert als het enorme, rommelige origineel.
Resultaat: Ze kregen modellen die veel kleiner waren (soms tot 18% van de originele grootte!) maar net zo nauwkeurig bleven. En het mooiste deel: omdat ze zo klein en simpel zijn, kunnen wetenschappers ze nu echt begrijpen. Ze kunnen zien welke wiskundige formules het netwerk heeft ontdekt.

Conclusie

Dit paper is als een handleiding voor het opruimen van je digitale gereedschapskist. Het laat zien dat je niet hoeft te kiezen tussen een slim, complex model en een simpel, begrijpelijk model. Door slimme architectuur en een slimme "schaar" te gebruiken, kun je beide krijgen: een AI die niet alleen goed werkt, maar die ook eerlijk uitlegt hoe ze tot haar conclusies komt.

Het is een grote stap in de richting van wetenschappelijke AI: machines die niet alleen antwoorden geven, maar die we ook echt kunnen vertrouwen en begrijpen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Geoptimaliseerde Architecturen voor Kolmogorov–Arnold Netwerken (KANs)

Auteurs: James Bagrow en Josh Bongard
Datum: April 2026 (voorgesteld)

1. Het Probleem

Kolmogorov–Arnold Netwerken (KANs) hebben recentelijk veel aandacht getrokken vanwege hun unieke combinatie van voorspellende nauwkeurigheid en interpretabiliteit. In tegenstelling tot traditionele neurale netwerken die gewichten leren, leren KANs univariate activatiefuncties op de randen van het netwerk. Dit maakt individuele componenten inspecteerbaar, wat essentieel is voor wetenschappelijk machine learning.

Echter, net als bij standaard diepe netwerken, geldt voor KANs dat "meer" (overprovisioning) de expressiviteit vergroot ten koste van de interpretabiliteit. Grote, overgeprovisioneerde modellen worden moeilijk te interpreteren. Bestaande methoden om deze modellen te vereenvoudigen (zoals post-hoc pruning) zijn vaak niet-differentieerbaar of vereisen dure discrete zoekprocessen. De kernuitdaging is het vinden van een manier om compacte, interpreteerbare KANs te leren zonder in te boeten aan nauwkeurigheid, waarbij de structuur en de parameters gelijktijdig worden geoptimaliseerd.

2. Methodologie

De auteurs stellen een geïntegreerde aanpak voor die drie mechanismen combineert binnen een overgeprovisioneerde KAN-architectuur, allemaal gestuurd door een Minimum Description Length (MDL) objectief.

A. Architecturale Componenten

Het voorgestelde model bevat drie hoofdelementen die samenwerken om de structuur te leren:

Differentieerbare Randpoorten (Edge Gates - E):
- Gebaseerd op $\ell_0$ -regularisatie met een continue relaxatie (Gumbel-Softmax en sigmoid gating).
- Elke activatiefunctie (rand) heeft een bijbehorende poort die tijdens het trainen kan worden "gesloten" (waarde 0) of "geopend" (waarde 1).
- Dit zorgt voor sparsificatie op het niveau van individuele verbindingen.
Forward Connections (FCs - F):
- Geïnspireerd op DenseNet, waarbij elke laag verbonden is met alle daaropvolgende lagen.
- Dit zorgt voor diepe supervisie (gradiënten stromen direct naar eerdere lagen) en maakt het mogelijk dat eerdere features de output bereiken zonder alle tussenliggende lagen te passeren.
- Dit fungeert als een mechanisme voor diepteselectie door overbodige lagen in de "stam" (trunk) te omzeilen.
Multi-Exit Poorten (Exit Gates - X):
- Elke laag heeft een eigen "exit head" (uitgang).
- Een categorische poort (geïmplementeerd via Gumbel-Softmax) leert welke exit het beste is voor een specifieke invoer.
- Dit biedt expliciete diepteselectie: het netwerk kan beslissen om vroeg te stoppen (kleiner model) of dieper te gaan (complexer model).

B. Leerdoel (Loss Function)

De auteurs gebruiken het Minimum Description Length (MDL) principe als leidraad. De totale loss functie bestaat uit twee delen:
$\mathcal{L}_{MDL} = \mathcal{L}_{data} + \mathcal{L}_{model}$

$\mathcal{L}_{data}$ : De fout op de data (bijv. MSE).
$\mathcal{L}_{model}$ : Een straffing gebaseerd op de complexiteit van het model, geschat als het aantal "open" poorten (randen en exits).
- De complexiteit wordt berekend als de verwachte beschrijvingslengte van het pad dat door het netwerk wordt genomen, rekening houdend met de waarschijnlijkheid van het kiezen van een specifieke exit.

C. Trainingsprocedure

Warm-up: Eerst wordt alleen de "stam" getraind om de spline-activaties te stabiliseren.
Gelaagde activatie: FCs worden pas later geactiveerd om te voorkomen dat ze de feature-ontwikkeling domineren.
Temperatuur-annealing: De temperatuurparameter ( $\tau$ ) voor de Gumbel-Softmax poorten wordt verlaagd van hoog (exploratie) naar laag (exploitatie), zodat het netwerk geleidelijk een discrete structuur aanneemt.
Inferentie: Na het trainen worden de poorten deterministisch gethreshold (waarde > 0.5 = open), wat resulteert in een volledig discrete, compacte architectuur.

3. Belangrijkste Bijdragen

End-to-End Structuurleer: Voor het eerst wordt een volledig differentieerbare methode gepresenteerd die activaties, sparsiteit (structuur) en diepte (aantal lagen) gelijktijdig optimaliseert binnen KANs.
Synergie van Mechanismen: Het artikel toont aan dat sparsificatie alleen (alleen E) onvoldoende is en vaak ten koste gaat van de nauwkeurigheid. De combinatie met diepteselectie (via FCs of Exits) is cruciaal.
Principiële Benadering: Door MDL te gebruiken, wordt de afweging tussen nauwkeurigheid en complexiteit niet willekeurig gedaan, maar theoretisch onderbouwd.
Uitgebreide Validatie: De methode wordt getest op drie categorieën:
- Functiebenadering (Nguyen-symbolische regressie benchmark).
- Dynamische systemen (Ikeda-map, ecosysteem-model).
- Real-world datasets (betonsterkte, supergeleiders).

4. Resultaten

De experimenten gebruikten een $2 \times 2 \times 2$ factoriaal ontwerp (met/zonder E, F, X).

Functiebenadering:
- Condities met diepteselectie (E+X, E+F, E+F+X) leverden modellen op die kleiner én nauwkeuriger waren dan de baseline.
- Alleen E (sparsificatie) leidde vaak tot kleinere modellen maar met een significante daling in nauwkeurigheid.
- Voorbeeld: Bij het leren van $z = \sin(x + y^2)$ vond de EFX-variant een model met slechts 3 bijdragende randen (tegenover 7 bij de baseline) met een $R^2$ van 1.0000.
Dynamische Systemen:
- Voor de Ikeda-map konden modellen met E+X de grootte van 48 randen reduceren naar 16 zonder nauwkeurigheidsverlies.
- Bij het ecosysteem-model was de situatie complexer; hier was over-regularisatie een risico, maar de beste condities (EFX) vonden nog steeds compacte oplossingen.
Real-world Data:
- Op de betonsterkte-dataset bereikte de EFX-conditie een RMSE van 4.87 MPa (tegenover 4.91 bij de baseline) met een model dat 82% kleiner was (64 randen vs 351).
- Voor supergeleiders werden vergelijkbare verbeteringen gezien: kleinere modellen met vergelijkbare of betere nauwkeurigheid.
Pareto-analyse:
- De EX-conditie (Edge gates + Exits) had gemiddeld de beste Pareto-front (hypervolume), wat aangeeft dat deze combinatie de beste balans biedt tussen nauwkeurigheid en parsimonie.
- De EFX-conditie (alle drie de mechanismen) was vaak de meest expressieve en robuuste keuze, wat suggereert dat FCs en Exits complementair zijn in plaats van redundant.

5. Betekenis en Conclusie

Dit onderzoek biedt een principieel pad naar modellen die zowel expressiever als interpreteerbaarder zijn. De belangrijkste conclusies zijn:

Sparsificatie alleen is niet genoeg: Het verwijderen van randen zonder een mechanisme voor diepteselectie leidt vaak tot onderfitting.
Diepteselectie is cruciaal: Of het nu via Forward Connections (impliciet) of Exit Heads (expliciet) gaat, de mogelijkheid om de effectieve diepte van het netwerk te kiezen, is essentieel voor het vinden van compacte, accurate KANs.
Differentieerbare Architectuurzoek: Door architectuurkeuzes (diepte, connectiviteit) differentieerbaar te maken, wordt de zoektocht naar de beste structuur een integraal onderdeel van het trainingsproces, in plaats van een dure, discrete hyperparameter-tuning.

De auteurs concluderen dat het gebruik van edge gates in combinatie met een overgeprovisioneerde, diep-superviserende architectuur (zoals EFX) de veiligste en meest effectieve standaardinstelling is voor het trainen van wetenschappelijke KANs zonder dat men a priori de optimale architectuur hoeft te kennen. Dit opent de deur voor bredere toepassing van KANs in wetenschappelijke ontdekkingen waar interpretatie en nauwkeurigheid even belangrijk zijn.