KANs need curvature: penalties for compositional smoothness

Het Probleem: De "Gezaagde" Oplossing

Stel je voor dat je een robot probeert te leren een gladde, vloeiende kromme te tekenen, zoals een sinusgolf. Je geeft de robot een speciale set gereedschappen genaamd KAN's (Kolmogorov-Arnold-netwerken). Deze gereedschappen zijn geweldig omdat, in tegenstelling tot standaard AI die werkt als een zwarte doos, KAN's je precies laten zien hoe ze het plaatje tekenen. Elke "penselstreek" (activatiefunctie) is zichtbaar en begrijpelijk.

Echter, het artikel vond een bug. Wanneer deze robots proberen de data perfect te passen, worden ze vaak "onrustig". In plaats van een gladde lijn te tekenen, tekenen ze een lijn die eruitziet als een gezaagd berglandschap of een kladje. Het past perfect bij de datapunten, maar het ziet er totaal niet uit als de gladde kromme die je verwachtte.

De auteurs noemen dit "hoog-krommende oscillatie". In gewone taal: de robot denkt te veel na en voegt onnodige wiebelingen en knikken toe aan zijn tekening.

De Oude Oplossing: De "Luie" Boete

Voorheen probeerden wetenschappers deze onrust te stoppen met een standaard "boete". Denk hierbij aan een leraar die tegen de robot zegt: "Gebruik niet te veel inkt."

Het Probleem: Deze boete controleert alleen hoeveel inkt er wordt gebruikt (de grootte), niet hoe het wordt gebruikt.
Het Resultaat: Een robot kan een klein beetje inkt gebruiken om een gladde lijn te tekenen, of een klein beetje inkt om een gek, gezaagd kladje te tekenen. De oude boete kan het verschil niet zien. Het is alsof een leraar alleen het aantal woorden in een essay telt, maar de zinnen niet leest om te zien of ze zinvol zijn. De robot blijft gezaagde lijnen tekenen omdat de boete de "gezaagdheid" niet "ziet".

De Nieuwe Oplossing: De "Gladheids"-Boete

De auteurs bedachten een nieuwe, slimmere boete. In plaats van alleen inkt te tellen, meet deze nieuwe boete de "buigenergie" van de lijnen.

De Analogie: Stel je voor dat je een flexibele liniaal buigt. Als je hem zachtjes buigt in een gladde boog, kost dat weinig moeite. Als je probeert hem in een scherp zigzag te draaien, kost dat veel moeite en energie.
De Oplossing: De nieuwe boete rekent de robot een "tarief" in rekening op basis van hoeveel energie het kost om zijn lijnen te buigen. Als de robot probeert een gezaagd zigzag te tekenen, is het tarief enorm. Als hij een gladde kromme tekent, is het tarief laag.
Het Resultaat: De robot leert dat om zijn "tarief" laag te houden, hij gladde lijnen moet tekenen. Het artikel toont aan dat met deze nieuwe boete de robots het plaatje nog steeds perfect nauwkeurig kunnen tekenen, maar dat de lijnen nu glad, leesbaar zijn en eruitzien als de echte functie die ze proberen na te bootsen.

Waarom Dit Belangrijk Is: De "Kettingreactie"

Men zou kunnen vragen: "Als we gewoon de individuele penselstreken gladstrijken, blijft het hele plaatje dan glad?"

De Bezorgdheid: In een diep netwerk wordt de output van één laag de input voor de volgende. Het is als een kettingreactie. Als de eerste laag een beetje wankel is, kan de volgende laag die wankelheid versterken tot een enorme rommel.
De Ontdekking: De auteurs bewezen wiskundig dat als je de individuele randen (de penselstreken) gladstrijkt, je automatisch een "plafond" plaatst voor hoe rommelig het hele plaatje kan worden. Door de kleine onderdelen te controleren, controleer je het geheel.
De Bonus: Ze vonden ook een manier om dit nog beter te maken door de boete te wegen. Sommige penselstreken zijn belangrijker voor het eindplaatje dan andere. Door extra aandacht te besteden aan de "belangrijke" streken, leert de robot nog sneller en nauwkeuriger.

De Grote Winst: Stabiliteit en Eenvoud

Voorheen, als een robot te complex werd (overgeparameteriseerd), werd hij onstabiel en crashte hij. Om dit op te lossen, moesten wetenschappers een ingewikkeld, meerstaps trainingsproces gebruiken: begin met een eenvoudig rooster, train, schakel dan over naar een complex rooster, en begin opnieuw. Het was alsof je een huis bouwt, het vervolgens afbreekt om een groter huis te bouwen.

Met deze nieuwe "gladheidsboete" kan de robot direct vanaf het begin complexe, hoge-resolutie roosters verwerken. Hij blijft stabiel zonder dat het ingewikkelde meerstapsproces nodig is.

Samenvatting

Het Probleem: AI-modellen (KAN's) die interpreteerbaar zouden moeten zijn, tekenen vaak gezaagde, rommelige lijnen die moeilijk te begrijpen zijn.
De Oude Weg: Probeerde dit te stoppen door de "grootte" van de lijnen te beperken, wat niet werkte.
De Nieuwe Weg: Introduceerde een boete die rekent voor "buigen" of "wiebelen". Dit dwingt de AI om gladde, schone lijnen te tekenen.
Het Resultaat: De AI blijft even nauwkeurig, maar de resultaten zijn glad, stabiel en veel makkelijker voor mensen te interpreteren. Het verandert een "zwarte doos" in een heldere, leesbare schets.

Technische Samenvatting: KAN's Behoeften aan Kromming: Straffen voor Compositieve Gladheid

Probleemstelling
Kolmogorov–Arnold-netwerken (KAN's) bieden een overtuigend alternatief voor traditionele neurale netwerken door vaste niet-lineariteiten te vervangen door leerbare univariate activeringsfuncties op de randen, met de belofte van zowel hoge nauwkeurigheid als interpreteerbaarheid. Een kritiek gebrek beperkt echter hun praktische bruikbaarheid in wetenschappelijk machine learning: goed passende KAN's ontwikkelen vaak "pathologisch hoog-krommende oscillaties" in hun activeringsfuncties. Hoewel deze modellen de data nauwkeurig passen, maken de resulterende "kink-achtige" oscillaties de geleerde functies onleesbaar en moeilijk interpreteerbaar. De auteurs betogen dat standaard regularisatiestrafpenningen die in KAN's worden gebruikt (specifiek de grootte- en entropiestrafpenningen voorgesteld door Liu et al.) structureel onbekwaam zijn om dit te voorkomen. Deze standaardstraffen hangen alleen af van de gemiddelde grootte van activeringen en bevatten geen afgeleide-informatie; bijgevolg krijgt een wild oscillerende functie dezelfde straf als een gladde functie als hun gemiddelde groottes identiek zijn.

Methodologie
Om het gebrek aan gladheid aan te pakken, stellen de auteurs een basis-agnostische krommingsstraf voor, afgeleid van de theorie van gestrafte splines (P-splines).

Afleiding van de Rand-voor-Rand Straf:
De auteurs definiëren de kromming van een univariate activeringsfunctie $\phi_e$ als zijn $L_2$ -buigingsenergie, $\int (\phi_e''(z))^2 dz$ . Door de KAN-activeringsvorm (een lineaire combinatie van een basisfunctie, doorgaans SiLU, en B-splines) te substitueren, leiden ze een gesloten-vorm straf af die direct werkt op de modelcoëfficiënten:
$R(f) = \sum_{e} \left( \|D_2(\beta_e c_e)\|^2 + K_{\text{silu}} \alpha_e^2 \right)$
Hierbij is $D_2$ de tweede-differentiematrix die werkt op de spline-coëfficiënten $c_e$ , $\beta_e$ de spline schaalt, en $\alpha_e$ de basisfunctie schaalt. De term $K_{\text{silu}}$ is een constante afgeleid van de tweede afgeleide van de SiLU-functie. Deze straf wordt rand-voor-rand toegepast en is onafhankelijk van de verdeling van de trainingsdata.
Theoretische Analyse van Compositieve Kromming:
Inzicht hebbend dat gladheid op randniveau niet automatisch de gladheid van de volledige samengestelde functie garandeert, voeren de auteurs een compositieve analyse uit. Ze leiden de Hessiaan van de volledige netwerkfunctie af met behulp van de kettingregel, gebruikmakend van de specifieke structuur van KAN's waarbij de Hessiaans van lagen diagonaal zijn (vanwege univariate randen).
Ze bewijzen Stelling 1, die vaststelt dat de voorgestelde rand-voor-rand straf $R(f)$ dient als een rigoureuze bovengrens voor de ware kromming op compositiesniveau $\mathcal{R}(f)$ (gedefinieerd als de verwachte kwadratische Frobenius-norm van de invoer-Hessiaan). Dit bewijs rust op drie structurele aannamen met betrekking tot padgewichten, activeringsdichtheid en knoopafstand, en toont aan dat het minimaliseren van de rand-voor-rand straf effectief een bovengrens minimaliseert voor de globale kromming.
Gewogen Uitbreiding:
De auteurs stellen verder een "rijkere" gewogen straf voor die de verwachte padgewichten ( $\bar{w}_e$ ) integreert, afgeleid uit de kettingregel-decompositie. Deze variant schaal de straf voor elke rand op basis van zijn verwachte impact op de globale Hessiaan, hoewel dit opnieuw een afhankelijkheid van de verdeling van de trainingsdata introduceert.

Belangrijkste Bijdragen

Structurele Beperking van Bestaande Straffen: Het artikel demonstreert dat de standaard KAN-straf gladheid niet kan afdwingen omdat deze afgeleide-informatie mist, waardoor het onmogelijk is om te onderscheiden tussen gladde en oscillerende functies van gelijke grootte.
Basis-Agnostische Krommingsstraf: De auteurs leiden een gesloten-vorm, coëfficiënt-gebaseerde krommingsstraf af die kan worden toegepast op elke vaste basis met kwadraat-integreerbare tweede afgeleiden (bijvoorbeeld B-splines).
Theoretische Bovengrens: Door middel van compositieve analyse bewijst het artikel dat de rand-voor-rand straf de kromming van het volledige netwerk boven-grens, wat een theoretische rechtvaardiging biedt voor het gebruik van lokale straffen om globale gladheid te controleren.
Empirische Validatie: De studie toont aan dat met kromming gestrafte KAN's aanzienlijk gladdere activeringen bereiken terwijl ze een nauwkeurigheid behouden die vergelijkbaar is met niet-gestrafte of standaard-gestrafte modellen, over functiebenadering, de Feynman-symbolische regressie-benchmark en overgeparametriseerde regimes.

Resultaten

Functiebenadering: In experimenten waarbij functies zoals $f(x, y) = \sin(x + y^2)$ en $f(x, y) = \exp(\sin(\pi x) + y^2)$ werden benaderd, produceerden met kromming gestrafte modellen activeringsfuncties die visueel overeenkwamen met de ware componenten (bijvoorbeeld gladde sinus- en polynoomkrommen), terwijl niet-gestrafte modellen vertoonden op hoge-frequentie oscillaties.
Feynman Benchmark: Op 14 vergelijkingen uit de Feynman-symbolische regressie-benchmark bereikten met kromming gestrafte KAN's de laagste totale randkromming in alle 14 gevallen. Wat betreft nauwkeurigheid (Test RMSE), kwamen ze overeen met of overtroffen ze de standaard KAN-straf in 9 van de 14 vergelijkingen, en lagen ze binnen een factor twee van de beste nauwkeurigheid in alle gevallen.
Stabiliteit in Overgeparametriseerde Regimes: De krommingsstraf stabiliseerde het trainen van overgeparametriseerde KAN's (hoge gridgrootte $G$ ) aanzienlijk. In tegenstelling tot de standaard KAN-straf, die vroeg plateauerde, bleven met kromming gestrafte modellen verbeteren over 3000 epochen. Bovendien maakte de straf stabiel trainen mogelijk met hoge-resolutie grids ( $G=200$ ) zonder de noodzaak van "grid-extensie" (een meerfasig trainingsproces dat begint met een lage $G$ ), waarbij test RMSE's van $\sim 10^{-3}$ werden bereikt waar niet-gestrafte modellen catastrofaal faalden.
Optimizer-Onafhankelijkheid: De voordelen van de krommingsstraf werden waargenomen met zowel Adam- als L-BFGS-optimizers.
Gewogen Straf: Een vergelijking met 10 zaden toonde aan dat de gewogen krommingsstraf (met inbegrip van padgewichten) de gemiddelde test RMSE met een factor 2,2 verlaagde in vergelijking met de uniforme rand-voor-rand straf.

Betekenis en Beweringen
Het artikel beweert dat de krommingsstraf een "enkele, principiële gladheidshefboom" biedt voor KAN's. De betekenis ligt op drie gebieden:

Interpreteerbaarheid: Door gladde activeringen af te dwingen, maakt de straf de interne representaties van KAN's leesbaar en in lijn met de wetenschappelijke intuïtie dat natuurwetten doorgaans glad zijn, waardoor KAN's als hulpmiddel voor wetenschappelijk machine learning worden versterkt.
Trainingsstabiliteit: Het lost de instabiliteit op bij het trainen van hoge-resolutie KAN's, waardoor single-stage, end-to-end optimalisatie mogelijk is zonder de noodzaak van complexe meerfasige grid-extensie-protocollen. Dit is cruciaal voor het integreren van KAN's in bredere systemen zoals neurale architectuurzoekruimte of meta-learning.
Architectueel Voordeel: De analyse benadrukt dat de diagonale structuur van KAN-Hessiaans (een gevolg van univariate randen) een uniek structureel voordeel is dat interpreteerbare per-rand toewijzing van compositieve kromming mogelijk maakt, een eigenschap die niet aanwezig is in standaard MLP's.

De auteurs concluderen dat gladheid niet slechts een toegevoegd kenmerk is, maar een controleerbare eigenschap die inherent is aan de KAN-architectuur, en dat het beheersen van deze eigenschap via krommingsstraffen essentieel is om het volledige potentieel van KAN's te realiseren in interpreteerbare wetenschappelijke ontdekking.