KANs need curvature: penalties for compositional smoothness

Le Problème : La Solution « Découpée »

Imaginez que vous essayez d'enseigner à un robot à dessiner une courbe fluide et ondulée, comme une onde sinusoïdale. Vous donnez au robot un ensemble spécial d'outils appelés KAN (Réseaux de Kolmogorov-Arnold). Ces outils sont excellents car, contrairement à l'IA standard qui fonctionne comme une boîte noire, les KAN vous permettent de voir exactement comment ils dessinent l'image. Chaque « coup de pinceau » (fonction d'activation) est visible et compréhensible.

Cependant, le document a révélé un bug. Lorsque ces robots tentent d'ajuster parfaitement les données, ils deviennent souvent « tremblotants ». Au lieu de dessiner une ligne lisse, ils dessinent une ligne qui ressemble à une chaîne de montagnes découpée ou à un gribouillis. Cela correspond parfaitement aux points de données, mais cela ne ressemble en rien à la courbe lisse que vous attendiez.

Les auteurs appellent cela une « oscillation à haute courbure ». En termes simples : le robot réfléchit trop et ajoute des ondulations et des plis inutiles à son dessin.

L'Ancienne Correction : La Pénalité « Paresseuse »

Auparavant, les scientifiques tentaient d'arrêter ce tremblement en utilisant une « pénalité » standard. Imaginez cela comme un enseignant disant au robot : « N'utilise pas trop d'encre. »

Le Problème : Cette pénalité vérifie seulement combien d'encre est utilisée (la magnitude), et non comment elle est utilisée.
Le Résultat : Un robot peut utiliser une toute petite quantité d'encre pour dessiner une ligne lisse, ou une toute petite quantité d'encre pour dessiner un gribouillis fou et découpé. L'ancienne pénalité ne peut pas faire la différence. C'est comme un enseignant qui ne compte que le nombre de mots dans une dissertation sans lire les phrases pour voir si elles ont du sens. Le robot continue de dessiner des lignes découpées parce que la pénalité ne « voit » pas le caractère découpé.

La Nouvelle Correction : La Pénalité « Lissage »

Les auteurs ont inventé une nouvelle pénalité, plus intelligente. Au lieu de simplement compter l'encre, cette nouvelle pénalité mesure l'« énergie de flexion » des lignes.

L'Analogie : Imaginez que vous pliez une règle flexible. Si vous la pliez doucement en un arc lisse, cela demande très peu d'effort. Si vous essayez de la tordre en un zigzag pointu, cela demande beaucoup d'effort et d'énergie.
La Solution : La nouvelle pénalité facture au robot des « frais » basés sur la quantité d'énergie nécessaire pour plier ses lignes. Si le robot tente de dessiner un zigzag découpé, les frais sont énormes. S'il dessine une courbe lisse, les frais sont faibles.
Le Résultat : Le robot apprend que pour maintenir ses « frais » bas, il doit dessiner des lignes lisses. Le document montre qu'avec cette nouvelle pénalité, les robots peuvent toujours dessiner l'image avec une précision parfaite, mais les lignes sont maintenant lisses, lisibles et ressemblent à la véritable fonction qu'ils tentent d'imiter.

Pourquoi Cela Compte : La « Réaction en Chaîne »

On pourrait se demander : « Si nous lissons simplement les coups de pinceau individuels, est-ce que l'ensemble de l'image reste lisse ? »

La Préoccupation : Dans un réseau profond, la sortie d'une couche devient l'entrée de la suivante. C'est comme une réaction en chaîne. Si la première couche est un peu instable, la couche suivante pourrait amplifier cette instabilité jusqu'à créer un énorme désordre.
La Découverte : Les auteurs ont prouvé mathématiquement que si vous lissez les bords individuels (les coups de pinceau), vous imposez automatiquement un « plafond » à la mesure dans laquelle l'ensemble de l'image peut devenir désordonné. En contrôlant les petites parties, vous contrôlez l'ensemble.
Le Bonus : Ils ont également trouvé un moyen d'améliorer cela en pondérant la pénalité. Certains coups de pinceau sont plus importants pour l'image finale que d'autres. En accordant une attention particulière aux coups de pinceau « importants », le robot apprend encore plus vite et plus précisément.

La Grande Victoire : Stabilité et Simplicité

Avant cela, si un robot devenait trop complexe (surparamétré), il devenait instable et plantait. Pour résoudre ce problème, les scientifiques devaient utiliser un processus d'entraînement compliqué et multi-étapes : commencer par une grille simple, entraîner, puis passer à une grille complexe et recommencer. C'était comme construire une maison, puis la démolir pour en construire une plus grande.

Avec cette nouvelle « pénalité de lissage », le robot peut gérer des grilles complexes et haute résolution dès le début. Il reste stable sans avoir besoin du processus multi-étapes compliqué.

Résumé

Le Problème : Les modèles d'IA (KAN) censés être interprétables dessinent souvent des lignes découpées et désordonnées, difficiles à comprendre.
L'Ancienne Méthode : Tenter d'arrêter cela en limitant la « taille » des lignes, ce qui n'a pas fonctionné.
La Nouvelle Méthode : Introduire une pénalité qui facture le « pliage » ou le « tremblement ». Cela force l'IA à dessiner des lignes lisses et nettes.
Le Résultat : L'IA reste tout aussi précise, mais les résultats sont lisses, stables et beaucoup plus faciles à interpréter pour les humains. Cela transforme une « boîte noire » en un croquis clair et lisible.

Résumé technique : Les KAN ont besoin de courbure : pénalités pour la régularité compositionnelle

Énoncé du problème
Les réseaux de Kolmogorov–Arnold (KAN) offrent une alternative convaincante aux réseaux de neurones traditionnels en remplaçant les non-linéarités fixes par des fonctions d'activation univariées apprenables sur les arêtes, promettant à la fois une haute précision et de l'interprétabilité. Cependant, un défaut critique limite leur utilité pratique en apprentissage automatique scientifique : les KAN bien ajustés développent fréquemment des « oscillations pathologiquement à haute courbure » dans leurs fonctions d'activation. Bien que ces modèles ajustent les données avec précision, les oscillations résultantes de type « pli » rendent les fonctions apprises illisibles et difficiles à interpréter. Les auteurs soutiennent que les pénalités de régularisation standard utilisées dans les KAN (spécifiquement les pénalités de magnitude et d'entropie proposées par Liu et al.) sont structurellement incapables de prévenir ce phénomène. Ces pénalités standard ne dépendent que de la magnitude moyenne des activations, ne portant aucune information dérivée ; ainsi, une fonction oscillant sauvagement encourt la même pénalité qu'une fonction lisse si leurs magnitudes moyennes sont identiques.

Méthodologie
Pour remédier au manque de régularité, les auteurs proposent une pénalité de courbure agnostique à la base dérivée de la théorie des splines pénalisées (P-splines).

Dérivation de la pénalité par arête :
Les auteurs définissent la courbure d'une fonction d'activation univariée $\phi_e$ comme son énergie de flexion $L_2$ , $\int (\phi_e''(z))^2 dz$ . En substituant la forme d'activation du KAN (une combinaison linéaire d'une fonction de base, typiquement SiLU, et de B-splines), ils dérivent une pénalité sous forme close opérant directement sur les coefficients du modèle :
$R(f) = \sum_{e} \left( \|D_2(\beta_e c_e)\|^2 + K_{\text{silu}} \alpha_e^2 \right)$
Ici, $D_2$ est la matrice de différence seconde agissant sur les coefficients de spline $c_e$ , $\beta_e$ met à l'échelle la spline, et $\alpha_e$ met à l'échelle la fonction de base. Le terme $K_{\text{silu}}$ est une constante dérivée de la dérivée seconde de la fonction SiLU. Cette pénalité est appliquée par arête et est indépendante de la distribution des données d'entraînement.
Analyse théorique de la courbure compositionnelle :
Reconnaissant que la régularité par arête ne garantit pas automatiquement la régularité de la fonction composée complète, les auteurs réalisent une analyse compositionnelle. Ils dérivent le Hessien de la fonction du réseau complet en utilisant la règle de la chaîne, en tirant parti de la structure spécifique des KAN où les Hessiens de couche sont diagonaux (en raison des arêtes univariées).
Ils démontrent le Théorème 1, qui établit que la pénalité par arête proposée $R(f)$ sert de borne supérieure rigoureuse à la véritable courbure au niveau de la composition $\mathcal{R}(f)$ (définie comme la norme de Frobenius au carré attendue du Hessien d'entrée). Cette preuve repose sur trois hypothèses structurelles concernant les poids des chemins, la densité d'activation et l'espacement des nœuds, montrant que la minimisation de la pénalité par arête minimise efficacement une borne sur la courbure globale.
Extension pondérée :
Les auteurs proposent en outre une pénalité pondérée « plus riche » qui incorpore les poids de chemin attendus ( $\bar{w}_e$ ) dérivés de la décomposition par la règle de la chaîne. Cette variante met à l'échelle la pénalité pour chaque arête par son impact attendu sur le Hessien global, bien qu'elle réintroduise une dépendance à la distribution des données d'entraînement.

Contributions clés

Limitation structurelle des pénalités existantes : L'article démontre que la pénalité KAN standard ne peut pas imposer de régularité car elle manque d'informations dérivées, rendant impossible la distinction entre des fonctions lisses et oscillatoires de magnitude égale.
Pénalité de courbure agnostique à la base : Les auteurs dérivent une pénalité de courbure sous forme close, basée sur les coefficients, qui peut être appliquée à n'importe quelle base fixe avec des dérivées secondes de carré intégrable (par exemple, les B-splines).
Borne supérieure théorique : Par une analyse compositionnelle, l'article prouve que la pénalité par arête borne supérieurement la courbure du réseau complet, fournissant une justification théorique pour l'utilisation de pénalités locales afin de contrôler la régularité globale.
Validation empirique : L'étude montre que les KAN pénalisés par courbure produisent des activations nettement plus lisses tout en maintenant une précision comparable à celle des modèles non pénalisés ou pénalisés de manière standard, et ce, à travers l'approximation de fonctions, le benchmark de régression symbolique de Feynman et des régimes surparamétrés.

Résultats

Approximation de fonctions : Dans des expériences d'approximation de fonctions telles que $f(x, y) = \sin(x + y^2)$ et $f(x, y) = \exp(\sin(\pi x) + y^2)$ , les modèles pénalisés par courbure ont produit des fonctions d'activation qui s'alignaient visuellement avec les composantes réelles (par exemple, des courbes sinusoïdales et polynomiales lisses), tandis que les modèles non pénalisés présentaient des oscillations haute fréquence.
Benchmark de Feynman : Sur 14 équations du benchmark de régression symbolique de Feynman, les KAN pénalisés par courbure ont atteint la courbure d'arête totale la plus faible dans les 14 cas. En termes de précision (RMSE de test), ils ont égalé ou surpassé la pénalité KAN standard dans 9 équations sur 14, et se sont situés dans un facteur deux de la meilleure précision dans tous les cas.
Stabilité dans les régimes surparamétrés : La pénalité de courbure a considérablement stabilisé l'entraînement des KAN surparamétrés (taille de grille $G$ élevée). Contrairement à la pénalité KAN standard, qui plafonnait tôt, les modèles pénalisés par courbure ont continué à s'améliorer sur 3000 époques. De plus, la pénalité a permis un entraînement stable avec des grilles haute résolution ( $G=200$ ) sans besoin d'« extension de grille » (un processus d'entraînement multi-étapes commençant avec un $G$ faible), atteignant des RMSE de test d'environ $10^{-3}$ là où les modèles non pénalisés échouaient de manière catastrophique.
Indépendance de l'optimiseur : Les avantages de la pénalité de courbure ont été observés avec les optimiseurs Adam et L-BFGS.
Pénalité pondérée : Une comparaison sur 10 graines a montré que la pénalité de courbure pondérée (incorporant les poids de chemin) a réduit le RMSE de test moyen d'un facteur 2,2 par rapport à la pénalité par arête uniforme.

Signification et revendications
L'article revendique que la pénalité de courbure fournit un « levier de régularité unique et principiel » pour les KAN. Sa signification réside dans trois domaines :

Interprétabilité : En imposant des activations lisses, la pénalité rend les représentations internes des KAN lisibles et alignées avec l'intuition scientifique selon laquelle les lois physiques sont généralement lisses, renforçant ainsi les KAN en tant qu'outil pour l'apprentissage automatique scientifique.
Stabilité de l'entraînement : Elle résout l'instabilité de l'entraînement des KAN haute résolution, permettant une optimisation en une seule étape, de bout en bout, sans besoin de protocoles complexes d'extension de grille multi-étapes. Ceci est crucial pour l'intégration des KAN dans des systèmes plus larges tels que la recherche d'architecture neuronale ou l'apprentissage méta.
Avantage architectural : L'analyse met en évidence que la structure diagonale des Hessiens de KAN (résultat des arêtes univariées) est un avantage structurel unique permettant une attribution interprétable par arête de la courbure compositionnelle, une propriété absente des MLP standards.

Les auteurs concluent que la régularité n'est pas simplement une fonctionnalité ajoutée, mais une propriété contrôlable inhérente à l'architecture KAN, et que la gestion de cette propriété via des pénalités de courbure est essentielle pour réaliser le plein potentiel des KAN dans la découverte scientifique interprétable.