Quantitative convergence of trained single layer neural networks to Gaussian processes

Each language version is independently generated for its own context, not a direct translation.

🌊 Le Grand Équilibre : Quand les Réseaux de Neurones deviennent des Nuages de Probabilités

Imaginez que vous êtes un chef cuisinier (un réseau de neurones) qui apprend à faire un gâteau parfait. Au début, vous avez un tas d'ingrédients (les données) et une recette floue. Vous goûtez, ajustez, remuez, et recommencez. C'est le processus d'apprentissage par descente de gradient : vous modifiez vos ingrédients petit à petit pour réduire l'erreur.

Maintenant, imaginez que votre cuisine devient gigantesque. Vous avez non pas 100 ingrédients, mais des millions, voire des milliards. Quand vous avez autant d'ingrédients, quelque chose de magique se produit : votre gâteau ne suit plus une recette complexe et chaotique. Il commence à suivre une loi statistique parfaite, comme une nuée d'oiseaux qui vole en formation ou une goutte de pluie qui tombe de manière prévisible.

En mathématiques, ce "nuage parfait", c'est ce qu'on appelle un Processus Gaussien (ou Processus de Gauss).

🎯 Le Problème : La Théorie vs La Réalité

Depuis quelques années, les mathématiciens savent que si vous prenez un réseau de neurones infiniment grand et que vous le faites apprendre, il se comporte exactement comme ce Processus Gaussien. C'est une théorie magnifique, mais elle a un gros défaut : dans la vraie vie, nos réseaux ne sont pas infinis. Ils sont grands, certes, mais finis (par exemple, 1000 ou 10 000 neurones).

La question que se posent les auteurs de ce papier (Eloy Mosig García, Andrea Agazzi et Dario Trevisan) est la suivante :

"Si mon réseau est grand mais pas infini, à quel point est-il proche de ce 'nuage parfait' ? Et cette proximité change-t-elle pendant qu'il apprend ?"

Jusqu'à présent, on savait que c'était "proche" (qualitativement), mais on ne savait pas combien c'était proche (quantitativement). C'est comme dire "il fait chaud" sans donner la température exacte. Ce papier apporte le thermomètre.

🔍 La Découverte : Une Règle de Précision

Les auteurs ont prouvé mathématiquement que l'écart entre votre réseau réel (fini) et le nuage parfait (infini) diminue très vite à mesure que vous ajoutez des neurones.

Ils ont utilisé une mesure spéciale appelée Distance de Wasserstein (imaginons-la comme une mesure de "désordre" ou de différence entre deux formes).

Leur résultat principal est une formule simple qui dit :

Plus votre réseau est large (plus il a de neurones), plus il ressemble au nuage parfait.

Concrètement, si vous doublez la taille de votre réseau, l'erreur ne diminue pas juste un peu, elle diminue selon une loi mathématique précise (proportionnelle à $\frac{\log n}{n}$ ). C'est une garantie de précision : on peut maintenant dire exactement à quel moment un réseau de taille $X$ est suffisamment "proche" de la théorie pour qu'on puisse l'utiliser en toute sécurité.

⏳ L'Analogie de l'Entraînement : Le Marathon

Ce papier est spécial car il ne regarde pas seulement le début de la course (l'initialisation), mais tout le trajet.

L'Initialisation : Au moment où vous lancez le réseau, il ressemble déjà beaucoup au nuage gaussien.
Pendant l'entraînement : Au fur et à mesure que le réseau apprend (que vous ajustez les ingrédients), il continue de ressembler au nuage.
Le Temps : Les auteurs montrent que même si vous entraînez le réseau pendant très longtemps (tant que le temps ne dépasse pas une certaine limite liée à la taille du réseau), la "magie" de la ressemblance avec le nuage gaussien persiste.

C'est comme si vous couriez un marathon : tant que vous courez à une vitesse raisonnable par rapport à votre endurance (la taille du réseau), vous restez dans la trajectoire prévue. Si vous couriez trop vite ou trop longtemps, vous pourriez sortir de la trajectoire (c'est ce qu'ils appellent le passage au "régime d'apprentissage de caractéristiques", où le réseau devient trop complexe et la théorie gaussienne ne suffit plus).

💡 Pourquoi est-ce important pour nous ?

Pourquoi un mathématicien s'embêterait-il à calculer ces distances ?

Confiance et Sécurité : Si vous utilisez un réseau de neurones pour diagnostiquer une maladie ou conduire une voiture autonome, vous voulez savoir si vous pouvez faire confiance à ses prédictions. Ce papier dit : "Si votre réseau a 1000 neurones, sachez que son erreur par rapport à la théorie est de telle valeur. Vous pouvez donc calculer vos marges de sécurité."
Économie de Calcul : Parfois, simuler un Processus Gaussien est beaucoup plus facile et rapide que d'entraîner un réseau de neurones complexe. Si on sait que le réseau est "assez proche", on peut utiliser le modèle gaussien pour faire des prédictions rapides sans avoir besoin de l'énorme réseau.
Comprendre la "Boîte Noire" : Cela nous aide à comprendre pourquoi les réseaux de neurones fonctionnent si bien. Ils ne sont pas de la magie noire ; ils suivent des lois statistiques précises dès qu'ils deviennent assez grands.

🏁 En Résumé

Ce papier est un guide de précision. Il prend une théorie élégante (les réseaux infinis sont des nuages gaussiens) et nous donne les règles exactes pour savoir quand et comment cette théorie s'applique aux réseaux réels que nous utilisons tous les jours.

C'est comme passer d'une carte approximative ("la ville est là-bas") à un GPS de haute précision ("la ville est à 3,4 km, avec une marge d'erreur de 2 mètres"). Cela permet aux ingénieurs et aux scientifiques de construire des intelligences artificielles plus fiables et mieux comprises.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

L'article s'inscrit dans le cadre de l'analyse théorique des réseaux de neurones profonds, en particulier dans le régime de sur-paramétrisation (où le nombre de paramètres dépasse largement celui des échantillons d'entraînement).

Contexte théorique : Il est bien établi que, lorsque la largeur d'un réseau de neurones tend vers l'infini, son comportement à l'initialisation converge vers un Processus Gaussien (GP). De plus, le cadre du Neural Tangent Kernel (NTK) montre que, sous la descente de gradient, les réseaux larges évoluent de manière linéaire autour de leur initialisation, se comportant comme une régression par noyau avec un noyau fixe.
Le problème : La littérature existante a principalement établi des résultats de convergence qualitative (convergence en loi) pour les réseaux larges. Cependant, il manque des bornes d'erreur quantitatives précises pour des largeurs finies, en particulier pendant l'entraînement (à un temps $t > 0$ ). Les praticiens ont besoin de savoir à quel point un réseau de largeur finie s'écarte de son approximation par un processus gaussien pour évaluer la fiabilité des prédictions et l'incertitude.
Objectif de l'article : Fournir des bornes explicites sur la distance de Wasserstein quadratique ( $W_2$ ) entre la sortie d'un réseau de neurones à une couche entraîné par descente de gradient et son processus gaussien associé, pour tout temps d'entraînement $t \ge 0$ .

2. Méthodologie et Cadre Mathématique

Les auteurs considèrent un réseau de neurones entièrement connecté à une seule couche cachée (largeur $n_1$ , dimension d'entrée $n_0$ ) avec des poids initialisés selon une loi gaussienne standard.

A. Dynamique d'entraînement

L'entraînement est modélisé par un flot de gradient continu en temps réel pour minimiser l'erreur quadratique moyenne (MSE). Les équations de mouvement pour les paramètres $\theta_t$ et la sortie du réseau $f(x; \theta_t)$ sont dérivées.

B. Linéarisation et NTK

Les auteurs introduisent le réseau linéarisé $f^{lin}$ , qui approxime le réseau réel en gardant le noyau tangentiel (NTK) fixe à sa valeur à l'initialisation ( $k_0$ ).

La dynamique du réseau linéarisé peut être résolue analytiquement en utilisant un opérateur auxiliaire $I_t(B)$ , défini comme l'intégrale de l'exponentielle matricielle.
Le processus gaussien limite $G_t$ est défini par une moyenne et une covariance qui dépendent du noyau limite $k_\infty$ et de l'opérateur $I_t(k_\infty)$ .

C. Métrique de Convergence

La convergence est mesurée via la distance de Wasserstein d'ordre 2 ( $W_2$ ), qui capture à la fois la structure géométrique et l'échelle de l'espace de sortie, contrairement à des métriques plus faibles comme la distance de Kolmogorov.

D. Stratégie de Preuve (Décomposition de l'erreur)

La preuve du théorème principal repose sur l'inégalité triangulaire pour décomposer l'erreur totale en deux termes :
$W_2(f(x; \theta_t), G_t(x)) \le W_2(f(x; \theta_t), f^{lin}(x; \theta_t)) + W_2(f^{lin}(x; \theta_t), G_t(x))$

Erreur de linéarisation : $W_2(f, f^{lin})$ $W_{2} (f, f^{l in})$ .
- Les auteurs partitionnent l'espace des paramètres en un événement « bon » ( $S$ ) où les hypothèses de concentration sont satisfaites (valeurs propres du NTK bien comportées, normes des paramètres contrôlées) et un événement « mauvais » ( $S^c$ ).
- Sur $S$ , ils utilisent des estimations de type « quenched » (conditionnées) pour borner l'écart entre le réseau non linéaire et sa linéarisation.
- Sur $S^c$ , bien que l'erreur puisse être grande, la probabilité de cet événement décroît exponentiellement vite avec la largeur $n_1$ , ce qui permet de contrôler l'intégrale globale.
Erreur d'approximation gaussienne : $W_2(f^{lin}, G_t)$ $W_{2} (f^{l in}, G_{t})$ .
- Pour le réseau linéarisé, la dynamique est déterministe une fois les noyaux fixés. Les auteurs utilisent des inégalités différentielles et des résultats de convergence initiale (Basteri & Trevisan, 2024) pour montrer que le réseau linéarisé converge vers le processus gaussien $G_t$ avec un taux de $O(1/n_1)$ .

3. Contributions Clés

Théorème de Convergence Quantitative (Théorème 3.4) :
Les auteurs établissent que pour tout point de test $x$ et tout temps $t \ge 0$ , la distance au carré de Wasserstein satisfait :
$W_2^2(f(x; \theta_t), G_t(x)) = O\left( \frac{\log n_1}{n_1} \right)$
Cette borne est explicite et dépend des paramètres architecturaux ( $n_1, n_0$ ), de la régularité de la fonction d'activation, et du temps d'entraînement $t$ .
Analyse de la dépendance temporelle :
Le résultat montre que la convergence reste valable même lorsque le temps d'entraînement $t$ croît polynomialement avec la largeur $n_1$ . La borne contient un terme en $t^8$ (dans le cas général) qui devient négligeable si $t$ ne croît pas trop vite par rapport à $n_1$ .
Extension aux réseaux entraînés :
Contrairement aux travaux antérieurs limités à l'initialisation ( $t=0$ ), cette étude couvre la trajectoire complète d'entraînement, reliant la dynamique du gradient à la convergence vers le processus gaussien.
Validation Numérique :
Des expériences numériques confirment que la distance $W_2$ décroît effectivement selon une loi de puissance en fonction de la largeur du réseau, et que le processus gaussien approxime bien les réseaux entraînés même pour des largeurs modérées (ex: $n_1 = 700$ ).

4. Résultats Principaux et Hypothèses

Hypothèses :

Initialisation gaussienne i.i.d.
Fonction d'activation $\Phi$ et sa dérivée $\Phi'$ sont Lipschitziennes et bornées (ex: sigmoïde, tanh). Note : Les auteurs conjecturent que le résultat s'étend au ReLU, bien que non prouvé rigoureusement ici.
Le noyau limite $k_\infty$ est défini positif (hypothèse standard en régime NTK).
Une condition technique (Assomption 4) relie la largeur du réseau à la plus petite valeur propre du noyau limite pour contrôler les fluctuations.

Résultats :

Le taux de convergence est de l'ordre de $\sqrt{\frac{\log n_1}{n_1}}$ pour la distance $W_2$ (donc $\frac{\log n_1}{n_1}$ pour le carré de la distance).
L'erreur dépend de la dimension d'entrée $n_0$ et de la plus petite valeur propre $\lambda_{\min}^\infty$ du noyau limite.
La dépendance en temps $t$ est polynomiale, suggérant une transition potentielle vers un régime d'apprentissage de caractéristiques (feature learning) si $t$ devient trop grand, où l'approximation NTK pourrait échouer.

5. Signification et Impact

Pont entre Théorie et Pratique : Ce travail fournit des garanties rigoureuses pour l'utilisation des modèles NTK dans des scénarios réalistes où les réseaux sont larges mais finis. Cela permet de quantifier l'incertitude des prédictions de manière fiable.
Compréhension de la Dynamique d'Entraînement : En quantifiant l'écart entre le réseau non linéaire et sa linéarisation, l'article aide à déterminer quand l'approximation linéaire (NTK) est valide et quand les effets non linéaires (apprentissage de caractéristiques) deviennent dominants.
Fondation pour l'Analyse Ulérieure : Les techniques développées, notamment la gestion des événements « mauvais » via des inégalités de concentration et la décomposition de l'erreur, ouvrent la voie à l'analyse de réseaux plus profonds ou d'autres architectures (CNN, Transformers), bien que l'article se concentre actuellement sur le cas à une couche.

En résumé, cet article comble un vide important dans la théorie des réseaux de neurones en passant d'une convergence asymptotique qualitative à des bornes d'erreur quantitatives explicites pour des réseaux entraînés, validant ainsi l'utilisation des processus gaussiens comme modèles de référence pour les grands réseaux de neurones.