Approximation Error and Complexity Bounds for ReLU Networks on Low-Regular Function Spaces

Cet article démontre que les réseaux de neurones à fonction d'activation ReLU peuvent approximer une large classe de fonctions bornées avec une erreur inversement proportionnelle au produit de la largeur et de la profondeur du réseau, en s'appuyant sur une preuve constructive qui transfère les bornes de complexité des réseaux résiduels à caractéristiques de Fourier.

Owen Davis, Gianluca Geraci, Mohammad Motamed

Publié 2026-02-27
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de reproduire un tableau de maître complexe (une fonction mathématique) en utilisant uniquement des briques de construction simples et angulaires (les réseaux de neurones ReLU). C'est le défi principal abordé par cette recherche.

Voici une explication simple, imagée et en français de ce que disent les auteurs :

1. Le Défi : Dessiner des courbes avec des règles droites

Dans le monde des mathématiques, certaines fonctions sont très "lisses" et faciles à dessiner. D'autres sont très "rugueuses", chaotiques et difficiles à prédire. Les chercheurs s'intéressent ici aux fonctions les plus rugueuses possibles, celles qui ont très peu de régularité (peu de douceur).

Le problème, c'est que les réseaux de neurones modernes utilisent souvent une activation appelée ReLU. Imaginez le ReLU comme un pliage de papier : vous ne pouvez faire que des plis droits, des angles à 90 degrés. Vous ne pouvez pas faire de courbes douces directement. Comment faire une courbe complexe avec des plis droits ?

2. La Solution : La recette de la "Tour de Lego"

Les auteurs montrent que même avec ces plis droits, on peut s'approcher très près de n'importe quelle fonction, même la plus chaotique.

Ils découvrent une règle d'or pour la précision :

Plus votre tour de Lego est large (nombre de colonnes) ET plus elle est haute (nombre d'étages), plus votre dessin sera précis.

Concrètement, l'erreur de votre dessin (la différence entre le vrai tableau et votre copie en Lego) diminue si vous multipliez la largeur du réseau par sa profondeur (le nombre de couches). C'est comme dire : "Si j'ai plus de briques et plus d'étages, je peux créer des formes plus complexes."

3. Le Secret : Le "Tricheur" Mathématique

Comment ont-ils prouvé cela ? C'est là que ça devient fascinant.

Ils n'ont pas essayé de deviner directement comment plier le papier pour faire une courbe. Au lieu de cela, ils ont regardé un autre type de réseau de neurones, appelé "Réseau à résidus de Fourier".

  • L'analogie : Imaginez que ce réseau "Fourier" est un artiste qui peut dessiner des courbes parfaites et fluides, comme s'il utilisait un pinceau magique avec des ondes sinusoïdales (des vagues). C'est un outil théorique très puissant, mais qui n'existe pas vraiment dans les ordinateurs réels (car il utilise des nombres complexes et des fonctions exponentielles).

Les chercheurs ont dit : "Attendez, si cet artiste aux courbes parfaites peut dessiner la fonction, alors nous pouvons simplement imiter ce dessin avec nos briques de Lego (ReLU)."

4. La Preuve : Le Traducteur

Le cœur de leur travail est une traduction.

  1. Ils prennent le "dessin parfait" fait par l'artiste Fourier.
  2. Ils le décomposent pièce par pièce.
  3. Ils montrent comment remplacer chaque courbe fluide de l'artiste par une série de petits plis droits (ReLU) qui, mis bout à bout, ressemblent énormément à la courbe originale.

C'est comme si vous deviez copier une photo de haute qualité en utilisant uniquement des pixels carrés. Plus vous avez de pixels (largeur) et plus vous pouvez jouer avec les nuances de gris (profondeur), plus la photo ressemblera à l'originale.

En résumé

Cette paper dit essentiellement :
"Même si vos fonctions sont très brutales et que vos outils de dessin (ReLU) sont très basiques (des lignes droites), vous pouvez tout de même obtenir un résultat presque parfait. Il vous suffit juste d'avoir un réseau assez grand (large) et assez profond (beaucoup de couches). Nous avons prouvé cela en montrant comment transformer un dessin théorique parfait en une construction de Lego."

C'est une excellente nouvelle pour l'intelligence artificielle : cela signifie que même avec des fonctions très complexes et des réseaux standards, on peut espérer de très bons résultats si on donne assez de "matériaux" (taille du réseau) au modèle.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →