An Approximation Theory Perspective on Machine Learning

Cet article examine le décalage entre la théorie de l'approximation et la pratique du machine learning, critique les lacunes actuelles en matière de généralisation, et présente une nouvelle recherche permettant l'approximation de fonctions sur des variétés inconnues sans nécessiter l'apprentissage de caractéristiques spécifiques de la variété.

Hrushikesh N. Mhaskar, Efstratios Tsoukanis, Ameya D. Jagtap

Publié 2026-03-05
📖 6 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🧠 L'Apprentissage Machine vu par les Mathématiciens : Un Guide de Voyage

Imaginez que vous essayez d'apprendre à un robot à reconnaître des chats, des chiens et des voitures. C'est le cœur du Machine Learning (apprentissage automatique). Le problème, c'est que le robot ne voit qu'un petit échantillon de photos (les données d'entraînement) et doit deviner ce qu'il y a sur une photo qu'il n'a jamais vue.

Ce papier, écrit par des experts en théorie de l'approximation, pose une question simple mais profonde : « Pourquoi les mathématiques qui expliquent comment on approxime des fonctions (comme dessiner une courbe qui passe près de points) ne sont-elles pas au centre de la machine learning moderne ? »

Voici les grandes idées du papier, expliquées avec des images du quotidien.


1. Le Problème : Le "Trou" entre la Théorie et la Pratique

Imaginez que vous voulez construire un pont.

  • La pratique (Machine Learning actuel) : Les ingénieurs jettent des tonnes de béton (données) et utilisent des robots puissants (algorithmes) pour que le pont tienne. Ça marche souvent très bien !
  • La théorie (Approximation) : Les mathématiciens savent exactement comment calculer la résistance du pont, où placer les piliers et pourquoi il ne s'effondrera pas.

Le problème : Les ingénieurs du Machine Learning construisent des ponts impressionnants sans toujours consulter les plans des mathématiciens. Résultat ? On ne sait pas toujours pourquoi ça marche, ni si le pont résistera à une tempête (des données nouvelles). Ce papier veut réconcilier les deux : utiliser les plans mathématiques pour construire des modèles plus robustes.

2. La Malédiction de la Dimension (Le Labyrinthe Infini)

En mathématiques, il y a un concept appelé la "malédiction de la dimensionnalité".

  • L'analogie : Imaginez que vous cherchez une aiguille dans une botte de foin. C'est difficile. Maintenant, imaginez que la botte de foin est dans une pièce. C'est encore plus difficile. Maintenant, imaginez que la pièce est dans un immeuble, qui est dans une ville, qui est dans un pays...
  • Plus vous avez de données (de dimensions), plus il est impossible de tout couvrir avec des points. Pour apprendre, il faudrait une quantité de données astronomique, presque infinie.
  • La solution du papier : Heureusement, les données réelles (comme les photos de chats) ne remplissent pas tout l'espace. Elles sont regroupées sur des formes plus simples, comme des manifolds (des surfaces courbes invisibles dans un espace géant). C'est comme si l'aiguille était cachée non pas dans tout l'univers, mais juste sur une feuille de papier froissée au milieu de la pièce. Si on trouve cette feuille, le problème devient facile.

3. Les Réseaux de Neurones : Les Super-Héros ou les Magiciens ?

On utilise souvent des réseaux de neurones (profonds ou "deep").

  • Réseaux "Shallow" (Superficiels) : Comme un dessinateur qui essaie de tracer une forme complexe avec une seule ligne droite. Ça ne marche pas bien pour les formes compliquées.
  • Réseaux "Deep" (Profonds) : Imaginez une équipe de dessinateurs où chacun fait une petite partie du dessin (un nez, un œil, une oreille) et les assemble. C'est beaucoup plus efficace.
  • Le constat du papier : Les réseaux profonds sont excellents parce qu'ils exploitent la structure "composée" des données (un chat est fait de pattes, d'oreilles, etc.). Mais le papier dit : "Arrêtons de deviner comment les configurer !". Au lieu de laisser l'ordinateur apprendre par essais et erreurs (optimisation), on devrait construire les réseaux directement à partir des mathématiques pour garantir qu'ils fonctionnent.

4. Une Nouvelle Façon de Classifier : Séparer les Bruits

Classer des données (ex: "C'est un chat" ou "C'est un chien") est souvent vu comme une question de "qui est le plus proche de qui".

  • L'approche classique : C'est comme essayer de trier des balles de différentes couleurs dans un mélange en les lançant au hasard.
  • L'approche du papier (Séparation de signaux) : Imaginez que vous avez un enregistrement audio où plusieurs gens parlent en même temps. Le but n'est pas de deviner qui parle, mais de séparer les voix.
    • Le papier propose de voir la classification comme un problème de séparation de sources. Au lieu de demander "Quel est le label ?", on demande "Où commence la zone des chats et où finit celle des chiens ?".
    • Cela permet de trouver les réponses avec très peu d'exemples (peu de données étiquetées), car on cherche juste les "zones" où les choses se séparent.

5. L'Intelligence Artificielle et la Physique (PINNs)

Le papier parle aussi des réseaux qui doivent respecter les lois de la physique (comme la météo ou la fluidité de l'eau).

  • L'analogie : C'est comme apprendre à un enfant à conduire.
    • Méthode classique : L'enfant conduit, il a un accident, on le corrige, il conduit encore, il a un autre accident... (Apprentissage par essai-erreur).
    • Méthode PINN (Physics-Informed) : On donne à l'enfant le manuel de la physique (les lois de la gravité, de l'inertie) avant même qu'il ne touche au volant. Il ne peut pas faire d'accident "physiquement impossible".
    • Le papier analyse pourquoi ça marche et comment garantir que ces modèles ne font pas d'erreurs.

6. Le Futur : Transformer et l'Attention

Les "Transformers" (la technologie derrière ChatGPT) fonctionnent avec un mécanisme d'attention.

  • L'analogie : Quand vous lisez une phrase, votre cerveau ne regarde pas tous les mots en même temps avec la même intensité. Il se concentre ("fait attention") aux mots importants pour comprendre le sens.
  • Le papier suggère que ce mécanisme d'attention n'est rien d'autre qu'une forme très sophistiquée de noyau mathématique (une fonction qui mesure la proximité). En comprenant cela, on pourrait construire des IA plus simples et plus efficaces, sans avoir besoin de milliards de paramètres.

🎯 En Résumé : Le Message Principal

Ce papier est un appel à la raison. Il dit :

"Arrêtons de traiter l'IA comme une boîte noire magique où l'on jette des données et on espère un miracle. Utilisons les outils mathématiques puissants que nous avons déjà (théorie de l'approximation) pour construire des modèles intelligents, robustes et compréhensibles."

Au lieu de simplement dire "ça marche", les auteurs veulent nous dire "voici pourquoi ça marche, et voici comment on peut le faire mieux". C'est un pont entre la rigueur des mathématiques pures et la puissance de l'intelligence artificielle moderne.