Auteurs originaux : Oskar Allerbo, Thomas B. Schön

Publié 2026-05-21✓ Author reviewed ⓘ

📖 6 min de lecture🧠 Analyse approfondie

Auteurs originaux : Oskar Allerbo, Thomas B. Schön

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Le Grand Problème : À quel point votre modèle est-il « compliqué » ?

Imaginez que vous êtes un chef essayant de juger la complexité d'une recette.

L'Ancienne Façon : Vous pourriez simplement compter le nombre d'ingrédients (paramètres). Mais une recette avec 50 épices pourrait en réalité être un plat simple si toutes les épices ont le même goût. À l'inverse, une recette avec seulement 3 ingrédients pourrait être incroyablement complexe si le chef doit les jongler d'une manière très spécifique et délicate.
Le Désordre Actuel : En apprentissage automatique, les scientifiques ont essayé de mesurer la « complexité » en utilisant des choses comme le nombre de paramètres, la « dimension de Vapnik-Chervonenkis » (un concept mathématique très difficile), ou les « degrés de liberté effectifs ». Le problème est que ces méthodes sont soit trop grossières (comme compter simplement les ingrédients), soit si difficiles à calculer qu'elles sont inutiles en pratique.

Les auteurs de ce papier, Oskar Allerbo et Thomas B. Schön, veulent résoudre ce problème. Ils proposent une nouvelle façon, facile à calculer et mathématiquement solide, de mesurer la complexité, appelée Complexité d'Alignement des Gradients (GAC).

La Nouvelle Idée : L'Analogie de la « Piste de Danse »

Pour comprendre la GAC, imaginez que le modèle est un danseur, et que les « gradients » sont les directions vers lesquelles le danseur regarde lorsqu'il bouge.

Le Déroulement : Le modèle examine différentes entrées (différentes chansons sur la piste de danse). Pour chaque chanson, le modèle a une « direction » spécifique vers laquelle il veut bouger pour apprendre les données.
Modèle Simple (Faible Complexité) : Si le modèle est très simple, il réagit à chaque chanson exactement de la même manière. Il regarde dans la même direction quelle que soit la musique qui passe. Tous ses « mouvements de danse » sont parfaitement alignés. Il a très peu de liberté.
- Analogie : Un robot qui ne connaît qu'un seul mouvement de danse. Peu importe la chanson, il fait la même chose. C'est simple, mais pas très flexible.
Modèle Complexe (Forte Complexité) : Si le modèle est très complexe, il réagit différemment à chaque chanson. Pour une chanson, il regarde vers le Nord ; pour une autre, vers le Sud ; pour une troisième, il tourne frénétiquement sur lui-même. Ses « mouvements de danse » sont éparpillés partout et pointent dans des directions totalement différentes.
- Analogie : Un improvisateur de jazz qui change complètement de style pour chaque note. Il a une liberté totale pour se déplacer n'importe où.

La Mesure GAC : Les auteurs mesurent simplement dans quelle mesure ces « mouvements de danse » (gradients) s'alignent les uns avec les autres.

S'ils pointent tous dans la même direction (alignement élevé) $\rightarrow$ Faible Complexité.
S'ils pointent dans des directions aléatoires et indépendantes (alignement faible) $\rightarrow$ Forte Complexité.

Pourquoi C'est une Grande Nouvelle

Le papier affirme que cette nouvelle mesure est spéciale pour trois raisons principales :

Elle Fonctionne pour Tout le Monde : Que vous utilisiez une simple équation polynomiale, un arbre de décision, une forêt aléatoire ou un réseau de neurones, cette mesure fonctionne. Peu importe la « saveur » du modèle que vous utilisez.
Elle Mesure la « Machine », Pas Juste la « Sortie » : Parfois, une machine complexe (comme un super-ordinateur) est utilisée pour effectuer une tâche très simple (comme additionner 2+2). Les anciennes mesures pourraient dire que la machine est simple parce que le résultat est simple. La GAC regarde la machine elle-même. Elle dit : « Hé, même si tu fais une tâche simple en ce moment, tu as le potentiel de faire des choses très complexes parce que tes pièces internes sont si flexibles. »
Elle Généralise les Anciennes Règles : Les auteurs prouvent que leur nouvelle mesure se transforme naturellement en anciennes règles familières lorsque vous les appliquez à des modèles spécifiques :
- Pour les Polynômes, elle agit comme le « degré » (jusqu'où va la puissance).
- Pour les Arbres de Décision, elle agit comme le « nombre de divisions » (combien de branches).
- Pour les Forêts Aléatoires, elle agit comme le « nombre d'arbres ».
- Pour les K-Plus Proches Voisins, elle agit comme le « nombre de voisins ».

Résoudre le Mystère de la « Double Descente »

Il existe un phénomène célèbre en intelligence artificielle appelé Double Descente. Habituellement, à mesure que vous rendez un modèle plus complexe, il s'améliore dans l'apprentissage, puis empire (surapprentissage), et ensuite — de manière surprenante — s'améliore à nouveau si vous le rendez encore plus complexe.

Les scientifiques débattent de pourquoi cela se produit. Certains disent que c'est parce que le modèle devient trop grand ; d'autres disent que c'est une illusion causée par la façon dont nous mesurons la complexité.

Les auteurs ont utilisé leur nouvelle mesure GAC pour re-tester ces expériences :

Pour les Modèles « Statiques » : (Modèles où la structure ne change pas pendant l'entraînement, comme les Forêts Aléatoires ou les Caractéristiques de Fourier Aléatoires). La GAC a confirmé que la Double Descente est réelle. À mesure que vous ajoutez plus d'arbres ou de caractéristiques, la complexité augmente, et la « deuxième descente » (s'améliorer à nouveau) se produit exactement lorsque la complexité atteint un certain point.
Pour les Modèles « Dynamiques » : (Modèles comme les Réseaux de Neurones où les caractéristiques changent au fur et à mesure qu'ils apprennent). Les auteurs ont constaté que la Double Descente disparaît souvent lorsqu'elle est mesurée avec la GAC. Pourquoi ? Parce qu'à mesure que ces modèles deviennent plus grands, ils deviennent en réalité moins complexes en termes de la façon dont ils alignent leurs gradients. Ils apprennent à s'adapter si bien qu'ils arrêtent d'utiliser leur plein « potentiel de complexité ».

L'Essentiel

Les auteurs ont construit une nouvelle « règle » pour mesurer les modèles d'apprentissage automatique.

Les Anciennes Règles : Étaient soit trop brutales (compter les pièces), soit trop difficiles à utiliser (nécessitant des mathématiques impossibles).
La Nouvelle Règle GAC : Regarde comment les « muscles » internes du modèle (gradients) bougent ensemble. S'ils bougent à l'unisson, le modèle est simple. S'ils bougent indépendamment, le modèle est complexe.

Cet outil aide les scientifiques à comprendre pourquoi les modèles se comportent comme ils le font, en particulier la courbe confuse de la « Double Descente », en fournissant une définition claire et cohérente de ce que signifie réellement la « complexité » à travers différents types d'IA.

Résumé technique : Une mesure rigoureuse et traitable de la complexité des modèles

Énoncé du problème

L'évaluation précise de la complexité des modèles est fondamentale pour des tâches d'apprentissage automatique telles que l'interprétation, la généralisation et la sélection de modèles. Cependant, les mesures existantes souffrent de limitations significatives :

Approches heuristiques : Des métriques simples comme le nombre de paramètres ou leurs magnitudes fournissent des estimations grossières qui ne parviennent pas à capturer la véritable capacité d'un modèle.
Hyperparamètres spécifiques au modèle : Des mesures comme le degré polynomial ou l'échelle de longueur du noyau ne se généralisent pas à travers différentes classes de modèles.
Intraitabilité computationnelle : Les mesures théoriques rigoureuses, telles que la dimension de Vapnik-Chervonenkis (VCD) et la complexité de Rademacher (RMC), sont souvent impossibles à calculer en pratique.
Complexité de la fonction vs complexité du modèle : Il existe une distinction critique, souvent négligée, entre la complexité d'une fonction apprise spécifique (par exemple, le Nombre Effectif de Paramètres, ENP) et la complexité de la classe de modèles elle-même. Un modèle complexe peut générer une fonction simple (par exemple, en réglant les paramètres à zéro), pourtant les métriques standards confondent souvent les deux.

De plus, l'absence d'une mesure de complexité universellement acceptée et calculable complique l'interprétation du phénomène de « double descente », où l'erreur de généralisation diminue à mesure que la complexité du modèle augmente au-delà du seuil d'interpolation.

Méthodologie

Les auteurs proposent la Complexité d'Alignement des Gradients (GAC), une mesure agnostique au modèle basée sur l'alignement des gradients du modèle à travers différentes entrées.

Définition

Pour un modèle paramétrique $\hat{f}(x, \hat{\theta})$ avec des paramètres $\hat{\theta} \in \mathbb{R}^p$ , soit $\phi(x, \hat{\theta}) = \nabla_{\hat{\theta}} \hat{f}(x, \hat{\theta})$ le gradient par rapport aux paramètres à l'entrée $x$ . La GAC, notée $K(\hat{f})$ , est définie comme suit :

$K(\hat{f}) := 1 - \mathbb{E}_{x,x'} \left[ \left( \frac{\phi(x, \hat{\theta})^\top \phi(x', \hat{\theta})}{\|\phi(x, \hat{\theta})\| \cdot \|\phi(x', \hat{\theta})\|} \right)^2 \right]$

Cette formulation utilise la différence de cosinus carré entre les gradients à deux entrées distinctes $x$ et $x'$ .

Interprétation : Le terme à l'intérieur de l'espérance représente le cosinus carré de l'angle entre les gradients. Si les gradients sont fortement alignés (parallèles), le modèle a moins de liberté pour s'adapter à des motifs de données divers, indiquant une complexité plus faible. Si les gradients sont orthogonaux (indépendants), le modèle est hautement flexible.
Généralisation : Pour des sorties multivariées (par exemple, classification), le produit scalaire est remplacé par le produit scalaire de Frobenius des jacobiennes.
Calcul empirique : Pour un ensemble de données $\{x_i\}_{i=1}^n$ , l'espérance est remplacée par une moyenne d'échantillon sur les paires $i \neq j$ .

Connexions théoriques

Les auteurs établissent que la GAC est mathématiquement équivalente à :

Entropie linéaire normalisée : La GAC est égale à l'entropie linéaire normalisée de la matrice du Noyau Tangent Neural (NTK) normalisée.
Similarité NTK : Elle mesure la similarité introduite par le noyau du modèle ; une similarité plus élevée implique un modèle plus simple.

Crucialement, pour les modèles à caractéristiques constantes (où $\hat{f}(x, \hat{\theta}) = \hat{\theta}^\top \phi(x)$ et $\phi(x)$ ne dépend pas de $\hat{\theta}$ ), la GAC dépend uniquement de l'expansion de caractéristiques $\phi(x)$ , et non des paramètres appris. Ainsi, elle mesure la complexité du modèle plutôt que la complexité de la fonction. Pour les modèles à caractéristiques non constantes (par exemple, réseaux de neurones profonds), la GAC peut être agrégée sur les étapes d'entraînement, pondérée par la réduction de la perte.

Contributions et résultats clés

1. Généralisation des métriques de complexité existantes

L'article démontre que la GAC généralise naturellement les hyperparamètres de complexité standard pour diverses classes de modèles :

Régression polynomiale : La GAC augmente strictement avec le degré polynomial $p$ .
Noyaux Matérn (Gaussien/Laplace) : La GAC diminue strictement avec l'échelle de longueur du noyau $l$ .
k-Plus Proches Voisins (kNN) : La GAC diminue strictement avec le nombre de voisins $\kappa$ .
Arbres de décision : La GAC augmente strictement avec le nombre de divisions (ou de feuilles).
Forêts aléatoires : La complexité d'un ensemble est montrée comme étant la somme de la complexité d'un arbre unique et d'un terme dépendant du nombre d'arbres et de leur corrélation.

2. Comportement par rapport aux données et aux hyperparamètres

Dimensionnalité et variance : La GAC augmente avec la dimensionnalité d'entrée $d$ et la variance d'entrée $\sigma^2$ .
Indépendance de la taille de l'échantillon : Pour les modèles paramétriques à caractéristiques constantes, la GAC est indépendante de la taille de l'échantillon $n$ . Cela contraste avec l'ENP et ses généralisations (GENP-V, GENP-RX), qui présentent souvent un comportement non monotone ou dépendent fortement de $n$ .
Robustesse : Contrairement à l'ENP, qui peut être influencé par la force de régularisation (par exemple, un modèle complexe fortement régularisé peut apparaître simple sous l'ENP), la GAC identifie correctement la complexité sous-jacente du modèle indépendamment de la fonction apprise spécifique ou de la régularisation.

3. Éclairages sur la double descente

Les auteurs réexaminent le phénomène de double descente en utilisant la GAC comme métrique de complexité :

Modèles à caractéristiques constantes : Pour les Caractéristiques de Fourier Aléatoires et les Forêts Aléatoires, la double descente persiste lorsque la complexité est mesurée par la GAC.
Modèles à caractéristiques non constantes : Pour les réseaux de neurones et le Gradient Boosting, le phénomène de double descente disparaît souvent ou devient moins distinct lorsqu'il est mesuré par la GAC. Les auteurs soutiennent que dans ces cas, la « complexité » (alignement des caractéristiques) peut en fait diminuer à mesure que la capacité du modèle augmente, car les modèles plus grands peuvent s'adapter plus facilement aux données sans nécessiter un espace de caractéristiques plus complexe. Cela suggère que les observations précédentes de double descente dans ces modèles pourraient être des artefacts des schémas d'initialisation ou de la confusion entre la complexité de la fonction et la complexité du modèle.

Importance et affirmations

L'article affirme que la GAC fournit une alternative mathématiquement rigoureuse et facile à calculer aux mesures de complexité existantes. Sa signification principale réside dans :

Agnosticisme du modèle : Elle est bien définie pour tout modèle paramétrique et les modèles non paramétriques basés sur des noyaux.
Distinction de la complexité : Elle sépare avec succès la complexité du modèle de la complexité de la fonction, en particulier pour les modèles à caractéristiques constantes.
Interprétabilité : Elle offre un cadre unifié pour comparer la complexité à travers des classes de modèles disparates (par exemple, comparer un arbre de décision à une régression par noyau).
Clarification de la double descente : En fournissant une métrique de complexité cohérente, elle aide à distinguer entre les comportements réels de double descente et les artefacts résultant de la manière dont la complexité est définie (par exemple, via des proxies d'erreur de généralisation comme GENP-V).

Les auteurs reconnaissent des limitations, notant que la GAC peut être coûteuse en calcul pour les réseaux de neurones profonds où le NTK est coûteux à calculer, et que la méthode d'agrégation pour la dynamique d'entraînement (Équation 2) pourrait être affinée. Cependant, ils postulent que la GAC offre une amélioration substantielle dans la compréhension des problèmes de complexité des modèles.

A Rigorous, Tractable Measure of Model Complexity