Implicit Bias of Per-sample Adam on Separable Data: Departure from the Full-batch Regime

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple de ce papier de recherche, imaginée comme une histoire de voyage et de boussoles.

Le Titre : La Boussole qui change de cap

Imaginez que vous essayez de trouver le meilleur chemin pour sortir d'une forêt dense (c'est l'entraînement d'une intelligence artificielle). Vous avez deux outils principaux pour vous guider :

GD (Descente de Gradient) : Une boussole classique qui vous dit de marcher dans la direction la plus raide.
Adam : Une boussole "intelligente" et très populaire qui ajuste sa direction en fonction de l'histoire de vos pas précédents et de la vitesse à laquelle vous avez marché.

Jusqu'à présent, les scientifiques pensaient que la boussole Adam avait un "biais" (une préférence secrète) très précis : elle aimait toujours les chemins qui ressemblaient à une grille carrée (ce qu'on appelle la géométrie $L_\infty$ ). C'était comme si Adam disait : "Je préfère les chemins droits et carrés, peu importe le terrain."

Le Problème : La différence entre "Tout voir" et "Un par un"

Dans les anciennes études, on regardait Adam en lui montrant toute la forêt d'un coup (le "full-batch"). Dans ce cas, il restait fidèle à sa préférence pour les chemins carrés.

Mais dans la réalité, quand on entraîne des IA modernes, on ne leur montre pas toute la forêt d'un coup. On leur donne des échantillons, un par un ou par petits groupes (le "mini-batch" ou "stochastique"). C'est comme si on donnait à l'explorateur une photo d'un seul arbre à la fois au lieu de la carte complète.

La grande découverte de ce papier :
Les auteurs (Beomhan Baek, Minhak Song et Chulhee Yun) ont découvert que quand Adam regarde les données un par un, il change complètement d'avis !

En mode "Carte complète" (Full-batch) : Adam reste têtu et cherche le chemin carré ( $L_\infty$ ).
En mode "Un par un" (Incremental/Mini-batch) : Adam devient flexible. Il arrête de chercher le chemin carré et commence à chercher le chemin le plus "ronde" et équilibré (le chemin $L_2$ , ou le chemin le plus large possible).

L'Analogie du Chef Cuisinier

Imaginez un chef cuisinier (Adam) qui doit préparer un plat parfait (le modèle).

Le Chef en mode "Full-batch" : Il a tous les ingrédients sur la table. Il regarde l'ensemble et dit : "Je vais couper les légumes en cubes parfaits, tout doit être carré !" C'est son habitude.
Le Chef en mode "Mini-batch" (Un ingrédient à la fois) : On lui donne un oignon, puis une carotte, puis un poivron, un par un. Il ne peut plus voir l'ensemble.
- Au lieu de s'obstiner à faire des cubes, il commence à s'adapter à la forme de chaque légume qu'il reçoit.
- Résultat : Il finit par faire un plat très équilibré et rond, totalement différent de ce qu'il aurait fait s'il avait vu tous les légumes d'un coup.

Le message clé : La façon dont Adam apprend dépend énormément de comment on lui donne les données. Ce n'est pas une machine à réaction fixe ; c'est un explorateur qui s'adapte à son rythme de découverte.

La Surprise : Signum reste fidèle

Dans ce même article, les chercheurs ont testé un autre outil appelé Signum (une version simplifiée d'Adam).

Peu importe si on lui donne la carte complète ou un seul arbre à la fois, Signum reste fidèle à son habitude. Il cherche toujours le chemin carré ( $L_\infty$ ).
C'est comme un chien de berger très têtu : qu'on lui montre tout le troupeau ou juste un mouton, il garde toujours la même posture de garde.

Pourquoi est-ce important ?

Comprendre l'IA : Cela nous aide à comprendre pourquoi les modèles d'IA fonctionnent si bien. Ce n'est pas juste une question de mathématiques pures, mais de comment on les nourrit en données.
Choisir le bon outil : Si vous voulez un modèle qui s'adapte à la forme spécifique de vos données (comme Adam en mode "un par un"), c'est bien. Mais si vous voulez un comportement très prévisible et géométrique, Signum pourrait être plus stable.
La fin des certitudes : Cela prouve qu'on ne peut pas simplement copier-coller les théories de l'entraînement "tout d'un coup" vers l'entraînement "par petits morceaux". Le monde réel (les petits lots) change la physique de l'apprentissage.

En résumé

Ce papier nous dit : "Attention ! Adam n'est pas aussi prévisible qu'on le pensait. Si vous lui donnez les données une par une, il oublie son obsession pour les formes carrées et commence à chercher la solution la plus ronde et équilibrée. C'est une surprise majeure pour les mathématiciens qui étudient l'intelligence artificielle."

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé du papier de recherche intitulé "IMPLICIT BIAS OF PER-SAMPLE ADAM ON SEPARABLE DATA: DEPARTURE FROM THE FULL-BATCH REGIME", publié à ICLR 2026.

1. Problématique

L'optimisation par descente de gradient stochastique (SGD) et ses variantes adaptatives comme Adam sont omniprésentes en apprentissage profond. Une question fondamentale est de comprendre le biais implicite de ces algorithmes : sans régularisation explicite, vers quelle solution convergent-ils lorsque les données sont séparables et que la perte tend vers zéro ?

Contexte établi : Pour la descente de gradient (GD) en lot complet (full-batch), il est prouvé que la convergence directionnelle mène à la solution à marge maximale $\ell_2$ . Pour Adam en lot complet, des travaux récents (Zhang et al., 2024a) montrent qu'il converge vers la solution à marge maximale $\ell_\infty$ , en raison de son adaptation coordonnée par coordonnée qui imite la descente de gradient par signe (SignGD).
Le vide théorique : La plupart des analyses théoriques se concentrent sur le régime en lot complet. Cependant, l'entraînement moderne utilise des mini-lots (souvent de taille 1 ou petite). Il était inconnu si le biais $\ell_\infty$ caractéristique d'Adam persistait dans ce régime stochastique.
Hypothèse de départ : Les auteurs s'interrogent : le biais $\ell_\infty$ d'Adam survit-il lorsque l'on passe au régime de mini-lots (batch size = 1) ?

2. Méthodologie

Les auteurs analysent l'optimisation de la régression logistique sur des données linéairement séparables en utilisant l'Adam incrémental (Inc-Adam), qui traite les échantillons un par un dans un ordre cyclique.

A. Approximation des mises à jour par époque

L'analyse asymptotique directe d'Adam est difficile en raison de la dépendance à l'historique complet des gradients. Les auteurs développent une approximation clé :

Ils montrent que la mise à jour d'une époque complète (un cycle sur tous les $N$ échantillons) peut être approximée par une fonction dépendant uniquement de l'itéré courant.
Résultat clé (Proposition 2.5) : Contrairement à Adam en lot complet qui se comporte comme une descente de gradient par signe (SignGD), la dynamique de l'Adam incrémental ressemble davantage à une descente de gradient préconditionnée pondérée. Le préconditionneur (moyenne mobile des carrés des gradients) suit la somme des carrés des gradients de mini-lots, ce qui diverge du carré du gradient complet.

B. Étude de cas structurés (Données SR)

Pour isoler l'effet de l'adaptativité coordonnée, les auteurs introduisent un ensemble de données structuré appelé Scaled Rademacher (SR), où la magnitude absolue des coordonnées de chaque vecteur de données est identique.

Sur ces données, l'adaptativité coordonnée d'Adam est annulée.
Ils prouvent théoriquement que sur les données SR, l'Adam incrémental converge vers la solution $\ell_2$ -max-margin, contrairement à Adam en lot complet qui converge vers $\ell_\infty$ .

C. Analyse générale et Proxy Uniforme ( $\beta_2 \to 1$ )

Pour des données générales, l'analyse exacte est complexe. Les auteurs introduisent un algorithme proxy (AdamProxy) qui approxime le comportement d'Adam lorsque le paramètre de moment $\beta_2$ tend vers 1 (une configuration courante en pratique).

Formulation du problème : La direction de convergence est caractérisée comme la solution d'un problème d'optimisation de marge maximale adaptative aux données, défini par une norme de Mahalanobis.
Équation du point fixe : La matrice de covariance de cette norme est déterminée par une équation de point fixe dépendante des données. Les auteurs définissent un opérateur $T$ sur le simplexe de probabilité et montrent que la direction de convergence correspond à un point fixe $c^*$ de cet opérateur, où $c^*$ représente les poids asymptotiques des vecteurs de support.

D. Contre-exemple : Signum

Pour mettre en contraste les résultats, les auteurs analysent l'algorithme Signum (SignSGD avec moment). Ils prouvent que, contrairement à Adam, Signum conserve son biais vers la solution $\ell_\infty$ -max-margin, quelle que soit la taille du lot, à condition que le paramètre de moment soit suffisamment proche de 1.

3. Résultats Clés

Déviation du régime Full-Batch : Le biais implicite d'Adam n'est pas invariant. En régime de mini-lots (batch size = 1), Adam perd son biais $\ell_\infty$ et converge vers des directions dépendantes des données, qui peuvent être très différentes de la solution $\ell_\infty$ (et parfois proches de $\ell_2$ ).
Convergence vers $\ell_2$ sur données SR : Sur les données Scaled Rademacher, l'Adam incrémental converge prouvément vers la solution à marge maximale $\ell_2$ , démontrant que l'effet de "signe" est brisé par le bruit du mini-lot.
Caractérisation par Point Fixe : Pour des données générales, la direction de convergence est donnée par la solution d'un problème de maximisation de marge sous une norme de Mahalanobis, où la matrice de covariance est la solution d'une équation de point fixe.
- Exemple 1 (Données Gaussiennes) : La direction converge vers une solution intermédiaire, ni purement $\ell_2$ ni $\ell_\infty$ .
- Exemple 2 (Données Diagonales Décalées) : La direction peut revenir vers la solution $\ell_\infty$ selon la structure des données.
Robustesse de Signum : Signum conserve son biais $\ell_\infty$ même en mini-lots, soulignant que la perte du biais $\ell_\infty$ chez Adam est due spécifiquement à la manière dont Adam gère les moments d'ordre 2 (variance) dans un contexte stochastique, et non simplement à l'utilisation de gradients signés.

4. Contributions Principales

Première caractérisation théorique du biais implicite d'Adam avec une taille de lot de 1 (ou petit lot), montrant qu'il diffère radicalement du régime en lot complet.
Développement d'un cadre d'analyse basé sur l'approximation des mises à jour par époque et l'introduction d'un proxy pour la limite $\beta_2 \to 1$ .
Preuve de la convergence vers $\ell_2$ sur des données structurées, réfutant l'idée que le biais $\ell_\infty$ est une propriété intrinsèque et inaltérable d'Adam.
Distinction fondamentale entre Adam et Signum : alors que Signum est robuste au changement de taille de lot pour son biais géométrique, Adam ne l'est pas.

5. Signification et Implications

Compréhension de l'Adam vs SGD : Ce travail offre une explication potentielle à l'écart de performance observé entre Adam et SGD. L'avantage d'Adam est souvent attribué à son exploitation de la géométrie $\ell_\infty$ . Ce papier suggère que cet avantage pourrait disparaître ou se transformer en régime de mini-lots, ce qui pourrait expliquer pourquoi l'écart de performance se réduit parfois avec des lots plus petits.
Choix de l'optimiseur : Les résultats indiquent que le choix de l'optimiseur et de la taille de lot doit être considéré conjointement. Utiliser Adam avec de petits lots ne garantit pas la convergence vers la solution $\ell_\infty$ souhaitée dans certains contextes théoriques.
Nouveaux outils théoriques : L'introduction de la formulation par point fixe pour caractériser le biais d'Adam ouvre la voie à de futures analyses sur des architectures plus complexes (réseaux de neurones) et d'autres schémas d'échantillonnage.

En résumé, ce papier démontre que le biais implicite d'Adam est hautement dépendant du schéma de lot (batching scheme) et de la structure des données, brisant le paradigme selon lequel Adam converge toujours vers la solution $\ell_\infty$ -max-margin.

Implicit Bias of Per-sample Adam on Separable Data: Departure from the Full-batch Regime

Le Titre : La Boussole qui change de cap

Le Problème : La différence entre "Tout voir" et "Un par un"

L'Analogie du Chef Cuisinier

La Surprise : Signum reste fidèle

Pourquoi est-ce important ?

En résumé

1. Problématique

2. Méthodologie

A. Approximation des mises à jour par époque

B. Étude de cas structurés (Données SR)

C. Analyse générale et Proxy Uniforme (β2→1\beta_2 \to 1β2​→1)

D. Contre-exemple : Signum

3. Résultats Clés

4. Contributions Principales

5. Signification et Implications

Articles similaires

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA

C. Analyse générale et Proxy Uniforme ( $\beta_2 \to 1$ )