Implicit Bias of Per-sample Adam on Separable Data: Departure from the Full-batch Regime

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que entrenar una Inteligencia Artificial es como enseñar a un estudiante muy inteligente a resolver un problema de matemáticas, pero con un giro: hay muchas formas de llegar a la respuesta correcta, y el "sesgo" del algoritmo es simplemente la personalidad o el hábito que el estudiante desarrolla al elegir una de esas respuestas.

Este paper, titulado "Sesgo implícito de Adam por muestra individual en datos separables: Alejándose del régimen de lote completo", descubre algo fascinante sobre cómo el algoritmo más famoso de todos, Adam, cambia de personalidad dependiendo de cómo le damos los datos.

Aquí tienes la explicación, traducida a un lenguaje sencillo y con analogías:

1. El Protagonista: Adam y su "Gafas"

Imagina que Adam es un estudiante que lleva unas gafas especiales (llamadas "momentum" y "adaptabilidad"). Estas gafas le permiten ver el mundo de una manera muy específica: le gusta encontrar soluciones que sean "planas" en todas direcciones, pero que se ajusten perfectamente a los bordes más difíciles.

En el mundo de la teoría antigua (cuando se usaban lotes completos, es decir, ver todos los datos de una sola vez), se sabía que Adam usaba unas "gafas de visión $\ell_\infty$ ".

La analogía: Imagina que tienes que dibujar una línea para separar manzanas de peras. Adam, con gafas de lote completo, siempre elige la línea que maximiza la distancia al punto más "estrecho" o "peligroso" de la imagen, pero priorizando que ningún eje (ni horizontal ni vertical) se estire demasiado. Es como si dijera: "Quiero que mi solución sea equilibrada en todas las direcciones, sin que ninguna dimensión domine".

2. El Giro: ¿Qué pasa si le damos los datos de uno en uno?

La gran pregunta de este paper es: ¿Qué pasa si en lugar de mostrarle todos los datos a la vez, le damos los datos uno por uno (como en el entrenamiento real de hoy en día)?

Los autores descubrieron que Adam cambia de gafas.

La analogía: Imagina que el estudiante (Adam) está estudiando en una biblioteca gigante (datos completos). Allí, puede ver el mapa completo y elegir la ruta más "segura" y equilibrada. Pero si le quitamos el mapa y le damos un solo dato a la vez (como si le pasara una tarjeta con un dato cada segundo), el estudiante se vuelve más "caótico" y su personalidad cambia.

El paper demuestra que, bajo ciertas condiciones, Adam deja de usar sus gafas de visión $\ell_\infty$ y empieza a comportarse más como un estudiante tradicional (como el Descenso de Gradiente), buscando la solución más "redonda" o estándar ( $\ell_2$ ), o incluso algo totalmente nuevo que depende de los datos específicos.

3. El Experimento: La "Biblioteca de Datos"

Para probar esto, los autores crearon dos tipos de escenarios:

Escenario A (Datos Estructurados - SR): Imagina un dataset donde todos los datos tienen la misma "forma" (como cubos perfectos).
- Resultado: Cuando Adam ve estos datos uno por uno, ¡se vuelve un estudiante perfecto! Convierte sus gafas especiales en unas gafas normales y encuentra la solución más simple y redonda posible (la solución $\ell_2$ ). Es como si, al no tener la presión de ver todo el mapa, se relajara y siguiera el camino más natural.
Escenario B (Datos Generales - Gaussianos): Aquí los datos son más caóticos, como una nube de puntos aleatorios.
- Resultado: Adam no se vuelve ni totalmente "redondo" ni totalmente "cuadrado". Se convierte en un camaleón. Su solución final depende de la "forma" exacta de la nube de datos. Los autores crearon una "fórmula mágica" (un punto fijo) para predecir hacia dónde mirará Adam en este caso. Es como si Adam dijera: "No tengo una regla fija; mi solución depende de cómo se vea exactamente la habitación en la que estoy".

4. El Villano (o Héroe) Alternativo: Signum

El paper también compara a Adam con otro algoritmo llamado Signum.

La analogía: Si Adam es un estudiante que cambia de opinión dependiendo de si ve un dato o diez, Signum es un estudiante terco.
El hallazgo: Signum siempre usa las mismas "gafas de visión $\ell_\infty$ ", sin importar si ve un dato o mil. Es inmutable. Si Adam es como un actor que cambia de personaje según el guion, Signum es un actor que siempre interpreta al mismo personaje, sin importar el escenario.

5. ¿Por qué importa esto? (La moraleja)

Antes, pensábamos que Adam siempre tenía la misma "personalidad" (su sesgo hacia la geometría $\ell_\infty$ ) y que eso era lo que lo hacía tan bueno en modelos de lenguaje (como los que generan texto).

Este paper nos dice: "¡Ojo! Esa personalidad solo aparece si le das todos los datos a la vez. En el mundo real, donde entrenamos con lotes pequeños o datos uno por uno, Adam es mucho más flexible y su comportamiento depende totalmente de los datos que le pases."

En resumen:

Adam (Lote Completo): Es un arquitecto estricto que siempre busca el diseño más equilibrado y cuadrado.
Adam (Lote Pequeño/Individual): Es un artista abstracto que dibuja según la forma de la tela (los datos) que tiene en ese momento.
Signum: Es un soldado que siempre camina en línea recta, sin importar el terreno.

Este descubrimiento es crucial porque nos ayuda a entender por qué Adam funciona tan bien en la práctica y nos dice que no podemos asumir que su comportamiento teórico (de laboratorio) es el mismo que su comportamiento en el mundo real (entrenamiento con lotes pequeños). ¡La forma en que alimentamos al algoritmo define quién se convierte!

Each language version is independently generated for its own context, not a direct translation.

Aquí presento un resumen técnico detallado del artículo "Implicit Bias of Per-Sample Adam on Separable Data: Departure from the Full-Batch Regime", publicado en ICLR 2026.

1. Problema y Contexto

El sesgo implícito (implicit bias) de los algoritmos de optimización es fundamental para entender por qué las redes neuronales sobreparametrizadas generalizan bien, incluso sin regularización explícita. En tareas de clasificación lineal con datos separables, se sabe que el Descenso de Gradiente (GD) converge direccionalmente hacia la solución de máximo margen $\ell_2$ .

Por otro lado, Adam (y sus variantes) es el optimizador estándar en la práctica, especialmente en modelos de lenguaje. Estudios recientes (Zhang et al., 2024a) han demostrado que, en el régimen de lote completo (full-batch), Adam converge hacia la solución de máximo margen $\ell_\infty$ , comportándose de manera similar al descenso de gradiente de signo (SignGD).

La pregunta central: ¿Mantiene Adam este sesgo hacia el margen $\ell_\infty$ cuando se utiliza en el régimen estocástico de mini-lotes (específicamente con tamaño de lote 1, o incremental), que es el escenario más común en el entrenamiento moderno?

El artículo demuestra que la respuesta es no. El comportamiento de Adam cambia drásticamente al pasar de lotes completos a lotes individuales, perdiendo su sesgo $\ell_\infty$ y adoptando un comportamiento dependiente de los datos.

2. Metodología y Enfoque Teórico

Los autores analizan el Incremental Adam (Inc-Adam), que procesa una muestra por paso en un orden cíclico, como un sustituto teórico para el Adam estocástico de tamaño de lote 1.

A. Diferencia Fundamental entre Det-Adam e Inc-Adam

El análisis comienza descomponiendo las actualizaciones de Adam.

Full-batch (Det-Adam): Se aproxima al SignGD. La normalización del gradiente elimina la dependencia de la magnitud, favoreciendo la geometría $\ell_\infty$ .
Incremental (Inc-Adam): La actualización por época no se reduce a SignGD. En su lugar, se comporta como un Descenso de Gradiente Precondicionado Ponderado. El precondicionador (que rastrea la suma de cuadrados de los gradientes de mini-lotes) diverge del gradiente completo al cuadrado, creando una dinámica compleja dependiente del momento y del estado actual.

B. Caso de Estudio: Datos Scaled Rademacher (SR)

Para aislar el efecto de la adaptabilidad por coordenada, los autores construyen un conjunto de datos estructurado (SR) donde $|x_i[k]| = |x_i[l]|$ para todas las coordenadas.

Resultado: En datos SR, la adaptabilidad por coordenada se anula. Bajo estas condiciones, se demuestra teóricamente que Inc-Adam converge a la solución de máximo margen $\ell_2$ , en contraste directo con el $\ell_\infty$ del Adam de lote completo.

C. Caso General: El Proxy "AdamProxy" y el Punto Fijo

Para datasets generales, el análisis directo es intratable debido a la dependencia de la historia completa de gradientes. Los autores introducen un algoritmo proxy (AdamProxy) bajo el límite donde el parámetro de momento $\beta_2 \to 1$ .

Caracterización del Sesgo: La dirección de convergencia de AdamProxy se caracteriza como la solución de un problema de maximización de margen adaptativo a los datos.
Formulación de Punto Fijo: La dirección límite $\hat{w}$ se define mediante un problema de optimización paramétrico $P_{Adam}(c)$ , donde la matriz de covarianza del norma de Mahalanobis depende de un vector de pesos $c$ .
Ecuación de Punto Fijo: El vector $c$ (que representa la contribución de cada muestra de soporte) debe ser un punto fijo de un mapa $T(c)$ , donde $T$ mapea los pesos duales del problema de optimización normalizados.
$\hat{w} \propto p(c^*) \quad \text{donde} \quad T(c^*) = c^*$
Esto implica que el sesgo implícito no es universal ( $\ell_2$ o $\ell_\infty$ ), sino que depende intrínsecamente de la estructura del dataset.

D. Contrapunto: Signum

Los autores analizan Signum (SignSGD con momento). Demuestran que, a diferencia de Adam, Signum mantiene su sesgo hacia el máximo margen $\ell_\infty$ para cualquier tamaño de lote, siempre que el parámetro de momento $\beta$ sea suficientemente cercano a 1. Esto resalta que la pérdida del sesgo $\ell_\infty$ en Adam es específica de su mecanismo de adaptación de tasa de aprendizaje, no solo del uso de gradientes de signo.

3. Contribuciones Clave

Desviación del Sesgo $\ell_\infty$ : Primera evidencia teórica de que Adam pierde su sesgo hacia el margen $\ell_\infty$ en el régimen de mini-lotes (tamaño 1), convergiendo en su lugar hacia soluciones dependientes de los datos (a veces $\ell_2$ , a veces intermedias).
Análisis de Datos Estructurados (SR): Demostración rigurosa de que en datos con simetría de coordenadas, Inc-Adam converge estrictamente al margen $\ell_2$ .
Marco de Punto Fijo para Adam: Introducción de una nueva caracterización teórica para el sesgo implícito de Adam en el límite $\beta_2 \to 1$ , formulado como un problema de punto fijo dual que captura la interacción entre la estructura de los datos y el precondicionador.
Robustez de Signum: Prueba de que Signum conserva su sesgo $\ell_\infty$ en el régimen estocástico, ofreciendo una alternativa teóricamente más estable en cuanto a la geometría de la solución.

4. Resultados Experimentales

Los experimentos validan las teorías propuestas:

Datos Gaussianos: En datos aleatorios, el Adam de lote completo converge al $\ell_\infty$ , mientras que las variantes de mini-lote (tamaño 1) convergen a una dirección diferente, mucho más cercana al $\ell_2$ (o a la solución del punto fijo predicha).
Datos SR: Confirman la convergencia al $\ell_2$ para Inc-Adam.
Datos Diagonales Desplazados: Muestran casos donde Inc-Adam converge al $\ell_\infty$ , validando que el sesgo es dependiente del dataset y no fijo.
Variación de Hiperparámetros: Se observa que el tamaño del lote afecta la dirección límite; a medida que el tamaño del lote aumenta hacia el tamaño completo, la dirección se desplaza de nuevo hacia el $\ell_\infty$ .

5. Significado e Impacto

Este trabajo tiene implicaciones profundas para la comprensión teórica del aprendizaje profundo:

Reevaluación del Éxito de Adam: Sugiere que la ventaja empírica de Adam sobre SGD en el entrenamiento de modelos grandes (como LLMs) podría no deberse únicamente a su capacidad de explotar la geometría $\ell_\infty$ en el régimen de mini-lotes, ya que esta propiedad se diluye o desaparece con tamaños de lote pequeños.
Dependencia del Dataset: Establece que el sesgo implícito de los optimizadores adaptativos no es una propiedad intrínseca del algoritmo (como $\ell_2$ o $\ell_\infty$ ), sino una interacción compleja entre el algoritmo, el esquema de muestreo (lote) y la estructura de los datos.
Guía para Futuras Investigaciones: Proporciona un marco matemático (punto fijo dual) para analizar optimizadores adaptativos más allá del régimen de lote completo, abriendo la puerta a entender por qué ciertos conjuntos de datos favorecen ciertas geometrías de decisión.

En resumen, el artículo desmitifica la idea de que Adam siempre busca soluciones $\ell_\infty$ , revelando que en el régimen estocástico real, su comportamiento es mucho más matizado y dependiente de los datos, mientras que algoritmos como Signum mantienen una invariancia de sesgo más robusta.