Implicit Bias of Per-sample Adam on Separable Data: Departure from the Full-batch Regime

Este trabajo demuestra que el sesgo implícito del algoritmo Adam con actualizaciones por muestra individual en datos separables puede desviarse del régimen de lote completo, convergiendo en algunos casos hacia clasificadores de margen máximo 2\ell_2 en lugar de \ell_\infty, mientras que el algoritmo Signum mantiene una convergencia invariable hacia el margen máximo \ell_\infty independientemente del tamaño del lote.

Beomhan Baek, Minhak Song, Chulhee Yun

Publicado 2026-03-05
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que entrenar una Inteligencia Artificial es como enseñar a un estudiante muy inteligente a resolver un problema de matemáticas, pero con un giro: hay muchas formas de llegar a la respuesta correcta, y el "sesgo" del algoritmo es simplemente la personalidad o el hábito que el estudiante desarrolla al elegir una de esas respuestas.

Este paper, titulado "Sesgo implícito de Adam por muestra individual en datos separables: Alejándose del régimen de lote completo", descubre algo fascinante sobre cómo el algoritmo más famoso de todos, Adam, cambia de personalidad dependiendo de cómo le damos los datos.

Aquí tienes la explicación, traducida a un lenguaje sencillo y con analogías:

1. El Protagonista: Adam y su "Gafas"

Imagina que Adam es un estudiante que lleva unas gafas especiales (llamadas "momentum" y "adaptabilidad"). Estas gafas le permiten ver el mundo de una manera muy específica: le gusta encontrar soluciones que sean "planas" en todas direcciones, pero que se ajusten perfectamente a los bordes más difíciles.

En el mundo de la teoría antigua (cuando se usaban lotes completos, es decir, ver todos los datos de una sola vez), se sabía que Adam usaba unas "gafas de visión \ell_\infty".

  • La analogía: Imagina que tienes que dibujar una línea para separar manzanas de peras. Adam, con gafas de lote completo, siempre elige la línea que maximiza la distancia al punto más "estrecho" o "peligroso" de la imagen, pero priorizando que ningún eje (ni horizontal ni vertical) se estire demasiado. Es como si dijera: "Quiero que mi solución sea equilibrada en todas las direcciones, sin que ninguna dimensión domine".

2. El Giro: ¿Qué pasa si le damos los datos de uno en uno?

La gran pregunta de este paper es: ¿Qué pasa si en lugar de mostrarle todos los datos a la vez, le damos los datos uno por uno (como en el entrenamiento real de hoy en día)?

Los autores descubrieron que Adam cambia de gafas.

  • La analogía: Imagina que el estudiante (Adam) está estudiando en una biblioteca gigante (datos completos). Allí, puede ver el mapa completo y elegir la ruta más "segura" y equilibrada. Pero si le quitamos el mapa y le damos un solo dato a la vez (como si le pasara una tarjeta con un dato cada segundo), el estudiante se vuelve más "caótico" y su personalidad cambia.

El paper demuestra que, bajo ciertas condiciones, Adam deja de usar sus gafas de visión \ell_\infty y empieza a comportarse más como un estudiante tradicional (como el Descenso de Gradiente), buscando la solución más "redonda" o estándar (2\ell_2), o incluso algo totalmente nuevo que depende de los datos específicos.

3. El Experimento: La "Biblioteca de Datos"

Para probar esto, los autores crearon dos tipos de escenarios:

  • Escenario A (Datos Estructurados - SR): Imagina un dataset donde todos los datos tienen la misma "forma" (como cubos perfectos).

    • Resultado: Cuando Adam ve estos datos uno por uno, ¡se vuelve un estudiante perfecto! Convierte sus gafas especiales en unas gafas normales y encuentra la solución más simple y redonda posible (la solución 2\ell_2). Es como si, al no tener la presión de ver todo el mapa, se relajara y siguiera el camino más natural.
  • Escenario B (Datos Generales - Gaussianos): Aquí los datos son más caóticos, como una nube de puntos aleatorios.

    • Resultado: Adam no se vuelve ni totalmente "redondo" ni totalmente "cuadrado". Se convierte en un camaleón. Su solución final depende de la "forma" exacta de la nube de datos. Los autores crearon una "fórmula mágica" (un punto fijo) para predecir hacia dónde mirará Adam en este caso. Es como si Adam dijera: "No tengo una regla fija; mi solución depende de cómo se vea exactamente la habitación en la que estoy".

4. El Villano (o Héroe) Alternativo: Signum

El paper también compara a Adam con otro algoritmo llamado Signum.

  • La analogía: Si Adam es un estudiante que cambia de opinión dependiendo de si ve un dato o diez, Signum es un estudiante terco.
  • El hallazgo: Signum siempre usa las mismas "gafas de visión \ell_\infty", sin importar si ve un dato o mil. Es inmutable. Si Adam es como un actor que cambia de personaje según el guion, Signum es un actor que siempre interpreta al mismo personaje, sin importar el escenario.

5. ¿Por qué importa esto? (La moraleja)

Antes, pensábamos que Adam siempre tenía la misma "personalidad" (su sesgo hacia la geometría \ell_\infty) y que eso era lo que lo hacía tan bueno en modelos de lenguaje (como los que generan texto).

Este paper nos dice: "¡Ojo! Esa personalidad solo aparece si le das todos los datos a la vez. En el mundo real, donde entrenamos con lotes pequeños o datos uno por uno, Adam es mucho más flexible y su comportamiento depende totalmente de los datos que le pases."

En resumen:

  • Adam (Lote Completo): Es un arquitecto estricto que siempre busca el diseño más equilibrado y cuadrado.
  • Adam (Lote Pequeño/Individual): Es un artista abstracto que dibuja según la forma de la tela (los datos) que tiene en ese momento.
  • Signum: Es un soldado que siempre camina en línea recta, sin importar el terreno.

Este descubrimiento es crucial porque nos ayuda a entender por qué Adam funciona tan bien en la práctica y nos dice que no podemos asumir que su comportamiento teórico (de laboratorio) es el mismo que su comportamiento en el mundo real (entrenamiento con lotes pequeños). ¡La forma en que alimentamos al algoritmo define quién se convierte!