Adam Converges Without Any Modification On Update Rules

Este trabajo demuestra teóricamente que el optimizador Adam converge bajo hiperparámetros dependientes del problema (específicamente cuando β2\beta_2 es grande y β1<β2\beta_1 < \sqrt{\beta_2}), identificando una transición de fase en el plano (β1,β2)(\beta_1, \beta_2) y proponiendo estrategias de ajuste basadas en el tamaño del lote que han sido validadas empíricamente en el entrenamiento de modelos de lenguaje grandes.

Yushun Zhang, Bingran Li, Congliang Chen, Zhi-Quan Luo, Ruoyu Sun

Publicado 2026-03-03
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que entrenar una Inteligencia Artificial (IA) es como intentar guiar a un coche autónomo por una montaña llena de curvas para llegar al valle más bajo (el punto donde el error es mínimo).

El algoritmo Adam es el "piloto automático" más famoso y usado para este viaje. Sin embargo, hace unos años, unos investigadores dijeron: "Oigan, ¡este piloto a veces se vuelve loco y el coche se sale de la carretera sin control!". Esto asustó a mucha gente.

Pero los autores de este nuevo artículo dicen: "¡Espera un momento! El coche no está roto. El problema es que el piloto está siendo probado en un escenario que no existe en la vida real."

Aquí te explico qué descubrieron, usando analogías sencillas:

1. El Malentendido: ¿Quién elige primero?

Imagina que quieres probar si un coche se estrella.

  • Lo que hicieron los críticos (Reddi et al.): Eligen primero un volante muy extraño (unos ajustes llamados β1\beta_1 y β2\beta_2) y luego construyen una montaña imposible diseñada específicamente para que ese volante falle. Es como decir: "Elegí un volante que gira 90 grados a la izquierda, y ahora construyo una carretera que solo va a la derecha". ¡Obviamente se va a estrellar!
  • Lo que hacemos en la vida real: Primero tenemos una montaña real (un problema de IA, como entrenar un Chatbot) y luego ajustamos el volante para que funcione bien en esa montaña.

Los autores dicen que la teoría anterior estaba "haciendo trampa" al elegir el problema después de los ajustes. En la realidad, el problema es fijo y nosotros ajustamos los botones.

2. Los Botones Mágicos (β1\beta_1 y β2\beta_2)

Adam tiene dos botones principales que controlan cómo aprende:

  • β1\beta_1 (El "Momentum" o inercia): Es como la velocidad a la que el coche recuerda su dirección anterior. Si giraste a la izquierda hace un segundo, ¿sigues girando un poco a la izquierda?
  • β2\beta_2 (El "Adaptador" o memoria de la pendiente): Es como un sensor que mide qué tan empinada es la carretera y ajusta la sensibilidad de los frenos.

El descubrimiento clave:
Los autores probaron millones de combinaciones de estos botones y encontraron un mapa de peligro y seguridad:

  • La Zona Azul (Segura): Si el botón β2\beta_2 (el adaptador) está muy alto (cerca de 1, como 0.999), el coche es estable. No importa mucho qué valor tenga β1\beta_1, mientras sea un poco menor que la raíz cuadrada de β2\beta_2. El coche llega al valle suavemente.
  • La Zona Roja (Peligrosa): Si el botón β2\beta_2 está muy bajo, el coche se vuelve inestable. Puede empezar a vibrar violentamente y alejarse infinitamente de la meta (divergir).

3. La Analogía del "Freno de Emergencia"

Imagina que β2\beta_2 es la sensibilidad de un freno de emergencia que se activa cuando la carretera se pone muy empinada.

  • Si el freno es débil (valor bajo de β2\beta_2), el coche no reacciona a tiempo en las curvas bruscas y se sale de la carretera.
  • Si el freno es muy sensible y fuerte (valor alto de β2\beta_2), el coche se mantiene firme, incluso si la carretera es difícil.

Los autores demostraron matemáticamente que si subes el valor de β2\beta_2 lo suficiente, el coche nunca se saldrá de la carretera, sin necesidad de cambiar el diseño del coche (el algoritmo).

4. El Tamaño del Autobús (Batch Size)

Aquí viene una parte muy interesante. El "tamaño del lote" (batch size) es cuántos datos le das al coche a la vez para tomar una decisión.

  • Pocos datos (Batch pequeño): Es como conducir con poca visibilidad. Necesitas un freno de emergencia súper sensible (un β2\beta_2 muy alto) para no chocar.
  • Muchos datos (Batch grande): Tienes buena visibilidad. Puedes usar un freno un poco menos sensible.

El papel nos dice: "Si estás entrenando una IA gigante (como un LLM) y usas lotes de datos pequeños, ¡sube el valor de β2\beta_2!". Esto explica por qué en la práctica, cuando la gente ajusta estos valores para modelos grandes, a menudo sube β2\beta_2 y todo funciona mejor.

5. ¿Qué significa esto para el futuro?

Antes, la gente pensaba: "Adam es defectuoso, hay que inventar una nueva versión (como AMSGrad) para arreglarlo".
Ahora sabemos: "Adam no está roto. Solo necesitamos saber en qué zona del mapa de botones estamos".

La lección práctica:
Si tu entrenamiento de IA falla o se vuelve inestable:

  1. No cambies todo el algoritmo.
  2. Aumenta el valor de β2\beta_2 (hazlo más cercano a 1).
  3. Asegúrate de que β1\beta_1 sea un poco más pequeño que la raíz cuadrada de ese nuevo β2\beta_2.

En resumen

Este papel es como un manual de instrucciones que nos dice: "No tires el coche a la basura porque se estrelló en un circuito de pruebas falso. Solo ajusta el freno de emergencia (β2\beta_2) según el tamaño de tu carretera, y llegarás a tu destino seguro."

Han demostrado matemáticamente que Adam funciona perfectamente si se le dan los ajustes correctos, lo cual es una gran noticia para el desarrollo de Inteligencia Artificial.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →