Autores originales: Oskar Allerbo, Thomas B. Schön

Publicado 2026-05-21✓ Author reviewed ⓘ

📖 5 min de lectura🧠 Análisis profundo

Autores originales: Oskar Allerbo, Thomas B. Schön

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

El Gran Problema: ¿Qué tan "complicado" es tu modelo?

Imagina que eres un chef tratando de juzgar qué tan compleja es una receta.

La Vieja Forma: Podrías simplemente contar el número de ingredientes (parámetros). Pero una receta con 50 especias podría ser en realidad un plato simple si todas las especias tienen el mismo sabor. Por el contrario, una receta con solo 3 ingredientes podría ser increíblemente compleja si el chef tiene que manipularlos de una manera muy específica y delicada.
El Desorden Actual: En el aprendizaje automático, los científicos han intentado medir la "complejidad" utilizando cosas como el número de parámetros, la "dimensión de Vapnik-Chervonenkis" (un concepto matemático muy difícil) o los "grados de libertad efectivos". El problema es que estos métodos son o demasiado toscos (como solo contar ingredientes) o tan difíciles de calcular que son inútiles en la práctica.

Los autores de este artículo, Oskar Allerbo y Thomas B. Schön, quieren solucionar esto. Proponen una nueva forma, fácil de calcular y matemáticamente sólida, de medir la complejidad llamada Complejidad de Alineación de Gradientes (GAC).

La Nueva Idea: La Analogía de la "Pista de Baile"

Para entender la GAC, imagina que el modelo es un bailarín y los "gradientes" son las direcciones hacia las que el bailarín mira cuando se mueve.

La Configuración: El modelo observa diferentes entradas (diferentes canciones en la pista de baile). Para cada canción, el modelo tiene una "dirección" específica en la que quiere moverse para aprender los datos.
Modelo Simple (Baja Complejidad): Si el modelo es muy simple, reacciona a cada canción exactamente de la misma manera. Mira hacia la misma dirección sin importar qué música suene. Todos sus "movimientos de baile" están perfectamente alineados. Tiene muy poca libertad.
- Analogía: Un robot que solo conoce un movimiento de baile. Sin importar la canción, hace lo mismo. Es simple, pero no muy flexible.
Modelo Complejo (Alta Complejidad): Si el modelo es muy complejo, reacciona de manera diferente a cada canción. Para una canción, mira hacia el Norte; para otra, hacia el Sur; para una tercera, gira salvajemente. Sus "movimientos de baile" están por todas partes y apuntan en direcciones totalmente diferentes.
- Analogía: Un improvisador de jazz que cambia su estilo completamente por cada nota. Tiene libertad total para moverse a cualquier lugar.

La Medida GAC: Los autores simplemente miden cuánto se alinean entre sí estos "movimientos de baile" (gradientes).

Si todos apuntan en la misma dirección (alta alineación) $\rightarrow$ Baja Complejidad.
Si apuntan en direcciones aleatorias e independientes (baja alineación) $\rightarrow$ Alta Complejidad.

Por Qué Esto es un Gran Logro

El artículo afirma que esta nueva medida es especial por tres razones principales:

Funciona para Todos: Ya sea que estés usando una ecuación polinómica simple, un árbol de decisión, un bosque aleatorio o una red neuronal, esta medida funciona. No le importa qué "sabor" de modelo estés utilizando.
Mide la "Máquina", No Solo la "Salida": A veces una máquina compleja (como una supercomputadora) se usa para realizar una tarea muy simple (como sumar 2+2). Las medidas antiguas podrían decir que la máquina es simple porque el resultado es simple. La GAC mira la máquina en sí misma. Dice: "Oye, aunque estás realizando una tarea simple ahora mismo, tienes el potencial de hacer cosas muy complejas porque tus partes internas son tan flexibles".
Generaliza Reglas Antiguas: Los autores demuestran que su nueva medida se convierte naturalmente en las reglas antiguas y familiares cuando se aplican a modelos específicos:
- Para Polinomios, actúa como el "grado" (qué tan alto llega la potencia).
- Para Árboles de Decisión, actúa como el "número de divisiones" (cuántas ramas hay).
- Para Bosques Aleatorios, actúa como el "número de árboles".
- Para K-Vecinos Más Cercanos, actúa como el "número de vecinos".

Resolviendo el Misterio de la "Doble Descenso"

Existe un fenómeno famoso en la inteligencia artificial llamado Doble Descenso. Por lo general, a medida que haces un modelo más complejo, mejora en el aprendizaje, luego empeora (sobreajuste), y luego —sorprendentemente— mejora de nuevo si lo haces aún más complejo.

Los científicos han estado discutiendo por qué sucede esto. Algunos dicen que es porque el modelo se está volviendo demasiado grande; otros dicen que es una ilusión causada por cómo medimos la complejidad.

Los autores utilizaron su nueva medida GAC para volver a probar estos experimentos:

Para Modelos "Estáticos": (Modelos donde la estructura no cambia durante el entrenamiento, como Bosques Aleatorios o Características de Fourier Aleatorias). La GAC confirmó que la Doble Descenso es real. A medida que agregas más árboles o características, la complejidad aumenta, y la "segunda descenso" (mejorar de nuevo) ocurre exactamente cuando la complejidad alcanza un cierto punto.
Para Modelos "Dinámicos": (Modelos como las Redes Neuronales donde las características cambian a medida que aprenden). Los autores descubrieron que la Doble Descenso a menudo desaparece cuando se mide con GAC. ¿Por qué? Porque a medida que estos modelos se hacen más grandes, en realidad se vuelven menos complejos en términos de cómo alinean sus gradientes. Aprenden a adaptarse tan bien que dejan de usar su completo "potencial de complejidad".

La Conclusión

Los autores han construido una nueva "regla" para medir los modelos de aprendizaje automático.

Reglas Antiguas: Eran o demasiado toscas (contar partes) o demasiado difíciles de usar (requiriendo matemáticas imposibles).
La Nueva Regla GAC: Observa cómo se mueven juntos los "músculos" internos (gradientes) del modelo. Si se mueven al unísono, el modelo es simple. Si se mueven independientemente, el modelo es complejo.

Esta herramienta ayuda a los científicos a entender por qué los modelos se comportan de la manera en que lo hacen, particularmente la confusa curva de "Doble Descenso", al proporcionar una definición clara y consistente de lo que realmente significa "complejidad" en diferentes tipos de IA.

Resumen Técnico: Una Medida Rigurosa y Tractable de la Complejidad del Modelo

Enunciado del Problema

La evaluación precisa de la complejidad del modelo es fundamental para tareas de aprendizaje automático como la interpretación, la generalización y la selección de modelos. Sin embargo, las medidas existentes sufren limitaciones significativas:

Enfoques Heurísticos: Métricas simples como los recuentos de parámetros o sus magnitudes proporcionan estimaciones crudas que no capturan la verdadera capacidad de un modelo.
Hiperparámetros Específicos del Modelo: Medidas como el grado polinómico o la escala de longitud del kernel no se generalizan entre diferentes clases de modelos.
Intratabilidad Computacional: Medidas teóricas rigurosas, como la dimensión de Vapnik-Chervonenkis (VCD) y la complejidad de Rademacher (RMC), a menudo son imposibles de calcular en la práctica.
Complejidad de la Función vs. Complejidad del Modelo: Existe una distinción crítica, a menudo ignorada, entre la complejidad de una función aprendida específica (por ejemplo, Número Efectivo de Parámetros, ENP) y la complejidad de la clase de modelos en sí misma. Un modelo complejo puede generar una función simple (por ejemplo, estableciendo parámetros a cero), sin embargo, las métricas estándar a menudo confunden ambos.

Además, la falta de una medida de complejidad universalmente aceptada y computable complica la interpretación del fenómeno de la "doble caída", donde el error de generalización disminuye a medida que la complejidad del modelo aumenta más allá del umbral de interpolación.

Metodología

Los autores proponen la Complejidad de Alineación de Gradientes (GAC), una medida agnóstica al modelo basada en la alineación de los gradientes del modelo a través de diferentes entradas.

Definición

Para un modelo paramétrico $\hat{f}(x, \hat{\theta})$ con parámetros $\hat{\theta} \in \mathbb{R}^p$ , sea $\phi(x, \hat{\theta}) = \nabla_{\hat{\theta}} \hat{f}(x, \hat{\theta})$ el gradiente con respecto a los parámetros en la entrada $x$ . La GAC, denotada $K(\hat{f})$ , se define como:

$K(\hat{f}) := 1 - \mathbb{E}_{x,x'} \left[ \left( \frac{\phi(x, \hat{\theta})^\top \phi(x', \hat{\theta})}{\|\phi(x, \hat{\theta})\| \cdot \|\phi(x', \hat{\theta})\|} \right)^2 \right]$

Esta formulación utiliza la diferencia de coseno al cuadrado entre los gradientes en dos entradas distintas $x$ y $x'$ .

Interpretación: El término dentro de la esperanza representa el coseno al cuadrado del ángulo entre los gradientes. Si los gradientes están altamente alineados (paralelos), el modelo tiene menos libertad para ajustar patrones de datos diversos, lo que indica una menor complejidad. Si los gradientes son ortogonales (independientes), el modelo es altamente flexible.
Generalización: Para salidas multivariadas (por ejemplo, clasificación), el producto punto se reemplaza por el producto interno de Frobenius de las jacobianas.
Cálculo Empírico: Para un conjunto de datos $\{x_i\}_{i=1}^n$ , la esperanza se reemplaza por un promedio de muestra sobre pares $i \neq j$ .

Conexiones Teóricas

Los autores establecen que la GAC es matemáticamente equivalente a:

Entropía Lineal Normalizada: La GAC es igual a la entropía lineal normalizada de la matriz del Kernel Tangente Neural (NTK) normalizada.
Similitud del NTK: Mide la similitud introducida por el kernel del modelo; una mayor similitud implica un modelo más simple.

Crucialmente, para modelos de características constantes (donde $\hat{f}(x, \hat{\theta}) = \hat{\theta}^\top \phi(x)$ y $\phi(x)$ no depende de $\hat{\theta}$ ), la GAC depende únicamente de la expansión de características $\phi(x)$ , no de los parámetros aprendidos. Por lo tanto, mide la complejidad del modelo y no la complejidad de la función. Para modelos de características no constantes (por ejemplo, redes neuronales profundas), la GAC puede agregarse sobre los pasos de entrenamiento ponderada por la reducción de la pérdida.

Contribuciones y Resultados Clave

1. Generalización de Métricas de Complejidad Existentes

El artículo demuestra que la GAC generaliza naturalmente los hiperparámetros de complejidad estándar para diversas clases de modelos:

Regresión Polinómica: La GAC aumenta estrictamente con el grado polinómico $p$ .
Kernels de Matérn (Gaussiano/Laplace): La GAC disminuye estrictamente con la escala de longitud del kernel $l$ .
k-Vecinos Más Cercanos (kNN): La GAC disminuye estrictamente con el número de vecinos $\kappa$ .
Árboles de Decisión: La GAC aumenta estrictamente con el número de divisiones (o hojas).
Bosques Aleatorios: Se muestra que la complejidad de un ensemble es la suma de la complejidad de un solo árbol y un término dependiente del número de árboles y su correlación.

2. Comportamiento Respecto a Datos e Hiperparámetros

Dimensionalidad y Varianza: La GAC aumenta con la dimensionalidad de entrada $d$ y la varianza de entrada $\sigma^2$ .
Independencia del Tamaño de Muestra: Para modelos paramétricos con características constantes, la GAC es independiente del tamaño de muestra $n$ . Esto contrasta con el ENP y sus generalizaciones (GENP-V, GENP-RX), que a menudo exhiben comportamiento no monótono o dependen fuertemente de $n$ .
Robustez: A diferencia del ENP, que puede verse influenciado por la fuerza de regularización (por ejemplo, un modelo complejo altamente regularizado puede parecer simple bajo ENP), la GAC identifica correctamente la complejidad subyacente del modelo independientemente de la función aprendida específica o la regularización.

3. Perspectivas sobre la Doble Caída

Los autores revisan el fenómeno de la doble caída utilizando la GAC como métrica de complejidad:

Modelos de Características Constantes: Para Características de Fourier Aleatorias y Bosques Aleatorios, la doble caída persiste cuando la complejidad se mide mediante la GAC.
Modelos de Características No Constantes: Para Redes Neuronales y Boosting de Gradiente, el fenómeno de doble caída a menudo desaparece o se vuelve menos distintivo cuando se mide mediante la GAC. Los autores argumentan que en estos casos, la "complejidad" (alineación de características) puede disminuir en realidad a medida que aumenta la capacidad del modelo, porque los modelos más grandes pueden adaptarse más fácilmente a los datos sin requerir un espacio de características más complejo. Esto sugiere que las observaciones anteriores de doble caída en estos modelos podrían ser artefactos de esquemas de inicialización o la confusión de la complejidad de la función con la complejidad del modelo.

Significado y Afirmaciones

El artículo afirma que la GAC proporciona una alternativa matemáticamente rigurosa y fácil de calcular a las medidas de complejidad existentes. Su significado principal radica en:

Agnosticismo del Modelo: Está bien definida para cualquier modelo paramétrico y modelos no paramétricos basados en kernel.
Distinción de Complejidad: Separa con éxito la complejidad del modelo de la complejidad de la función, particularmente para modelos de características constantes.
Interpretabilidad: Ofrece un marco unificado para comparar la complejidad entre clases de modelos dispares (por ejemplo, comparar un árbol de decisión con una regresión por kernel).
Clarificación de la Doble Caída: Al proporcionar una métrica de complejidad consistente, ayuda a distinguir entre comportamientos genuinos de doble caída y artefactos que surgen de cómo se define la complejidad (por ejemplo, mediante proxies de error de generalización como GENP-V).

Los autores reconocen limitaciones, señalando que la GAC puede ser computacionalmente costosa para redes neuronales profundas donde el NTK es costoso de calcular, y que el método de agregación para la dinámica de entrenamiento (Ecuación 2) podría refinarse. Sin embargo, postulan que la GAC ofrece una mejora sustancial en la comprensión de los problemas de complejidad del modelo.

A Rigorous, Tractable Measure of Model Complexity