Activation Functions, Statistics and Learning of… — Explicación divulgativa

Autores originales: Giovanni di Sarra, Yasser Roudi

Publicado 2026-05-20

📖 5 min de lectura🧠 Análisis profundo

Autores originales: Giovanni di Sarra, Yasser Roudi

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita ni avalada por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Imagina que estás intentando enseñar a una computadora a reconocer patrones complejos en los datos, como identificar una cara específica en una multitud o entender el estado de ánimo de una canción. Para lograrlo, la computadora utiliza un "cerebro" formado por capas de unidades simples. Un tipo popular de este cerebro se llama Máquina de Boltzmann Restringida (RBM).

Piensa en una RBM como un edificio de dos pisos:

La Planta Baja (Unidades Visibles): Aquí es donde residen los datos (las imágenes, los sonidos, los números).
El Segundo Piso (Unidades Ocultas): Aquí es donde ocurre el "pensamiento". Estas unidades observan la planta baja e intentan descubrir las reglas ocultas que conectan los puntos de datos.

La gran pregunta que plantea este artículo es: ¿Cómo afecta la "personalidad" de las unidades del segundo piso a lo que la computadora aprende?

En términos técnicos, esta "personalidad" se denomina función de activación. Es una regla que decide con qué intensidad reacciona una unidad a la información que recibe. Los autores probaron cuatro "personalidades" diferentes:

Lineal: Una reacción suave y en línea recta.
Escalón: Un interruptor de encendido/apagado (como un interruptor de luz).
ReLU: Un interruptor "rectificado" que ignora las entradas negativas pero deja pasar las positivas.
Exponencial: Una unidad que explota en intensidad de reacción apenas recibe una pequeña entrada.

El Descubrimiento Central: Relaciones Simples vs. Complejas

El artículo revela que la elección de esta "personalidad" cambia los tipos de relaciones que la computadora puede comprender fácilmente.

Las Personalidades "Simples" (Lineal, Escalón, ReLU):
Imagina que estas unidades son como personas que solo se preocupan por pares. Si tienes un grupo de amigos, una unidad "Escalón" o "ReLU" es excelente para notar que "Alice y Bob siempre salen juntos". Es buena para encontrar conexiones simples entre dos personas. Sin embargo, le cuesta entender dinámicas grupales complejas, como "Alice, Bob y Charlie solo salen juntos si Dave también está presente". Estas reglas complejas de múltiples personas (llamadas interacciones de orden superior) tienden a perderse o volverse muy débiles en la memoria de la computadora.

La Personalidad "Explosiva" (Exponencial):
Ahora, imagina una unidad que reacciona de forma desbordada ante la entrada. Los autores descubrieron que si utilizas esta función Exponencial, la computadora se vuelve mucho mejor entendiendo esas dinámicas grupales complejas. Puede aprender fácilmente que "Alice, Bob y Charlie" tienen un vínculo especial que no existe si no están todos presentes.

El "Mar de la Simplicidad" vs. La "Isla de la Complejidad"

Los autores utilizaron una analogía ingeniosa que involucra un vasto océano para explicar sus hallazgos:

El Océano de Modelos Simples: Para la mayoría de las funciones de activación (como ReLU o Escalón), el "estado natural" de la computadora es un mar de relaciones simples y en decadencia. Si lanzas un conjunto aleatorio de pesos (conexiones aleatorias) a la computadora, casi siempre terminará aprendiendo pares simples. Las reglas complejas son como islas raras en este océano; son tan difíciles de encontrar que la computadora rara vez tropieza con ellas por accidente.
La Isla de la Complejidad: Sin embargo, con la función Exponencial, el paisaje cambia. Existe una "región" específica de parámetros (una forma específica de configurar los ajustes iniciales de la computadora) donde la computadora flota naturalmente en un mar de relaciones complejas y no en decadencia. En esta zona, las reglas grupales complejas son tan comunes como los pares simples.

¿Qué Sucede Cuando Entrenas a la Computadora?

Los investigadores luego simularon el entrenamiento de estas computadoras con diferentes tipos de datos para ver qué ocurría.

Aprendiendo Datos Simples: Cuando entrenaron a la computadora con datos que tenían reglas simples (solo pares), todos los tipos de funciones de activación funcionaron bien. Todos aprendieron las reglas simples de manera efectiva.
Aprendiendo Datos Complejos: Cuando entrenaron a la computadora con datos que tenían reglas complejas de múltiples personas:
- Lineal, Escalón y ReLU: La computadora falló al aprender las reglas complejas. En su lugar, intentó forzar una explicación simple sobre los datos complejos. Esencialmente "se rindió" ante las dinámicas grupales y solo aprendió las partes individuales, perdiéndose el panorama general.
- Exponencial: La computadora tuvo éxito. Dado que su estado natural permitía reglas complejas, pudo aprender y reproducir las intrincadas dinámicas grupales de los datos.

El "Sesgo hacia la Simplicidad"

El artículo concluye que las redes neuronales tienen un "sesgo hacia la simplicidad" incorporado. Naturalmente prefieren aprender conexiones simples y de bajo nivel primero. Esto suele ser algo bueno, pero significa que luchan con datos que son fundamentalmente complejos.

La conclusión clave es que, al elegir la función de activación Exponencial, puedes romper este sesgo. Puedes ajustar la computadora para que esté naturalmente abierta a aprender patrones complejos de alto orden que otros tipos de redes simplemente ignorarían o no podrían representar.

En resumen: Si quieres que tu IA entienda pares simples, casi cualquier "personalidad" funciona. Pero si quieres que entienda dinámicas grupales complejas, necesitas darle la personalidad "Exponencial", lo que hace que la computadora sea naturalmente capaz de ver el cuadro completo, no solo las piezas.

Resumen Técnico: Funciones de Activación, Estadística y Aprendizaje de Interacciones de Orden Superior en Máquinas de Boltzmann Restringidas

Enunciado del Problema
Aunque las redes neuronales son ampliamente reconocidas por su capacidad para reconocer patrones ocultos mediante la combinación de numerosos parámetros y funciones de activación no lineales, el impacto específico de la forma de la función de activación de la unidad oculta sobre el rendimiento de la red y su capacidad representacional permanece poco explorado teóricamente. Aunque la evidencia empírica sugiere que las no linealidades como ReLU mejoran la convergencia y el rendimiento en comparación con las unidades sigmoideas, falta una evaluación teórica sistemática de cómo diferentes funciones de activación influyen en las regularidades estadísticas que una Máquina de Boltzmann Restringida (RBM) puede representar. Específicamente, no está claro cómo la elección de la función de activación afecta la capacidad de la RBM para aprender y representar estructuras de datos caracterizadas por fuertes interacciones de orden superior (interacciones más allá de las pares).

Metodología
Los autores explotan la dualidad entre las Máquinas de Boltzmann Restringidas (RBM) y los modelos de variables binarias interactuantes. Al marginalizar sobre las unidades ocultas, una RBM puede mapearse exactamente a un modelo donde las unidades visibles interactúan directamente con términos de orden arbitrario $s$ . Los términos de interacción $I_{i_1, \dots, i_s}$ se expresan analíticamente como una función de la no linealidad de la capa oculta y de los pesos que conectan las unidades ocultas y visibles.

El estudio procede en dos fases analíticas principales:

Análisis Estadístico Exacto: Para las funciones de activación Lineal y Exponencial (Poisson), los autores derivan expresiones analíticas exactas para los valores esperados y las correlaciones (momentos) de los términos de interacción inducidos cuando los pesos se extraen de una distribución gaussiana.
Expansión de Pequeñas Fluctuaciones: Para las funciones de activación Escalonada (Sigmoidea) y ReLU, donde las soluciones exactas son más complejas, los autores emplean una expansión de segundo orden de los términos de interacción alrededor del peso medio $w_0$ . Esta aproximación permite el cálculo de expectativas y varianzas para estas no linealidades.

Estas predicciones analíticas se validan frente a simulaciones numéricas de procesos de entrenamiento sobre distribuciones de verdad fundamental específicas, incluyendo modelos de interacción decreciente (donde la fuerza de interacción disminuye con el orden) y modelos no decrecientes (donde las interacciones de orden superior son significativas).

Contribuciones y Resultados Clave

Caracterización de los Espacios de Interacción: El artículo caracteriza analíticamente el espacio de modelos representables para cuatro funciones de activación: Lineal, Escalonada, ReLU y Exponencial.
- RBM Lineales: Solo producen interacciones pares no nulas (campos y términos pares); todas las interacciones de orden superior son cero.
- RBM Exponenciales: Exhiben una estructura de interacción rica donde los términos de orden superior son no nulos. Crucialmente, el valor esperado de los términos de interacción puede aumentar exponencialmente con el orden de interacción $s$ si el parámetro $\gamma_1 > 1$ (una condición determinada por la media y la varianza de los pesos).
- RBM Escalonadas y ReLU: Aunque producen interacciones de orden superior, el análisis muestra que las interacciones de orden inferior generalmente dominan, y la magnitud de las interacciones típicamente decae con el orden.
Análisis de Fluctuaciones: El estudio identifica regímenes donde las fluctuaciones en los términos de interacción exceden sus valores esperados. Para la activación Exponencial, existe una región de parámetros donde las fluctuaciones para las interacciones de orden superior son mayores que las de las interacciones de orden inferior, un fenómeno no observado en los casos Lineal, Escalonado o ReLU.
Dinámica de Aprendizaje y Modelos "Decrecientes" vs. "No Decrecientes":
- Los autores definen modelos decrecientes como aquellos donde la magnitud de las interacciones disminuye con el orden, y modelos no decrecientes donde esto no es cierto.
- Hallazgo General: En el régimen de acoplamiento débil, las RBM entrenadas sobre diversos datos tienden a converger hacia modelos de interacción decreciente, independientemente de la función de activación. Esto sugiere un "sesgo de simplicidad" donde el proceso de aprendizaje favorece características de orden inferior.
- Excepción Exponencial: En regímenes de parámetros específicos (peso medio $w_0$ grande o varianza de pesos grande), las RBM con funciones de activación Exponencial entran en un régimen no decreciente. En este régimen, el conjunto contiene una fracción significativa de modelos donde las interacciones de orden superior son comparables o mayores que las de orden inferior.
- Rendimiento del Entrenamiento: Cuando se entrenan sobre datos de verdad fundamental con fuertes interacciones no decrecientes (por ejemplo, interacciones puras de tres cuerpos):
  - Las RBM con activaciones Escalonada, ReLU o Lineal fallan en reconstruir la estructura no decreciente, aprendiendo efectivamente los datos como un modelo decreciente (aproximando términos de orden superior con términos de orden inferior).
  - Las RBM con activación Exponencial reconstruyen con éxito la estructura de interacción no decreciente y logran una divergencia de Kullback-Leibler (KL) significativamente menor, siempre que los parámetros estén dentro del régimen no decreciente determinado analíticamente.

Significado y Afirmaciones
El artículo afirma que la elección de la función de activación es un parámetro de diseño crítico que dicta el "sesgo representacional" de una RBM.

Perspectiva Teórica: El trabajo proporciona un marco teórico que muestra que las no linealidades de crecimiento rápido, específicamente la función Exponencial, pueden facilitar la representación y el aprendizaje de estructuras de datos con grandes términos de interacción de orden superior. Esto se logra desplazando el conjunto estadístico de la RBM de un régimen decreciente a uno no decreciente.
Sesgo de Simplicidad: Los resultados sugieren que el "sesgo de simplicidad" observado en las redes neuronales (la tendencia a aprender características de orden inferior primero) puede surgir no solo del algoritmo de aprendizaje (por ejemplo, descenso de gradiente estocástico), sino también del sesgo representacional inherente introducido por la función de activación. La mayoría de las funciones de activación estándar (ReLU, Escalonada) favorecen inherentemente las interacciones de orden inferior.
Implicación Práctica: Para tareas que involucran datos con correlaciones complejas de alto orden, la función de activación Exponencial ofrece una ventaja teórica sobre las no linealidades estándar, siempre que los parámetros del modelo se ajusten al régimen específico donde las interacciones no decrecientes son estables.

Los autores concluyen que, aunque su análisis se basa en conjuntos aleatorios y verdades fundamentales específicas, ofrece una base principista para comprender cómo las funciones de activación moldean el paisaje representacional de las RBM, guiando potencialmente el diseño de arquitecturas para tareas que requieren la captura de regularidades estadísticas de alto orden.

Activation Functions, Statistics and Learning of Higher-Order Interactions in Restricted Boltzmann Machines

El Descubrimiento Central: Relaciones Simples vs. Complejas

El "Mar de la Simplicidad" vs. La "Isla de la Complejidad"

¿Qué Sucede Cuando Entrenas a la Computadora?

El "Sesgo hacia la Simplicidad"

Resumen Técnico: Funciones de Activación, Estadística y Aprendizaje de Interacciones de Orden Superior en Máquinas de Boltzmann Restringidas

Más como este