Autores originales: Xinyang Liu, Xuanyu Liang, Shiqi Ding, Boyang Li, Zhiqiang Que, Jiayang Li, Guosheng Hu

Publicado 2026-06-03✓ Author reviewed ⓘ

📖 5 min de lectura🧠 Análisis profundo

Autores originales: Xinyang Liu, Xuanyu Liang, Shiqi Ding, Boyang Li, Zhiqiang Que, Jiayang Li, Guosheng Hu

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Imagina que estás tratando de enseñar a un equipo de trabajadores a predecir la temperatura futura en una habitación.

La forma antigua (Retropropagación/Backpropagation):
Durante décadas, el método estándar ha sido como un gerente estricto y jerárquico. El gerente observa la predicción final, ve que es incorrecta y luego camina de regreso por todo el equipo, diciéndole a cada uno de los trabajadores exactamente cómo contribuyeron al error.

El problema: Esto requiere que el gerente recuerde todo lo que hizo cada trabajador durante el proceso (lo que consume mucho espacio mental/memoria). Además, nadie puede corregir su error hasta que el gerente termine todo el recorrido de regreso. Es lento, consume mucha memoria y es biológicamente poco realista (nuestros cerebros no funcionan así).

La forma "nueva" anterior (Forward-Forward):
Hace unos años, se inventó un nuevo método llamado "Forward-Forward" (FF). En lugar de un gerente caminando hacia atrás, utiliza un enfoque "local". Cada trabajador solo observa a su vecino inmediato.

Cómo funcionaba: Era excelente para preguntas de Sí/No (Clasificación). El sistema le mostraba a un trabajador un ejemplo "bueno" (un gato real) y uno "malo" (un perro aleatorio). El trabajador aprendía a decir: "Me gusta el gato, me disgusta el perro".
El problema: Esto funciona perfectamente para elegir un gato o un perro, pero falla estrepitosamente al predecir números (Regresión), como la temperatura. No puedes decir fácilmente si "20°C es bueno" o "es malo" si el objetivo es 21°C. ¿Qué pasa con 100°C? El método antiguo no sabía cómo manejar la distancia entre los números, solo si algo era "correcto" o "incorrecto".

La nueva solución: FFR (Forward-Forward para Regresión)
Este artículo presenta FFR, un nuevo sistema que finalmente enseña a este método de "trabajador local" a manejar números continuos como la temperatura, la velocidad o el precio. Así es como lo lograron, usando tres trucos ingeniosos:

1. El "Tira y Afloja" en lugar de "Bueno vs. Malo"

En lugar de mostrar a un trabajador un ejemplo "bueno" y uno "malo", FFR divide a los trabajadores en equipos.

La analogía: Imagina que la temperatura objetivo es 20°C. Los trabajadores se dividen en grupos: el Grupo A es responsable de 10–15°C, el Grupo B de 15–20°C, el Grupo C de 20–25°C, y así sucesivamente.
El truco: El sistema no solo dice "el Grupo B tiene razón". Dice: "El Grupo B es el ganador, pero el Grupo A y el Grupo C son los más cercanos, mientras que el Grupo Z (100°C) es un perdedor total".
Por qué ayuda: Esto enseña a los trabajadores no solo qué grupo es el correcto, sino qué tan cerca están de la respuesta correcta. Entiende que 19°C está "más cerca" de 20°C que 10°C. Esto reemplaza el viejo juego de "Bueno vs. Malo" con una competencia de "¿Quién está más cerca?".

2. La "Escalera Estratificada" (De lo tosco a lo fino)

El artículo construye una estructura de escalera especial donde los trabajadores se vuelven más precisos a medida que suben.

La analogía:
- Peldaños inferiores (Capas superficiales): Estos trabajadores son como redactores toscos. Solo deciden si la temperatura es "Fría", "Templada" o "Caliente". Hacen un intento grande y grueso.
- Peldaños superiores (Capas profundas): Estos trabajadores son como artistas refinados. Toman la suposición de "Templada" de abajo y la refinan a "20.5°C".
La colaboración: El sistema no desecha las suposiciones toscas. Las conserva todas. En la cima, un "Entrenador Principal" (una capa final) observa las suposiciones toscas de la base y las finas de la cima, las mezcla y realiza la predicción final. Esto asegura que el sistema no se quede estancado en una mala suposición inicial.

3. El "Almuerzo Gratis" (Incertidumbre)

Normalmente, para saber qué tan seguro está una computadora de su respuesta, tienes que ejecutar la simulación mil veces y ver cuánto varían las respuestas. Eso toma una eternidad.

El truco de FFR: Debido a que el sistema tiene trabajadores en cada nivel de la escalera (de lo tosco a lo fino), simplemente puede preguntarles a todos: "¿Qué piensan ustedes?".
El resultado: Si los trabajadores "Toscos" y los "Finos" están de acuerdo, el sistema tiene mucha confianza. Si están discutiendo entre sí, el sistema sabe: "Oye, no estoy seguro de esto".
El beneficio: El sistema te da una predicción y un puntaje de confianza al instante, sin trabajo adicional. Es un "almuerzo gratis".

¿Qué demostraron?

Los autores probaron esto en problemas del mundo real como:

Predecir el uso de energía en hogares inteligentes.
Predecir cuándo fallarán las herramientas de las máquinas en las fábricas.
Predecir la ubicación en interiores (sin GPS).
Predecir métricas de salud a partir de dispositivos vestibles (wearables).
Juzgar la calidad de una imagen.

Los resultados:

Precisión: FFR obtuvo aproximadamente el 98.6% de la precisión del viejo y pesado método de "Retropropagación".
Memoria: Utilizó solo el 27% de la memoria en profundidades moderadas y el 8% en niveles muy profundos. (Imagina llevar una mochila que mantiene el mismo tamaño sin importar cuántos libros le agregues, mientras que la mochila del método antiguo se volvía infinitamente pesada).
Velocidad: Entrenó aproximadamente un 28% más rápido por paso porque no tenía que esperar al "recorrido hacia atrás".

En resumen:
FFR toma un método que anteriormente solo era bueno para decisiones simples de "Sí/No" y lo actualiza para manejar predicciones numéricas complejas. Lo logra convirtiendo el proceso de aprendizaje en una competencia de "suposición más cercana", construyendo una escalera de trabajadores de lo tosco a lo fino, y obteniendo un puntaje de confianza de forma gratuita. Demuestra que se puede construir una IA inteligente y eficiente sin necesidad del pesado y demandante de memoria "recorrido hacia atrás" que ha dominado el campo durante décadas.

Resumen Técnico: FFR (Forward-Forward para Regresión)

1. Planteamiento del Problema

El algoritmo Forward-Forward (FF), propuesto por Hinton et al., ofrece una alternativa biológicamente plausible y eficiente en memoria a la Retropropagación (BP) mediante el entrenamiento de redes neuronales a través de optimizaciones puramente locales y por capas, utilizando dos pasadas hacia adelante (datos positivos y negativos). Sin embargo, FF está diseñado intrínsecamente para tareas de clasificación, basándose en pares contrastivos de muestras "genuinas" (positivas) y "espurias" (negativas). Extender FF a la regresión en el mundo real presenta dos desafíos fundamentales:

Ausencia de Negativos Naturales: En espacios de objetivos continuos, no existe una definición natural de una muestra "negativa". A diferencia de la clasificación, donde una etiqueta incorrecta aleatoria es suficiente, los valores continuos (por ejemplo, $y+0.1$ frente a $y+100$ ) no pueden categorizarse trivialmente como igualmente incorrectos, lo que hace que la construcción de pares contrastivos sea ambigua.
Ceguera de Magnitud y Orden: La función de "bondad" (goodness) estándar de FF ( $g = \|h\|^2$ ) mide la magnitud de la activación para la discriminación binaria, pero no contiene información sobre la magnitud del objetivo ni el orden ordinal. Esto la hace inadecuada para supervisar predicciones de valores reales donde la distancia relativa entre los valores es importante.

Los intentos existentes para cerrar esta brecha han sido limitados: algunos han tratado la regresión como una clasificación binaria sobre bandas de tolerancia (manteniendo una alta carga computacional y precisión limitada), mientras que otros han reemplazado la función de bondad con derivadas direccionales (sacrificando precisión en favor de la implementabilidad en hardware). Ninguno ha demostrado un rendimiento competitivo en diversos conjuntos de datos de regresión del mundo real en comparación con la BP.

2. Metodología: Marco de Trabajo FFR

Los autores proponen FFR (Forward-Forward para Regresión), un marco que extiende FF a la regresión a través de tres innovaciones principales:

2.1 Función de Bondad Competitiva Ordinal

En lugar de la regresión directa de Error Cuadrático Medio (MSE) o pares contrastivos, FFR trata cada capa oculta como un clasificador ordinal.

Discretización: El rango de objetivos continuo $[y_{min}, y_{max}]$ se particiona en $K_\ell$ contenedores (bins) ordenados en la capa $\ell$ .
Grupos Competitivos: Las neuronas de una capa se particionan en grupos disjuntos $\{G_{\ell,1}, \dots, G_{\ell,K_\ell}\}$ , donde cada grupo corresponde a un contenedor específico.
Supervisión Ordinal: En lugar de utilizar etiquetas de un solo bit (one-hot) rígidas, FFR emplea una etiqueta suave sensible a la distancia. Se centra un bulto gaussiano en el objetivo real $y$ y se proyecta sobre los puntos medios de los contenedores. Esto crea una distribución de objetivos $q_{\ell,k}$ donde los contenedores cercanos reciben una masa de probabilidad mayor que los distantes.
Cálculo de la Bondad: La "bondad" de un grupo es la media de la activación al cuadrado de sus neuronas. Esta se normaliza en una distribución de probabilidad $p_{\ell,k}$ . La pérdida de la capa es la entropía cruzada entre la etiqueta suave $q$ y la distribución de bondad $p$ . Esto preserva la competencia local mientras codifica la estructura ordinal del objetivo.

2.2 Arquitectura de Escalera Estratificada

Para evitar el "colapso de representación" (donde todas las capas aprenden características gruesas idénticas) y permitir una regresión de grano fino:

Granularidad Estratificada: El número de grupos competitivos $K_\ell$ se duplica con cada capa ( $K_\ell = 2^{d_0 + \ell - 1}$ ). Las capas superficiales aprenden una discriminación ordinal gruesa (contenedores anchos), mientras que las capas más profundas refinan estas en particiones de grano fino.
Normalización por Grupo: Para evitar la fuga de activación entre grupos, la normalización se aplica dentro de cada grupo en lugar de a través de toda la capa.
Agregación de Escalera: Los valores de bondad (escalares) de todas las capas intermedias se concatenan y se alimentan a una cabeza de regresión lineal terminal. Esto permite la colaboración entre capas sin retropropagar gradientes a través de las capas intermedias, preservando la propiedad de actualización local de FF.

2.3 Predicción Jerárquica con Estimación de Incertidumbre

FFR aprovecha la naturaleza multiescala de la arquitectura de escalera para proporcionar predicciones robustas y estimaciones de incertidumbre "sin costo adicional":

Predicción de Conjunto (Ensemble): Cada capa intermedia $\ell$ produce una predicción continua $\mu_\ell$ basada en su distribución softmax sobre los puntos medios de los contenedores. La predicción final $\hat{y}$ es un conjunto ponderado de todas las salidas de las capas y la cabeza terminal.
Incertidumbre como un "Regalo Gratuito": La incertidumbre predictiva se calcula como la dispersión ponderada de las predicciones de las capas alrededor de la media del conjunto. Esto proporciona una métrica de confianza sin requerir Dropout de Monte Carlo o aproximaciones Bayesianas.

3. Contribuciones Clave

Primer Marco de Regresión FF en el Mundo Real: FFR es el primer marco que logra extender con éxito el aprendizaje Forward-Forward a tareas de regresión del mundo real, demostrando un rendimiento competitivo en diversos dominios, incluyendo IoT de hogar inteligente, sensores industriales, localización en interiores, salud de dispositivos vestibles y evaluación de la calidad de imagen.
Tres Innovaciones Técnicas:
- Una función de bondad competitiva ordinal que reemplaza los pares contrastivos con competencia intra-capa bajo supervisión ordinal sensible a la distancia.
- Una arquitectura de escalera estratificada que escala la granularidad ordinal con la profundidad y agrega características multiescala.
- Un mecanismo de predicción jerárquica que genera estimaciones robustas y cuantificación de la incertidumbre en una sola pasada hacia adelante.
Eficiencia y Rendimiento: FFR alcanza en promedio el 98.6% de la precisión de su equivalente entrenado con Backpropagation (BP-UR) en cinco comparativas del mundo real. Crucialmente, reduce la memoria de entrenamiento pico al 27% de BP en la profundidad 8 y al 8% en la profundidad 32, manteniendo el tiempo de entrenamiento por iteración aproximadamente al 72% de BP.

4. Resultados Experimentales

Los autores evaluaron FFR en:

Benchmarks Sintéticos: Sin-Cos, Exp-Trig-Poly, y variantes de objetivos múltiples (MT-A, MT-B).
Conjuntos de Datos del Mundo Real: Energía de electrodomésticos, Desgaste de herramientas de máquina, UJIIndoorLoc, BIDMC (salud de dispositivos vestibles) y KonIQ-10k (calidad de imagen).

Hallazgos Clave:

Precisión: FFR superó a todos los competidores libres de BP (incluyendo FF-MSE, FF-CLF, FF-CAR, FF-Zero, PEPITA y F3). En varios conjuntos de datos del mundo real (UJIIndoorLoc, BIDMC, Appliances), FFR incluso superó la línea base estándar de BP, lo que sugiere que el conjunto jerárquico añade una señal complementaria.
Escalado de Memoria: A diferencia de BP, donde el uso de memoria crece linealmente con la profundidad debido a las activaciones almacenadas, el uso de memoria de FFR permanece casi constante a medida que aumenta la profundidad porque las activaciones intermedias se descartan después de la actualización local.
Incertidumbre: Las visualizaciones mostraron que las bandas de incertidumbre predictiva se ensanchaban correctamente para muestras difíciles o atípicas, validando la utilidad de la estimación de incertidumbre de "regalo gratuito".

5. Significado y Reivindicaciones

El artículo afirma que FFR demuestra que un diseño cuidadoso del aprendizaje local puede rivalizar con la optimización global (BP) con una fracción del costo de entrenamiento. Al resolver el desajuste fundamental entre la naturaleza contrastiva de FF y el espacio de objetivos continuos de la regresión, FFR permite el despliegue de aprendizaje biológicamente plausible y eficiente en memoria en hardware con recursos limitados (por ejemplo, sensores IoT, controladores de borde, robótica) donde la BP es inviable debido a las restricciones de memoria y de bloqueo de actualizaciones.

Los autores reconocen limitaciones, señalando que las implementaciones actuales utilizan precisión de punto flotante estándar y aún no han sido validadas en aceleradores de baja precisión o hardware de computación analógica/física, dejando esto como trabajo futuro.

FFR: Forward-Forward Learning for Regression