Auteurs originaux : Xinyang Liu, Xuanyu Liang, Shiqi Ding, Boyang Li, Zhiqiang Que, Jiayang Li, Guosheng Hu

Publié 2026-06-03✓ Author reviewed ⓘ

📖 6 min de lecture🧠 Analyse approfondie

Auteurs originaux : Xinyang Liu, Xuanyu Liang, Shiqi Ding, Boyang Li, Zhiqiang Que, Jiayang Li, Guosheng Hu

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Imaginez que vous essayez d'apprendre à une équipe de travailleurs à prédire la température future dans une pièce.

L'ancienne méthode (Rétropropagation) :
Pendant des décennies, la méthode standard a été semblable à un manager strict et directif. Le manager regarde la prédiction finale, voit qu'elle est erronée, puis remonte tout le chemin à travers toute l'équipe, en expliquant à chaque travailleur individuellement comment il a contribué à l'erreur.

Le Problème : Cela exige que le manager se souvienne de tout ce que chaque travailleur a fait durant le processus (ce qui prend beaucoup de place mentale/mémoire). De plus, personne ne peut corriger son erreur tant que le manager n'a pas terminé son trajet de retour. C'est lent, gourmand en mémoire et biologiquement irréaliste (nos cerveaux ne fonctionnent pas ainsi).

La précédente "nouvelle" méthode (Forward-Forward) :
Il y a quelques années, une nouvelle méthode appelée « Forward-Forward » (FF) a été inventée. Au lieu d'un manager qui marche en arrière, elle utilise une approche « locale ». Chaque travailleur ne regarde que son voisin immédiat.

Comment cela fonctionnait : C'était excellent pour les questions de type « Oui/Non » (Classification). Le système montrait à un travailleur un exemple « bon » (un vrai chat) et un exemple « mauvais » (un chien aléatoire). Le travailleur apprenait à dire : « J'aime le chat, je n'aime pas le chien. »
Le Problème : Cela fonctionne parfaitement pour choisir un chat ou un chien, mais cela échoue lamentablement pour la prédiction de nombres (Régression), comme la température. On ne peut pas facilement dire si « 20°C est bon » ou « mauvais » si la cible est de 21°C. Qu'en est-il de 100°C ? L'ancienne méthode ne savait pas gérer la distance entre les nombres, seulement si quelque chose était « juste » ou « faux ».

La nouvelle solution : FFR (Forward-Forward pour la Régression)
Ce document présente FFR, un nouveau système qui parvient enfin à apprendre à cette méthode de « travailleur local » à gérer des nombres continus comme la température, la vitesse ou le prix. Voici comment ils ont procédé, grâce à trois astuces ingénieuses :

1. Le « Tir à la corde » au lieu du « Bon vs Mauvais »

Au lieu de montrer à un travailleur un exemple « bon » et un exemple « mauvais », le FFR divise les travailleurs en équipes.

L'Analogie : Imaginez que la température cible soit de 20°C. Les travailleurs sont divisés en groupes : le Groupe A est responsable de 10–15°C, le Groupe B de 15–20°C, le Groupe C de 20–25°C, et ainsi de suite.
L'Astuce : Le système ne se contente pas de dire « Le Groupe B a raison ». Il dit : « Le Groupe B est le vainqueur, mais le Groupe A et le Groupe C sont de proches dauphins, tandis que le Groupe Z (100°C) est un perdant total. »
Pourquoi cela aide : Cela apprend aux travailleurs non seulement quel groupe a raison, mais aussi à quel point ils sont proches de la bonne réponse. Le système comprend que 19°C est « plus proche » de 20°C que ne l'est 10°C. Cela remplace le vieux jeu du « Bon contre Mauvais » par une compétition de « Qui est le plus proche ? ».

2. L'« Échelle Stratifiée » (Du grossier au précis)

Le papier construit une structure d'échelle spéciale où les travailleurs deviennent plus précis à mesure qu'ils montent.

L'Analogie :
- Les échelons inférieurs (Couches peu profondes) : Ces travailleurs sont comme des dessinateurs de brouillon. Ils décident simplement si la température est « Froide », « Tiède » ou « Chaude ». Ils font une estimation grossière et large.
- Les échelons supérieurs (Couches profondes) : Ces travailleurs sont comme des artistes de précision. Ils prennent l'estimation « Tiède » venant d'en bas et la affinent pour arriver à « 20,5°C ».
La Collaboration : Le système ne jette pas les estimations grossières. Il les conserve toutes. Tout en haut, un « Coach Principal » (une couche finale) regarde les estimations grossières du bas et les estimations précises du haut, les mélange, et fait la prédiction finale. Cela garantit que le système ne reste pas bloqué sur une mauvaise estimation initiale.

3. Le « Repas Gratuit » (Incertitude)

Habituellement, pour savoir à quel point un ordinateur est confiant dans sa réponse, il faut lancer la simulation mille fois et voir comment les réponses varient. Cela prend un temps infini.

L'astuce du FFR : Comme le système possède des travailleurs à chaque niveau de l'échelle (du grossier au précis), il peut simplement leur demander : « Qu'en pensez-vous ? »
Le Résultat : Si les travailleurs « Grossiers » et les travailleurs « Précis » sont d'accord, le système est très confiant. S'ils se disputent, le système sait : « Hé, je ne suis pas sûr de celui-ci. »
Le Bénéfice : Le système vous donne une prédiction et un score de confiance instantanément, sans aucun travail supplémentaire. C'est un « repas gratuit ».

Qu'ont-ils prouvé ?

Les auteurs ont testé cela sur des problèmes du monde réel tels que :

La prédiction de la consommation d'énergie dans les maisons intelligentes.
La prédiction du moment où les outils de machine tomberont en panne dans les usines.
La prédiction de la localisation intérieure (sans GPS).
La prédiction de paramètres de santé à partir de capteurs portables (wearables).
L'évaluation de la qualité d'image.

Les Résultats :

Précision : Le FFR a atteint environ 98,6 % de la précision de l'ancienne méthode lourde de « Rétropropagation ».
Mémoire : Il n'a utilisé que 27 % de la mémoire à des profondeurs modérées et 8 % à des niveaux très profonds. (Imaginez porter un sac à dos qui garde la même taille quel que que soit le nombre de livres que vous ajoutez, alors que l'ancien sac devenait infiniment lourd).
Vitesse : Il s'est entraîné environ 28 % plus vite par étape car il n'avait pas besoin d'attendre la « marche arrière ».

En résumé :
Le FFR prend une méthode qui n'était auparavant capable de gérer que des décisions simples de type « Oui/Non » et la met à niveau pour gérer des prédictions de nombres complexes. Il y parvient en transformant le processus d'apprentissage en une compétition de « l'estimation la plus proche », en construant une échelle de travailleurs allant du grossier au précis, et en obtenant un score de confiance gratuitement. Il prouve que l'on peut construire une IA intelligente et efficace sans avoir besoin de la lourde « marche arrière » gourmande en mémoire qui domine le domaine depuis des décennies.

Résumé Technique : FFR (Forward-Forward pour la Régression)

1. Énoncé du Problème

L'algorithme Forward-Forward (FF), proposé par Hinton et al., offre une alternative biologiquement plausible et efficace en termes de mémoire à la rétropropagation (Backpropagation - BP) en entraînant les réseaux de neurones via une optimisation purement locale et par couche, utilisant deux passages vers l'avant (données positives et négatives). Cependant, FF est intrinsèquement conçu pour les tâches de classification, s'appuyant sur des paires contrastives d'échantillons « authentiques » (positifs) et « fallacieux » (négatifs). L'extension de FF à la régression en conditions réelles présente deux défis fondamentaux :

Absence de Négatifs Naturels : Dans les espaces de cibles continues, il n'existe pas de définition naturelle d'un échantillon « négatif ». Contrairement à la classification, où une étiquette incorrecte aléatoire suffit, les valeurs continues (par exemple, $y+0,1$ vs $y+100$ ) ne peuvent pas être catégorisées de manière triviale comme étant également incorrectes, ce qui rend la construction de paires contrastives ambiguë.
Aveuglement à la Magnitude et à l'Ordre : La fonction de « bonté » (goodness) standard de FF ( $g = \|h\|^2$ ) mesure la magnitude d'activation pour la discrimination binaire, mais ne porte aucune information sur la magnitude de la cible ou l'ordre ordinal. Cela la rend inappropriée pour superviser des prédictions de valeurs réelles où la distance relative entre les valeurs importe.

Les tentatives existantes pour combler cette lacune ont été limitées : certaines présentent la régression comme une classification binaire sur des bandes de tolérance (conservant une charge de calcul élevée et une précision limitée), tandis que d'autres remplacent la fonction de bonté par des dérivées directionnelles (sacrifiant la précision au profit de l'implémentabilité matérielle). Aucune n'a démontré de performances compétitives sur divers jeux de données de régression du monde réel par rapport à la BP.

2. Méthodologie : Cadre FFR

Les auteurs proposent le FFR (Forward-Forward pour la Régression), un cadre qui étend FF à la régression grâce à trois innovations centrales :

2.1 Fonction de Bonté Compétitive Ordinale

Au lieu d'une régression MSE (Erreur Quadratique Moyenne) directe ou de paires contrastives, FFR traite chaque couche cachée comme un classificateur ordinal.

Discrétisation : La plage de cible continue $[y_{min}, y_{max}]$ est partitionnée en $K_\ell$ bacs (bins) ordonnés à la couche $\ell$ .
Groupes Compétitifs : Les neurones d'une couche sont partitionnés en groupes disjoints $\{G_{\ell,1}, \dots, G_{\ell,K_\ell}\}$ , où chaque groupe correspond à un bac spécifique.
Supervision Ordinale : Plutôt que d'utiliser des étiquettes "one-hot" strictes, FFR emploie une étiquette douce sensible à la distance. Un dôme gaussien est centré sur la cible réelle $y$ et projeté sur les milieux des bacs. Cela crée une distribution cible $q_{\ell,k}$ où les bacs proches reçoivent une masse de probabilité plus élevée que les bacs éloignés.
Calcul de la Bonté : La « bonté » d'un groupe est la moyenne de la carrée des activations de ses neurones. Elle est normalisée en une distribution de probabilité $p_{\ell,k}$ . La perte de la couche est l'entropie croisée entre l'étiquette douce $q$ et la distribution de bonté $p$ . Cela préserve la compétition locale tout en encodant la structure ordinale de la cible.

2.2 Architecture d'Échelleur Stratifié (Stratified Ladder)

Pour éviter l'« effondrement de représentation » (où toutes les couches apprennent des caractéristiques grossières identiques) et permettre une régression fine :

Granularité Stratifiée : Le nombre de groupes compétitifs $K_\ell$ double à chaque couche ( $K_\ell = 2^{d_0 + \ell - 1}$ ). Les couches peu profondes apprennent une discrimination ordinale grossière (bacs larges), tandis que les couches plus profondes affinent ces partitions de manière plus précise.
Normalisation par Groupe : Pour empêcher la fuite d'activation entre les groupes, la normalisation est appliquée au sein de chaque groupe plutôt qu'à travers toute la couche.
Agrégation par Échelle : Les valeurs de bonté (scalaires) de toutes les couches intermédiaires sont concaténées et injectées dans une tête de régression linéaire terminale. Cela permet une collaboration inter-couches sans rétropropager les gradients à travers les couches intermédiaires, préservant ainsi la propriété de mise à jour locale de FF.

2.3 Prédiction Hiérarchique avec Estimation de l'Incertitude

FFR tire parti de la nature multi-échelle de l'architecture en échelle pour fournir des prédictions robustes et des estimations d'incertitude « gratuitement » :

Prédiction d'Ensemble : Chaque couche intermédiaire $\ell$ produit une prédiction continue $\mu_\ell$ basée sur sa distribution softmax sur les milieux des bacs. La prédiction finale $\hat{y}$ est un ensemble pondéré de toutes les sorties de couches et de la tête terminale.
Incertitude comme un Cadeau Gratuit : L'incertitude prédictive est calculée comme la dispersion pondérée des prédictions par couche autour de la moyenne de l'ensemble. Cela fournit une métrique de confiance sans nécessiter de Dropout de Monte Carlo ou d'approximations bayésiennes.

3. Contributions Clés

Premier Cadre de Régression FF Réel : FFR est le premier cadre qui étend avec succès l'apprentissage Forward-Forward à des tâches de régression du monde réel, démontrant des performances compétitives à travers divers domaines incluant l'IoT domestique intelligent, la détection industrielle, la localisation intérieure, la santé connectée et l'évaluation de la qualité d'image.
Trois Innovations Techniques :
- Une fonction de bonté compétitive ordinale qui remplace les paires contrastives par une compétition intra-couche sous une supervision ordinale sensible à la distance.
- Une architecture d'échelleur stratifié qui module la granularité ordinale avec la profondeur et agrège les caractéristiques multi-échelles.
- Un mécanisme de prédiction hiérarchique qui produit des estimations robustes et une quantification de l'incertitude en un seul passage vers l'avant.
Efficacité et Performance : FFR atteint en moyenne 98,6 % de la précision d'un équivalent entraîné par rétropropagation (BP-UR) sur cinq benchmarks du monde réel. Crucialement, il réduit la mémoire de pointe d'entraînement à 27 % de la BP à la profondeur 8 et à 8 % à la profondeur 32, tout en maintenant le temps d'entraînement par itération à environ 72 % de celui de la BP.

4. Résultats Expérimentaux

Les auteurs ont évalué FFR sur :

Benchmarks Synthétiques : Sin-Cos, Exp-Trig-Poly, et variantes multi-cibles (MT-A, MT-B).
Jeux de Données Réels : Énergie des appareils (Appliances Energy), Usure des outils de machine (Machine Tool Wear), UJIIndoorLoc, BIDMC (santé connectée), et KonIQ-10k (qualité d'image).

Principales Conclusions :

Précision : FFR a surpassé tous les concurrents sans BP (incluant FF-MSE, FF-CLF, FF-CAR, FF-Zero, PEPITA et F3). Sur plusieurs jeux de données réels (UJIIndoorLoc, BIDMC, Appliances), FFR a même surpassé la ligne de base standard de la BP, suggérant que l'ensemble hiérarchique ajoute un signal complémentaire.
Échelle de Mémoire : Contra에게 la BP, où l'utilisation de la mémoire augmente linéairement avec la profondeur en raison des activations stockées, l'utilisation de la mémoire de FFR reste presque constante à mesure que la profondeur augmente car les activations intermédiaires sont jetées après la mise à jour locale.
Incertitude : Les visualisations ont montré que les bandes d'incertitude prédictive s'élargissaient correctement pour les échantillons difficiles ou atypiques, validant l'utilité de l'estimation de l'incertitude « cadeau gratuit ».

5. Signification et Revendications

L'article affirme que FFR démontre qu'un apprentissage local soigneusement conçu peut rivaliser avec l'optimisation globale (BP) pour une fraction du coût d'entraînement. En résolvant le décalage fondamental entre la nature contrastive de FF et l'espace de cible continu de la régression, FFR permet le déploiement d'un apprentissage biologiquement plausible et efficace en mémoire sur du matériel aux ressources limitées (ex: capteurs IoT, contrôleurs de bord, robotique) là où la BP est irréalisable en raison des contraintes de mémoire et de verrouillage des mises à jour.

Les auteurs reconnaissent des limites, notant que les implémentations actuelles utilisent une précision de virgule flottante standard et n'ont pas encore été validées sur des accélérateurs à faible bit ou du matériel analogique/physique, laissant cela comme un travail futur.

FFR: Forward-Forward Learning for Regression