Predictive Coding Networks and Inference Learning: Tutorial and Survey

Each language version is independently generated for its own context, not a direct translation.

Imaginez que votre cerveau est un chef cuisinier très occupé, et que le monde extérieur est une cuisine remplie d'ingrédients bruyants et chaotiques.

Ce papier de recherche est comme un manuel de cuisine qui explique une nouvelle façon de cuisiner, inspirée par la façon dont le cerveau humain fonctionne réellement. Les auteurs, Björn van Zwol, Ro Jefferson et Egon L. van den Broek, nous disent : « Arrêtons de copier bêtement les recettes des ordinateurs actuels et regardons comment la nature le fait. »

Voici l'explication de leur travail, simplifiée et imagée.

1. Le Problème : L'ordinateur qui "recule" vs Le cerveau qui "devine"

Aujourd'hui, la plupart des intelligences artificielles (comme celles qui génèrent des images ou parlent) sont entraînées avec une méthode appelée rétropropagation (Backpropagation).

L'analogie : Imaginez un élève qui fait un devoir. Il écrit sa réponse, la remet au prof, et le prof lui dit : « Tu as eu 20/20, mais il y a une erreur ici. » L'élève doit alors remonter toute sa feuille, ligne par ligne, pour corriger chaque mot en partant de la fin jusqu'au début. C'est lent, c'est séquentiel, et dans la vraie vie, le cerveau ne fonctionne pas comme ça.

Les auteurs proposent une alternative inspirée du cerveau : les Réseaux de Codage Prédictif (PCN).

L'analogie : Imaginez que votre cerveau est un chef qui a une idée de ce qu'il va cuisiner. Il dit : « Je vais faire une omelette ». Il envoie cette prédiction vers le bas (vers ses yeux et ses mains). Si ses yeux voient un œuf cassé, tout va bien. Mais s'ils voient un chat, le cerveau se dit : « Attends, il y a une erreur ! »
Au lieu de tout recalculer de la fin au début, le cerveau ajuste simplement ce qui est "faux" localement. Il dit : « Oh, ce n'est pas un œuf, c'est un chat. Je vais ajuster ma prédiction pour le chat. »
C'est comme si chaque étage d'un immeuble surveillait l'étage en dessous. Si l'étage du dessous ne correspond pas à ce que l'étage du dessus attendait, il envoie un petit message de correction (« erreur de prédiction ») vers le haut.

2. La Révolution : Apprendre en "Devant" (Prospective Configuration)

Le papier explique que cette méthode, appelée Apprentissage par Inférence (IL), a un super-pouvoir que les ordinateurs classiques n'ont pas : la configuration prospective.

L'analogie du répétiteur de théâtre :
- Avec la méthode classique (Backprop), les acteurs répètent leur texte, puis le metteur en scène vient dire : « Non, tu as dit la phrase trop vite. » Les acteurs doivent alors changer leur texte, puis répéter à nouveau.
- Avec la méthode du papier (IL), les acteurs changent leur jeu d'acteur avant même que le metteur en scène ne parle. Ils se disent : « Je sens que je vais rater ma réplique, alors je vais déjà ajuster mon ton et mes gestes pour être parfait avant que le public ne réagisse. »
- Le papier montre que cela permet au cerveau (et à l'IA) d'apprendre plus vite, de mieux s'adapter aux changements (comme apprendre à conduire sur la neige après avoir conduit sur du bitume) et de ne pas oublier ce qu'il a appris précédemment.

3. La Flexibilité : Un seul outil pour tout faire

L'un des points forts de ce papier est de montrer que ces réseaux sont très flexibles.

L'analogie du Lego : Les réseaux classiques sont comme des tours de Lego rigides. Si vous voulez faire un château, vous devez tout reconstruire.
Les réseaux de codage prédictif sont comme un kit de Lego universel.
- Si vous voulez classer des images (supervisé), vous arrangez les pièces d'une certaine façon (les prédictions vont du bas vers le haut).
- Si vous voulez créer de nouvelles images (génératif, comme Midjourney), vous inversez simplement le sens des prédictions (du haut vers le bas) et le réseau commence à "rêver" de nouvelles images.
- Le papier montre même qu'on peut utiliser cette méthode sur des structures totalement bizarres, pas seulement en lignes droites, mais en réseaux complexes (comme des graphes), ce qui ouvre la porte à des architectures d'IA que nous n'avions jamais osé imaginer.

4. Le Défi : La Vitesse et l'Énergie

Le papier admet un problème : jusqu'à récemment, cette méthode était plus lente à calculer pour les ordinateurs classiques.

L'analogie : C'est comme si vous aviez une voiture de sport (le cerveau) qui est très efficace en énergie, mais qui est bloquée dans un embouteillage sur une route à sens unique (les ordinateurs actuels).
La bonne nouvelle : Les auteurs montrent que si on utilise des ordinateurs capables de faire plusieurs choses en même temps (parallélisation), cette méthode devient plus rapide que les méthodes classiques, surtout pour les très grands réseaux. De plus, c'est beaucoup plus économe en énergie, ce qui est crucial pour le futur (notamment pour les puces neuromorphiques, qui sont des puces conçues pour imiter le cerveau).

En Résumé

Ce papier est une bible pour les ingénieurs qui veulent passer de l'IA "classique" (qui apprend par essais et erreurs lents) à une IA "biologique" (qui apprend par anticipation et ajustement local).

Il nous dit :

Arrêtez de corriger à l'envers (Backprop), commencez à prédire et ajuster (Predictive Coding).
C'est plus naturel, plus efficace énergétiquement et meilleur pour apprendre de nouvelles choses sans oublier les anciennes.
C'est mathématiquement plus puissant : c'est un "super-réseau" qui englobe tout ce qu'on sait faire aujourd'hui, mais avec des possibilités nouvelles (comme créer des images ou gérer des structures complexes).

C'est un pas de géant vers une Intelligence Artificielle qui ressemble enfin à un cerveau humain : économe, flexible et capable de "deviner" le monde avant même de le voir complètement.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article "Predictive Coding Networks and Inference Learning: Tutorial and Survey" de Björn van Zwol, Ro Jefferson et Egon L. van den Broek.

1. Problématique et Contexte

L'intelligence artificielle moderne repose principalement sur l'apprentissage profond (Deep Learning) entraîné par rétropropagation du gradient (Backpropagation - BP). Bien que performante, cette méthode présente des limites par rapport au cerveau biologique : elle est peu plausible d'un point de vue biologique (nécessite une propagation d'erreurs non locales et synchrone), énergivore et moins flexible pour l'apprentissage continu.

Le domaine du NeuroAI cherche à réintroduire des principes neuroscientifiques dans l'IA. L'un des cadres les plus prometteurs est le Codage Prédictif (Predictive Coding - PC), qui modélise le cerveau comme un modèle bayésien hiérarchique minimisant l'erreur de prédiction. Cependant, l'application du PC aux réseaux de neurones artificiels (PCN) a longtemps été négligée par la communauté ML en raison de sa complexité computationnelle et du manque de formalisation pédagogique claire.

Le problème central abordé par cet article est de combler le fossé entre la théorie neuroscientifique du codage prédictif et les méthodes modernes d'apprentissage automatique, en fournissant une spécification formelle complète des PCN et de leur algorithme d'apprentissage, l'Apprentissage par Inférence (Inference Learning - IL).

2. Méthodologie et Cadre Théorique

Les auteurs proposent une analyse structurée des PCN sous trois perspectives complémentaires, illustrées par la figure 3 du papier :

A. Les PCN comme Réseaux de Neurones Artificiels Généralisés (ANN)

Fonctionnement : Contrairement aux réseaux feedforward classiques où l'activation est calculée directement ( $a_l = f(w a_{l-1})$ ), les PCN utilisent une règle d'activité itérative. Chaque couche tente de prédire l'activité de la couche inférieure.
Énergie et Erreur : Le réseau minimise une fonction d'énergie $E$ définie comme la somme des carrés des erreurs de prédiction locales ( $\epsilon_l = a_l - \mu_l$ ).
Algorithme d'Inférence (IL) : L'apprentissage se déroule en deux phases :
1. Phase d'inférence : Les nœuds cachés ajustent leurs activations par descente de gradient locale pour minimiser l'énergie, étant donné les entrées (clamped) et les sorties (clamped).
2. Phase d'apprentissage : Les poids sont mis à jour en utilisant les activations optimisées (équilibrées) des nœuds voisins.
Avantage clé : Les mises à jour sont locales (dépendent uniquement des couches adjacentes), permettant une parallélisation massive, contrairement à la BP qui est séquentielle (propagation arrière).

B. Les PCN comme Modèles Probabilistes à Variables Latentes

Fondement Bayésien : Les PCN sont dérivés formellement de l'estimation de vraisemblance maximale dans des modèles hiérarchiques gaussiens.
Lien avec EM : L'algorithme IL est identifié comme une implémentation de l'algorithme Expectation-Maximization (EM) :
- L'étape E (Expectation) correspond à l'inférence des variables latentes (minimisation de l'énergie).
- L'étape M (Maximization) correspond à la mise à jour des paramètres (poids).
Modèles Génératifs vs Discriminatifs :
- Discriminatifs : La prédiction va des données vers les étiquettes (supervisé).
- Génératifs : La prédiction va des étiquettes (ou du prior) vers les données (non supervisé), permettant la génération de nouvelles données.

C. Extension aux Graphes de Codage Prédictif (PC Graphs)

Les auteurs généralisent la structure hiérarchique stricte vers des graphes arbitraires. En utilisant des matrices d'adjacence, on peut créer des réseaux non hiérarchiques, mimant la connectivité complexe du cerveau.
Cela fait des PCN un sur-ensemble mathématique des réseaux feedforward classiques, permettant d'étudier des architectures impossibles à entraîner avec la BP.

3. Contributions Clés

Spécification Formelle Complète : Le papier fournit une dérivation mathématique rigoureuse des équations d'activation et d'apprentissage, clarifiant les conventions de direction (prédictions vs erreurs) souvent sources de confusion dans la littérature.
Analyse de la Complexité et Parallélisation :
- L'article démontre que, bien que l'IL soit historiquement plus coûteux, une parallélisation suffisante permet de supprimer la dépendance linéaire à la profondeur du réseau ( $O(L)$ ).
- Avec une parallélisation, la complexité par mise à jour de poids devient $O(M)$ (où $M$ est la complexité de la multiplication matricielle), offrant un avantage potentiel sur la BP pour les réseaux très profonds.
Connexions avec l'État de l'Art :
- Lien avec l'Implicit SGD et les méthodes de Trust Region (région de confiance), expliquant la convergence plus rapide et la robustesse aux points de selle (saddle points).
- Comparaison avec les VAE (Variational Autoencoders) et les modèles de diffusion, positionnant les PCN comme des modèles génératifs puissants.
Bibliothèque Logicielle (PRECO) : Les auteurs fournissent une bibliothèque Python (basée sur PyTorch) implémentant les PCN et les PC Graphs pour faciliter l'expérimentation.

4. Résultats Empiriques et Théoriques

Performance sur petits jeux de données : Sur MNIST, Fashion-MNIST et CIFAR-10, l'IL atteint des précisions comparables à la BP (différences < 1%).
Avantages dans des tâches spécifiques : L'IL montre des gains significatifs (jusqu'à 20%) dans l'apprentissage continu (continual learning), l'apprentissage en ligne (batch size 1) et l'efficacité des données, grâce au mécanisme de configuration prospective (les changements d'activité précèdent les changements de poids, réduisant l'interférence catastrophique).
Problèmes d'échelle (Scaling) : Des travaux antérieurs montraient une dégradation des performances des PCN sur des architectures profondes (VGG, ResNet) par rapport à la BP. Cependant, l'article cite des travaux récents ([42]) montrant que l'utilisation d'initialisations de poids spécifiques (Depth- $\mu$ P) permet de rétablir des performances compétitives sur des réseaux de 100+ couches.
Limites : L'entraînement reste plus lent en temps réel que la BP optimisée sur GPU, principalement en raison de la phase d'inférence itérative nécessaire avant chaque mise à jour de poids. De plus, le choix de la fonction d'activation est critique (ReLU est sous-optimal, tanh ou Leaky ReLU sont préférés).

5. Signification et Impact

Cet article est une référence majeure pour le domaine émergent du NeuroAI.

Unification : Il unifie la vision du PC comme algorithme d'apprentissage (alternative à la BP) et comme modèle génératif probabiliste.
Plausibilité Biologique : Il offre une alternative crédible à la rétropropagation, respectant les contraintes de localité et de parallélisme du cerveau biologique.
Avenir du Hardware : La nature locale des calculs dans les PCN les rend particulièrement adaptés aux futurs hardware neuromorphiques, où la communication séquentielle de la BP est un goulot d'étranglement.
Nouvelles Architectures : En introduisant les "PC Graphs", le papier ouvre la voie à l'étude de topologies de réseaux non hiérarchiques, potentiellement capables de surpasser les limites des architectures feedforward actuelles.

En conclusion, ce tutorial démontre que les réseaux de codage prédictif ne sont pas seulement un concept théorique neuroscientifique, mais un cadre mathématique robuste et généralisable pour l'apprentissage automatique, capable de surmonter certaines limitations fondamentales de l'apprentissage profond actuel.