Predictive Coding Graphs are a Superset of Feedforward Neural Networks

Each language version is independently generated for its own context, not a direct translation.

Voorspellende Codes: De Superkrachtige Oude Broer van Neuronale Netwerken

Stel je voor dat je een enorme, ingewikkelde stad bouwt. In de wereld van kunstmatige intelligentie (AI) hebben we tot nu toe vooral gewerkt met Feedforward Neural Networks (FNNs). Dit zijn als strakke, rechte snelwegen: informatie stroomt alleen van punt A naar punt B, van de ingang (de ogen) naar de uitgang (de beslissing). Het werkt goed, maar het is een beetje stijf. Je kunt er geen afritten maken die teruglopen, en je kunt geen kruispunten hebben waar weg A en weg B elkaar kruisen.

Deze paper introduceert iets nieuws: Predictive Coding Graphs (PCGs). Om dit te begrijpen, gebruiken we een paar simpele vergelijkingen.

1. De "Rechte Weg" vs. De "Dynamische Stad"

De oude manier (FNN):
Stel je een fabriek voor waar producten op een lopende band gaan. Ze komen binnen, worden bewerkt door machine 1, dan machine 2, dan machine 3, en gaan eruit. Als er een fout in het product zit, moet je de hele fabriek stilleggen en terug naar de start om te kijken waar het misging (dit heet Backpropagation). Het is efficiënt, maar het is een eenrichtingsverkeer.

De nieuwe manier (PCG):
Nu stel je je een levendige stad voor met straten, steegjes, bruggen en zelfs wegen die teruglopen. In deze stad is iedereen een "voorspeller".

De bewoners (de neuronen) zeggen voortdurend: "Ik denk dat hier een auto komt."
Als er daadwerkelijk een auto komt, is alles goed.
Maar als er geen auto komt, of een vrachtwagen, dan is er een fout (een voorspellingsfout).
In plaats van de hele fabriek stil te leggen, roepen de bewoners luid: "Hé, ik had een auto verwacht, maar er kwam een vrachtwagen! Pas je verwachtingen aan!"

Deze "stad" (het PCG) kan elke vorm aannemen. Je kunt wegen maken die teruglopen, zijwegen die elkaar kruisen, of zelfs rondjes rijden. Het is een superset. Dat klinkt als wiskundetaal, maar het betekent simpelweg: Alles wat de oude rechte snelweg (FNN) kan, kan deze stad ook. Maar de stad kan ook veel meer dingen die de snelweg niet kan.

2. Het Grote Geheim: Ze zijn eigenlijk hetzelfde (als je kijkt naar het eindresultaat)

De schrijver, Björn van Zwol, heeft een belangrijk bewijs geleverd. Hij zegt:
"Wanneer je deze 'stad' gebruikt om een vraag te beantwoorden (bijvoorbeeld: 'Is dit een hond of een kat?'), dan doet hij precies hetzelfde als de oude 'rechte snelweg'."

Dit is als het bewijzen dat een sportauto en een vrachtwagen op de snelweg precies dezelfde snelheid kunnen halen als ze allebei vol gas geven. Ze zien er anders uit en hebben verschillende motoren, maar op het moment dat je aankomt, is het resultaat identiek.

Dit is belangrijk omdat het betekent dat de nieuwe "stad" net zo slim is als de oude "snelweg". Als de oude snelweg alles kan leren (wat wiskundig bewezen is), dan kan de nieuwe stad dat ook.

3. Waarom is dit zo cool? (De "Skip Connections")

In de moderne AI gebruiken we vaak "skip connections" (zoals in ResNets). Dat zijn als tunnels die een stuk van de weg overslaan, zodat informatie sneller door kan.

In de oude "rechte snelweg" (FNN) moet je deze tunnels handmatig inbouwen.
In de nieuwe "stad" (PCG) zijn deze tunnels natuurlijk onderdeel van het systeem.

De paper laat zien dat je in deze "stad" ook wegen kunt aanleggen die teruglopen (vanuit de uitgang naar de ingang) of zijwaarts lopen. De oude snelweg kan dit niet. De stad kan dit wel.

Stel je voor dat je een puzzel oplost.

De FNN kijkt alleen naar de stukjes voor zich.
De PCG kan ook kijken naar stukjes die hij al heeft gelegd, of zelfs naar stukjes die hij nog moet leggen, en zegt: "Hé, dit stukje past hier beter, laat me dat even aanpassen."

4. De Kosten: Meer tijd voor meer vrijheid

Er is een klein nadeel. Omdat de "stad" zo complex is en bewoners voortdurend met elkaar overleggen (voorspellingen aanpassen), duurt het iets langer om tot een antwoord te komen dan bij de simpele "rechte snelweg".

De snelweg is als een snelle trein: recht vooruit, geen omwegen.
De stad is als een fietsnetwerk: je kunt overal komen, maar je moet soms een omweg nemen en op een rood licht wachten.

De schrijver zegt echter: "Dat is niet erg!" Misschien is het langzamere denken tijdens het "oplossen" (inference) de moeite waard, omdat het systeem veel flexibeler is en misschien betere oplossingen vindt voor moeilijke problemen.

Samenvatting in één zin

Deze paper bewijst dat Predictive Coding Graphs de "super-versie" zijn van de standaard kunstmatige intelligentie: ze kunnen alles wat de oude modellen kunnen, maar ze zijn ook vrij genoeg om complexe, kringloop-achtige structuren aan te nemen die de oude modellen nooit zouden durven. Het is alsof we van een rechte snelweg zijn gegaan naar een volledig uitgerust, intelligent verkeersnetwerk.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Predictive Coding Graphs are a Superset of Feedforward Neural Networks" van Björn van Zwol, gepresenteerd in het Nederlands.

Titel: Predictive Coding Graphs zijn een Superset van Feedforward Neural Networks

Auteur: Björn van Zwol (Universiteit Utrecht)
Context: Workshop NeuroAI @ NeurIPS 2024

1. Probleemstelling

Predictive Coding Networks (PCNs) zijn een neurale architectuur die is geïnspireerd op het neurobiologische concept van 'predictive coding'. Ze worden gezien als een biologisch plausibel alternatief voor backpropagation (BP) en bieden voordelen zoals parallelisatie en probabilistische modellering. Recent zijn deze netwerken uitgebreid tot Predictive Coding Graphs (PCGs), die willekeurige topologieën (inclusief lussen en niet-hiërarchische structuren) toestaan.

Er bestaat echter een theoretische lacune in de machine learning-literatuur:

Het is niet formeel bewezen dat PCNs tijdens de inferentie (testfase) wiskundig equivalent zijn aan traditionele Feedforward Neural Networks (FNNs/MLPs).
De relatie tussen PCGs en PCNs/FNNs is onduidelijk. Hoewel eerder werd gesuggereerd dat PCGs een superset vormen, ontbrak een rigoureuze wiskundige onderbouwing van hoe deze structuren zich tot elkaar verhouden en of de Universele Benaderingsstelling (Universal Approximation Theorem - UAT) ook voor PCNs geldt.

2. Methodologie

De auteur hanteert een formele wiskundige benadering om de equivalentie en inclusie tussen deze netwerktypes te bewijzen. De analyse is gebaseerd op de definitie van energie-functies, activatieregels en leerregels.

Definitie van FNN: Een standaard feedforward netwerk gedefinieerd door een activatieregel $a^\ell_i = f(\sum w a)$ en een aparte leerregel (meestal backpropagation).
Definitie van PCN: Een netwerk gedefinieerd door een energie-functie $E_N = \sum (\epsilon)^2$ , waarbij $\epsilon$ de fout is tussen de werkelijke activatie en de voorspelling. De activatie en gewichten worden geoptimaliseerd om deze energie te minimaliseren (Inference Learning - IL).
Definitie van PCG: Een generalisatie van PCNs naar een graafstructuur met $N$ knopen en een energie-functie $E_G$ . De gewichtsmatrix is hier een volledige matrix die verbindingen tussen willekeurige knopen toestaat.

De kern van de methodologie bestaat uit twee bewijzen:

Theorema 1: Het bewijzen dat de activatieregel van een PCN tijdens de testfase identiek is aan die van een FNN.
Theorema 2: Het bewijzen dat een PCG met een specifieke blokmatrix-structuur van gewichten exact equivalent is aan een PCN, waardoor PCGs een superset van PCNs vormen.

3. Belangrijkste Bijdragen

A. Equivalentie van PCNs en FNNs tijdens Inferentie

De auteur bewijst dat tijdens de testfase (waarbij geen gewichtsupdates plaatsvinden, alleen activatie-optimalisatie), een PCN convergeert naar dezelfde berekeningen als een FNN.

Door de energie-functie $E_N$ te minimaliseren met betrekking tot de activaties, blijkt dat de fouttermen $\epsilon^\ell_i$ per laag naar nul moeten gaan.
Dit leidt tot de vergelijking $a^\ell_i = f(\sum w a)$ , wat exact de feedforward-activatieregel is.
Consequentie: Omdat FNNs bekend staan als universele functiebenaderaars (UAT), geldt dit nu ook formeel voor PCNs. Dit geeft een sterke theoretische onderbouwing voor het gebruik van PCNs in ML.

B. PCGs als Wiskundige Superset

Het tweede bewijs toont aan dat PCGs een superset zijn van PCNs.

Door de gewichtsmatrix van een PCG ( $\tilde{w}$ ) te construeren als een blokmatrix waarbij alleen de blokken die corresponderen met hiërarchische lagen (van laag $k$ naar $k+1$ ) niet-nul zijn, en alle andere blokken (terugkerende, laterale verbindingen) op nul worden gezet, wordt de energie-functie van de PCG ( $E_G$ ) identiek aan die van de PCN ( $E_N$ ), op een constante na.
Hieruit volgt dat PCNs een speciaal geval zijn van PCGs.
Uitbreiding: Als de blokmatrix andere patronen toestaat (zoals skip-connections, terugkerende verbindingen of laterale verbindingen), ontstaan er nieuwe architecturen die niet trainbaar zijn met standaard backpropagation.

4. Resultaten

Formele Equivalentie: Het is nu wiskundig bewezen dat PCNs tijdens inferentie exact dezelfde output genereren als FNNs.
Universaliteit: De Universele Benaderingsstelling (UAT) is van toepassing op PCNs.
Topologische Generalisatie: PCGs omvatten niet alleen hiërarchische netwerken, maar ook structuren met lussen en niet-hiërarchische verbindingen.
ResNets en Skip-Connections: De paper illustreert dat skip-connections (zoals in ResNets) natuurlijk voorkomen als specifieke blokken in de PCG-gewichtsmatrix. Dit suggereert dat ook andere verbindingen (terugwaarts, lateraal) potentieel waardevol kunnen zijn voor ML-taken.
Recurrentie: Er wordt een onderscheid gemaakt tussen recurrentie in "data-tijd" (zoals bij RNNs) en recurrentie in "inference-tijd" (zoals bij Hopfield-netwerken en PCGs).

5. Significantie en Implicaties

Theoretische Verankering: Dit werk positioneert Predictive Coding sterker binnen het moderne machine learning-landschap door de link met de gevestigde theorie van FNNs en de UAT te leggen.
Nieuwe Architecturen: Het feit dat PCGs een superset zijn, opent de deur voor het onderzoek naar nieuwe netwerktopologieën die buiten het bereik van backpropagation vallen. Dit kan leiden tot efficiëntere of biologisch plausibler netwerken.
Biologische Plausibiliteit vs. Prestaties: Hoewel PCGs computationeel duurder kunnen zijn in de testfase (vanwege iteratieve inferentie in plaats van directe feedforward), biedt de topologische flexibiliteit nieuwe mogelijkheden. De paper merkt op dat all-to-all verbonden PCGs al beter presteren dan andere niet-hiërarchische netwerken (zoals Boltzmann-machines) op MNIST.
Richting voor Toekomstig Onderzoek: De paper pleit voor meer theoretisch en wiskundig onderzoek naar PCNs, wat experimentele studies kan sturen. Het roept ook de vraag op of de "extra" verbindingen in PCGs (terugwaarts/lateraal) voordelen bieden die vergelijkbaar zijn met de voordelen van skip-connections in ResNets.

Conclusie:
De paper levert een fundamentele bijdrage door aan te tonen dat Predictive Coding Graphs een wiskundig bredere klasse vormen dan traditionele feedforward netwerken. Ze bevatten deze als een speciaal geval, maar bieden tegelijkertijd een raamwerk om complexe, niet-hiërarchische netwerktopologieën te bestuderen die potentieel superieur kunnen zijn aan standaard benaderingen.