Context Channel Capacity: An Information-Theoretic Framework for Understanding Catastrophic Forgetting

Each language version is independently generated for its own context, not a direct translation.

🧠 Het Geheim van het Vergeten: Waarom sommige AI's alles vergeten en andere niet

Stel je voor dat je een student bent die elke week een nieuwe taal moet leren.

Student A probeert alles in één groot hoofd te onthouden. Als hij Frans leert, vergeten zijn hersenen vaak wat hij eerder over Duits en Italiaans wist. Dit noemen we catastrofaal vergeten.
Student B heeft een slim systeem: hij heeft een speciale "taal-switch" op zijn bureau. Als hij Frans moet spreken, schakelt hij om naar zijn "Frans-geheugen". Als hij Duits moet spreken, schakelt hij naar zijn "Duits-geheugen". Hij vergeten niets.

Dit paper van Ran Cheng (gedateerd 2026) legt uit waarom Student A faalt en Student B slaagt. Het antwoord ligt niet in hoe ze leren (de algoritmes), maar in hoe hun hoofd is gebouwd (de architectuur).

1. Het Probleem: De "Eén Hoofd"-Valstrik

De meeste AI's (zoals die met EWC of SI, bekende methoden) werken als Student A. Ze hebben één set van "gewichten" (hun kennis) die ze steeds blijven herschrijven.

De analogie: Stel je een whiteboard voor waarop je elke dag een nieuwe tekening maakt. Om ruimte te maken voor de nieuwe tekening, moet je de oude een beetje uitwissen. Hoe meer je tekent, hoe minder je van de oude tekeningen ziet.
Het paper zegt: Zolang je maar één whiteboard hebt en je moet steeds nieuwe dingen erop schrijven, is het wiskundig onmogelijk om alles perfect te onthouden. Je hersenen hebben simpelweg niet genoeg "ruimte" om alle oude en nieuwe informatie tegelijk vast te houden zonder dat het oude wegkwijnt.

2. De Oplossing: De "Context Kanaal" (Cctx)

De auteurs introduceren een nieuw concept: Context Channel Capacity (Cctx).

Wat is het? Stel je voor dat je een telefoon hebt met een speciale knop. Als je op de knop "Wiskunde" drukt, verandert je telefoon direct in een rekenmachine. Als je op "Muziek" drukt, wordt het een radio.
De Cctx: Dit is de "bandbreedte" van die knop. Hoeveel informatie kan die knop overbrengen om te zeggen: "Wees nu een rekenmachine!"?
De regel: Als die knop (het contextkanaal) sterk genoeg is om elke taak uniek te identificeren, vergeten de AI's niets. Als de knop ontbreekt of zwak is, vergeten ze alles.

3. De "Onmogelijke Driehoek"

Het paper toont aan dat je niet alles tegelijk kunt hebben. Je kunt niet:

Niets vergeten (perfect geheugen).
Online leren (leren terwijl je gaat, zonder oude data op te slaan).
Beperkt geheugen (een vaste, kleine hersenstructuur).

Je moet er één opgeven.

De meeste methoden (EWC, SI) proberen de "niets vergeten" en "beperkt geheugen" te combineren, maar falen omdat ze de "online" regel breken (ze proberen te veel te reguleren) of omdat hun architectuur simpelweg niet werkt.
HyperNetworks (de winnaars in dit paper) lossen dit op door de regels te veranderen. In plaats van één groot hoofd dat wordt herschreven, bouwen ze een fabriek. De fabriek (het hoofd) is altijd hetzelfde, maar de machine die het product maakt (de parameters) wordt elke keer opnieuw gebouwd op basis van een blauwdruk (de context).

4. Waarom sommige methoden mislukken (De "Valse Vrienden")

Het paper testte 8 verschillende methoden. Hier is wat ze ontdekten:

De "Regelgevers" (EWC, SI): Ze proberen het whiteboard te beschermen door bepaalde strepen niet aan te raken. Maar omdat er maar één whiteboard is, is het hopeloos. Het paper toont aan dat ze net zo slecht presteren als een AI die helemaal niet probeert te beschermen.
De "Herinnerings-kluis" (Experience Replay): Deze AI's kijken terug naar oude foto's. Dit werkt goed, maar het is "cheaten" omdat ze de oude data bewaren. Ze hebben geen echte "context-knop", maar ze hebben een externe geheugenbank.
De "CFlow" (De nep-held): Deze meth ziet er slim uit. Het heeft een context-knop, maar het werkt niet.
- De analogie: Het is alsof je een auto hebt met een versnellingspook, maar de motor is zo krachtig dat de auto gewoon doorrijdt ongeacht welke versnelling je kiest. De AI gebruikt de "context-knop" niet; hij onthoudt alles in zijn startpositie. Het paper noemt dit een "θ0-memorizer" (een machine die alleen de startstand onthoudt).
De "HyperNetwork" (De winnaar): Deze AI heeft een echte, onomkeerbare context-knop. Als je de knop "Taak 1" drukt, wordt er een nieuwe AI voor Taak 1 gebouwd. Als je "Taak 2" drukt, wordt er een nieuwe AI voor Taak 2 gebouwd. Ze interfereert nooit met elkaar.

5. De Grote Leerles: Architectuur > Algoritme

De belangrijkste boodschap van dit paper is: Het maakt niet uit hoe slim je leer-algoritme is; als de architectuur slecht is, faalt het.

Je kunt de beste wiskundige formules (algoritmes) gebruiken om te proberen het vergeten te stoppen, maar als de AI geen manier heeft om te zeggen "Ik ben nu bezig met Taak A, niet Taak B", zal hij altijd vergeten.
De oplossing: Bouw een systeem waar de "context-knop" (de manier waarop de AI weet welke taak hij doet) de enige manier is om de hersenen te beïnvloeden. Als die weg geblokkeerd is of te smal is, faalt het.

6. Praktische Toepassing: De "P5 Test"

De auteurs bedachten een simpele test om te zien of een AI echt slim is of alleen maar doet alsof:

De test: Geef de AI de verkeerde "context-knop". (Bijvoorbeeld: zeg "Duits" terwijl je Frans vraagt).
Het resultaat:
- Als de AI catastrofaal faalt (hij denkt dat hij Duits spreekt en maakt grappige fouten), is hij echt slim. Hij gebruikt de context.
- Als de AI net zo goed blijft presteren met de verkeerde knop, is hij dom. Hij gebruikt de context niet; hij vertrouwt alleen op zijn oude geheugen.

Conclusie in één zin

Om een AI te maken die nooit iets vergeet, moet je niet proberen haar hersenen beter te beschermen; je moet haar een slimme schakelaar geven die elke keer een compleet nieuwe, op maat gemaakte hersenstructuur bouwt voor de specifieke taak die ze moet doen.

Kortom: Architectuur bepaalt het lot. Zonder een sterke "context-kanaal" is vergeten onvermijdelijk.

Each language version is independently generated for its own context, not a direct translation.

Titel: Context Channel Capacity (Cctx): Een Informatietheoretisch Kader voor het Begrijpen van Catastrofaal Vergeten

1. Het Probleem: Catastrofaal Vergeten in Continue Lering

Catastrofaal vergeten (catastrophic forgetting) blijft een centraal, onopgelost probleem in het veld van Continue Lering (Continual Learning - CL). Wanneer een neurale netwerk sequentieel nieuwe taken leert, verliest het vaak abrupt de kennis van eerdere taken.

De Uitdaging: Er ontbreekt een verenigd, principieel kader dat verklaart waarom sommige architecturen catastrofaal vergeten terwijl andere dit niet doen. Bestaande methoden (zoals regularisatie, replay, of architecturale aanpassingen) tonen een enorme prestatievariatie (bijv. 18% vs. 98% nauwkeurigheid op Split-MNIST), maar de fundamentele oorzaak hiervan is onduidelijk.
De Kernvraag: Is het verschil te wijten aan complexere algoritmen of aan de onderliggende architectuur?

2. Methodologie en Theoretisch Kader

De auteurs introduceren Context Channel Capacity (Cctx), een nieuwe informatietheoretische grootheid die de relatie kwantificeert tussen een contextsignaal (die de taakidentiteit aangeeft) en de gegenereerde parameters van het model.

Belangrijkste Theoretische Concepten:

Definitie van Cctx: De maximale wederzijdse informatie $I(c; \theta(c))$ tussen het contextsignaal $c$ en de parameters $\theta$ die voor voorspelling worden gebruikt.
De Onmogelijkheidsdriehoek (Impossibility Triangle): De auteurs bewijzen dat voor sequentiële, op staat gebaseerde leerders (waarbij parameters worden bijgewerkt: $\theta_k = U(\theta_{k-1}, D_k)$ $θ_{k} = U (θ_{k - 1}, D_{k})$ ) drie eigenschappen niet gelijktijdig kunnen worden bereikt:
1. Nul vergeten (zero forgetting).
2. Online leren (causale beperking: alleen toegang tot huidige data en vorige staat).
3. Beperkte parameters (de parameteromvang groeit niet met het aantal taken).
- Conclusie: Zolang een model parameters als een "staat" behoudt die sequentieel wordt bijgewerkt, is vergeten onvermijdelijk als de capaciteit beperkt is.
De Cctx-Bound (Stelling 4): Er wordt een ondergrens voor vergeten afgeleid:
$Fgt(A, K) \geq \max\left(0, 1 - \frac{C_{ctx}(A)}{H(T)}\right) \cdot Fgt_{max}$
Waarbij $H(T)$ $H (T)$ de entropie van de taakidentiteit is.
- Als $C_{ctx} = 0$ (geen contextkanaal), is vergeten maximaal, ongeacht het algoritme.
- Als $C_{ctx} \geq H(T)$ , is nul vergeten theoretisch haalbaar.

Paradigma's van CL-methoden:
De auteurs classificeren methoden in drie categorieën op basis van hun informatieflow:

Staatbescherming (State Protection, $C_{ctx}=0$ ): Methoden zoals EWC, SI en NaiveSGD. Ze proberen de bestaande parameters te beschermen, maar hebben geen mechanisme om taakspecifieke parameters te genereren. Resultaat: Catastrofaal vergeten.
Staatstransformatie (State Transformation, $C_{ctx} \approx 0$ ): Methoden zoals CFlow (Neural ODE's). Hoewel ze een contextinput hebben, wordt deze vaak genegeerd door de optimizer omdat de bestaande staat ( $\theta_{k-1}$ ) een veel breder kanaal biedt. Resultaat: Ze lijken goed te presteren, maar het is eigenlijk "geheugen van de initiatie" ( $\theta_0$ ), geen echte contextafhankelijkheid.
Conditionele Regeneratie (Conditional Regeneration, $C_{ctx} \gg H(T)$ ): Methoden zoals HyperNetworks. Hier worden parameters opnieuw gegenereerd vanuit een contextsignaal ( $\theta_k = g(c_k)$ ). Er is geen sequentiële staat die wordt overschreven. Resultaat: Nul vergeten.

Diagnostisch Protocol: Wrong-Context Probing (P5)
Om te testen of een model daadwerkelijk context gebruikt, stellen de auteurs het P5-protocol voor:

Train het model op taak $k$ met context $c_k$ .
Test het model op taak $k$ met een verkeerde context $c_{k+1}$ .
Interpretatie: Een grote daling in nauwkeurigheid ( $\Delta P5 \ll 0$ ) betekent dat het model context gebruikt (hoge $C_{ctx}$ ). Geen daling ( $\Delta P5 \approx 0$ ) betekent dat het model de context negeert en afhankelijk is van de initiatie of een gedeelde staat.

3. Experimentele Validatie en Resultaten

De auteurs hebben hun theorie getest op Split-MNIST (5 sequentiële taken) met 8 verschillende CL-methoden, uitgevoerd in 1.130+ experimenten over 86 dagen.

Kernresultaten:

Perfecte Voorspelling: De gemeten $C_{ctx}$ $C_{c t x}$ (via P5) voorspelt het vergeten gedrag perfect.
- Methoden met $C_{ctx} = 0$ (NaiveSGD, EWC, SI, LwF, Experience Replay, CFlow) vertonen significant vergeten (6% tot 97%).
- Methoden met $C_{ctx} \approx 1$ (HyperNetworks) bereiken 0% vergeten en ~98.8% nauwkeurigheid.
De "CFlow Illusie": CFlow behaalde 92.4% nauwkeurigheid, wat leek op succes. Echter, P5-probing toonde aan dat $\Delta P5 = 0$ . Het model gebruikte de context niet; de prestaties kwamen volledig voort uit een meta-geleerde initiatie ( $\theta_0$ ). Dit bevestigt de "bypass"-theorie: de optimizer kiest het pad van de minste weerstand (de hoge-dimensionale staat) in plaats van het smalle contextkanaal.
Uitbreiding naar CIFAR-10: Op het moeilijkere Split-CIFAR-10 faalden batch-statistieken als contextsignaal (cosine-similarity > 0.995 tussen taken). De auteurs introduceerden een Gradient Context Encoder (gebruikmakend van gradients $\nabla_\theta L$ als context), wat de kloof met de "oracle" (ideale taak-ID) verkleinde van 23.3% naar slechts 0.7%.
Negatieve Resultaten: Het papier documenteert systematisch waarom 15+ andere onderzoeksrichtingen faalden (bijv. Hebbiaanse leerregels presteren niet beter dan willekeurige features in overgeparametriseerde settings; kolom-specialisatie is onmogelijk zonder expliciete symmetriebreking).

4. Belangrijkste Bijdragen

Context Channel Capacity (Cctx): Een nieuwe, verenigende maatstaf die verklaart waarom architecturale ontwerp belangrijker is dan het algoritme.
De Onmogelijkheidsdriehoek: Een formeel bewijs dat nul vergeten, online leren en beperkte parameters onverenigbaar zijn voor sequentiële staten, tenzij men overgaat naar conditionele regeneratie.
Wrong-Context Probing (P5): Een praktische, nieuwe evaluatiemethode om te diagnosticeren of een model context daadwerkelijk gebruikt of alleen de initiatie "uit het hoofd leert".
Systeematische Negatieve Resultaten: Een uitgebreide catalogus van mislukte benaderingen (zoals Hebbiaans leren en metabolische pruning) met wiskundige onderbouwing, wat de zoekruimte voor toekomstig onderzoek versmalt.

5. Betekenis en Conclusie

Het artikel verschuift het paradigma in Continue Lering van "Algoritme > Architectuur" naar "Architectuur > Algoritme".

Kernboodschap: Of een systeem vergeten, wordt niet bepaald door de complexiteit van de regularisatie (zoals Fisher-informatie of kennisdistillatie), maar door de architecturale topologie. Als er geen onbypassbaar kanaal is voor taakidentificerende informatie naar de parameters, is vergeten onvermijdelijk.
Design Principle: Om catastrofaal vergeten te voorkomen, moet de architectuur zorgen voor conditionele regeneratie van parameters ( $\theta = g(c)$ ) waarbij het contextkanaal de enige route is voor taakinformatie.
Toekomst: De auteurs pleiten voor het gebruik van P5 als standaardevaluatie en voor het uitbreiden van het kader naar taak-vrije CL en complexere benchmarks.

Samenvattend biedt dit papier een fundamentele, wiskundige verklaring voor een decennia lang probleem en levert het een blauwdruk voor het bouwen van CL-systemen die in staat zijn om echt te blijven leren zonder kennis te verliezen.