Routing without Forgetting

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van het paper "Routing without Forgetting" in eenvoudig Nederlands, met behulp van creatieve vergelijkingen.

De Kern: Een Slimme Portier in plaats van een Volle Koffer

Stel je voor dat je een kunstgalerie bezoekt waar elke dag een nieuwe tentoonstelling opent. Je hebt één gids (het AI-model) die alle kunstwerken moet kunnen uitleggen.

Het oude probleem:
In de traditionele manier van werken (zoals bij veel huidige AI's), moet de gids elke nieuwe tentoonstelling apart leren. Hij pakt een nieuwe notitieblok (een "prompt" of "adapter") voor elke tentoonstelling. Het probleem is dat als er honderden tentoonstellingen zijn, de gids zijn hoofd volpropt met losse notitieblokken. Als er een nieuwe tentoonstelling komt, vergeet hij soms wat hij eerder leerde, of hij raakt in de war over welk blok hij nu moet gebruiken. Dit heet "vergeten" (forgetting).

De oplossing van dit paper (RwF):
De auteurs van dit paper zeggen: "Waarom moeten we nieuwe notitieblokken blijven toevoegen? Laten we de gids gewoon slimmer maken in het kiezen van wat hij al weet."

Ze introduceren een systeem genaamd Routing without Forgetting (RwF). In plaats van nieuwe blokken toe te voegen, geven ze de gids een slimme, dynamische portier in zijn hoofd.

Hoe werkt het? (De Analogie)

De Energie-Portier (Hopfield Networks):
Stel je voor dat de gids een enorme bibliotheek heeft met alle kennis die hij ooit heeft opgedaan. Wanneer een bezoeker (een nieuw plaatje) binnenkomt, rent de gids niet naar een specifiek notitieblok. In plaats daarvan roept hij een slimme portier (de "Hopfield Pooling" laag).

Deze portier kijkt naar het plaatje en zegt direct: "Ah, dit lijkt op die oude tentoonstelling van de impressionisten, maar met een vleugje moderne kunst. Ik haal direct de juiste kennis uit de bibliotheek en pas die aan op dit specifieke moment."

Dit gebeurt in één flits (één keer kijken naar het plaatje), zonder dat de gids eerst moet gaan studeren of oefenen.
Geen Herhaling nodig:
Bij gewone AI moet je vaak honderden keren naar hetzelfde plaatje kijken om het goed te leren. In de echte wereld (Online Learning) krijg je vaak maar één kans om een plaatje te zien voordat het weg is.

De RwF-portier is zo snel dat hij direct de juiste "route" vindt in de kennis van de AI, zelfs als hij het plaatje maar één keer ziet. Hij hoeft niet te wachten tot de gids langzaam is gaan studeren.
Vergeet niet, maar herorganiseer:
Het geheim is dat de AI niet probeert nieuwe kennis op te slaan, maar bestaande kennis dynamisch herschikt. Het is alsof je een kast hebt met kleding.
- Oude manier: Voor elke nieuwe dag (taak) koop je een nieuwe kast.
- RwF-methode: Je hebt één grote kast. De portier kijkt naar je outfit (het plaatje) en zegt direct: "Vandaag trek je die blauwe jas aan, maar pas de mouwen aan voor de regen." Je hoeft geen nieuwe kast te bouwen; je past de bestaande kleding direct aan.

Waarom is dit zo goed?

Het werkt in de stroom: In de echte wereld komen gegevens als een stroom (zoals een video die je in één keer ziet). RwF kan direct reageren op wat er nu gebeurt, zonder te wachten.
Het vergeet niet: Omdat de portier altijd kijkt naar de huidige situatie en de huidige kennis, raakt de AI niet in de war over wat hij eerder leerde. Hij blijft flexibel.
Efficiënt: Het kost heel weinig extra ruimte (slechts 2% meer "hersencapaciteit"), maar levert een enorme verbetering op in prestaties.

De Resultaten in het Kort

De auteurs hebben dit getest op moeilijke taken waar de AI steeds nieuwe soorten dieren of objecten moet leren herkennen.

Bij grote datasets (zoals ImageNet, met duizenden soorten) wint RwF ruimschoots van de beste bestaande methoden.
Bij weinig voorbeelden (als je maar 1 of 2 plaatjes ziet van een nieuw dier) blijft RwF veel beter presteren dan andere systemen, die dan vaak in paniek raken en vergeten wat ze wisten.
Bij veel taken: Als je 40 verschillende taken achter elkaar krijgt, blijft RwF stabiel, terwijl andere systemen langzaam vertragen en vergeten.

Conclusie

Kortom: Routing without Forgetting is een manier om AI's slimmer te maken in het kiezen van hun kennis, in plaats van ze dwingen om alles in hun hoofd te stampen. Het is alsof je een AI geeft die niet alleen weet wat er in de kast staat, maar ook precies weet welk kledingstuk hij direct moet aantrekken voor elke situatie, zonder ooit iets te hoeven vergeten.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Routing without Forgetting" (RwF) in het Nederlands.

Probleemstelling: Online Continual Learning (OCL) in Transformers

Het artikel adresseert de uitdagingen van Online Continual Learning (OCL) binnen Transformer-architecturen (zoals Vision Transformers of ViTs). In OCL arriveert data als een niet-stationaire stroom waarbij elk voorbeeld slechts één keer wordt waargenomen. Er is geen mogelijkheid om eerdere data op te slaan (replay buffers) of om meerdere trainingsepocheën te gebruiken.

Bestaande methoden voor parameter-efficiënte aanpassing (zoals prompts, adapters of LoRA-modules) hebben moeite met deze setting omdat ze vaak vertrouwen op:

Iteratieve gradiëntupdates: Ze hebben meerdere voorbeelden nodig om task-specifieke parameters geleidelijk te specialiseren.
Task-identificatie: Ze vereisen vaak expliciete informatie over welke taak er momenteel wordt uitgevoerd.
Statische toewijzing: Zodra een module is toegewezen aan een taak, is het lastig om deze dynamisch aan te passen bij nieuwe datastromen zonder "catastrophic forgetting" (vergeten van eerdere taken).

De kernproblematiek is dat deze methoden te traag reageren op veranderingen in de data-distributie omdat ze afhankelijk zijn van het convergeren van parameters over tijd, wat in een strikt online regime (één pass) niet haalbaar is.

Methodologie: Routing without Forgetting (RwF)

De auteurs herformuleren continual learning niet als een probleem van het opslaan of samenvoegen van task-specifieke modules, maar als een routing-probleem. Het doel is om voor elke invoer dynamisch het juiste representatieve deelruimte binnen de backbone te selecteren, zonder expliciete taak-ID's of iteratieve optimalisatie.

Kerncomponenten van de RwF-architectuur:

Energie-gebaseerde Associatieve Retrieval:
RwF introduceert lagen die zijn geïnspireerd op Modern Hopfield Networks. In plaats van task-specifieke prompts op te slaan, genereert het model dynamische prompts via associatieve retrieval over de token-embeddings op elk niveau van de transformer.
- De routing wordt berekend als de minimalisatie van een strikt convexe vrije-energie functionaal.
- Dit resulteert in een unieke evenwichtsverdeling die in gesloten vorm (closed-form) kan worden berekend via een softmax-operatie.
- Dit betekent dat de routingbeslissing analytisch wordt genomen tijdens de forward pass, onafhankelijk van gradiëntupdates.
Hopfield Pooling Layer:
De architectuur voegt een "HopfieldPooling"-laag toe aan de transformer-blokken (vooral in de vroege lagen).
- Deze laag voert een veel-naar-weinig (many-to-few) mapping uit: het comprimeert de lange reeks token-features ( $L$ ) naar een klein aantal routing-prompts ( $m \ll L$ ).
- De prompts worden berekend als een convexe combinatie van de huidige input-features, gewogen door hun gelijkenis met leerbare query-vectoren.
- Na verwerking door de self-attention worden de gegenereerde prompts verworpen; alleen de bijgewerkte backbone-tokens worden doorgegeven. Dit voorkomt dat task-specifieke states worden opgeslagen en zorgt ervoor dat de routing puur input-gedreven is.
Architecturale Gladheid (Smoothness):
Omdat de routingoperator continu en differentieerbaar is (samengesteld uit lineaire projecties en softmax), reageren de routinggewichten soepel op kleine verschuivingen in de input-features. Dit voorkomt abrupte veranderingen in de representatie bij distributiedrift, wat cruciaal is voor stabiliteit in OCL.
Parameter-efficiëntie:
RwF voegt slechts een klein aantal trainbare parameters toe (ongeveer 2,13% ten opzichte van de volledige ViT-backbone). De projectiematrices voor de routing worden niet getraind (ze blijven vast), wat zorgt voor een stabiele basis voor de gelijkenisruimte.

Belangrijkste Bijdragen

Nieuwe Formulering: Het herdefiniëren van continual learning in transformers als een dynamisch routing-probleem in plaats van een parameter-specialisatie-probleem.
Architecturale Innovatie: De introductie van energie-gebaseerde associatieve retrieval (Hopfield Pooling) direct binnen de transformer-backbone voor input-geconditioneerde routing.
Onafhankelijkheid van Optimisatie: Het ontkoppelen van de routing-snelheid van de gradiënt-optimisatie. Routing past zich direct aan bij nieuwe data, zelfs voordat parameters zijn geconvergeerd.
Geen Replay of Task-ID's: De methode werkt strikt online zonder replay buffers, zonder task-identificatie en zonder task-specifieke parameterreplicatie.

Resultaten

De auteurs evalueren RwF op drie class-incremental benchmarks: Split-CIFAR-100, Split-ImageNet-R, en Split-ImageNet-S.

Algemene Prestaties:
- Op de grote ImageNet-benchmarks (Split-ImageNet-R en S) presteert RwF aanzienlijk beter dan state-of-the-art prompt-gebaseerde methoden (zoals L2P, DualPrompt, CODA-Prompt) en LoRA-gebaseerde methoden (Online-LoRA, InfLoRA).
- Op Split-ImageNet-R bereikt RwF 74,09% gemiddelde nauwkeurigheid (tegenover ~60-66% voor de concurrenten).
- Op Split-ImageNet-S bereikt RwF 61,37% (tegenover ~42-56% voor concurrenten).
- Op Split-CIFAR-100 is RwF competitief (82,48%), hoewel methoden zoals EASE iets hoger scoren (84,81%). De auteurs verklaren dit doordat associatieve routing afhankelijk is van rijke feature-geometrie, wat minder uitgesproken is bij de lage resolutie van CIFAR.
Robuustheid in Few-Shot Regimes:
- Bij een drastische vermindering van trainingsdata (van 100% naar 20% per taak) degradeert RwF veel minder dan andere methoden. Terwijl methoden zoals InfLoRA instorten, behoudt RwF een hoge nauwkeurigheid (62,29% bij 20% data). Dit bevestigt dat de methode minder afhankelijk is van herhaalde gradiëntupdates voor stabiliteit.
Schalbaarheid:
- Bij een toenemend aantal taken (van 5 tot 40 taken) behoudt RwF zijn voorsprong, wat wijst op betere schaalbaarheid bij frequente distributieveranderingen.
Ablatie-studies:
- Het plaatsen van HopfieldPooling-lagen in de vroege blokken van de transformer levert de beste prestaties op. Dit suggereert dat interferentie het beste kan worden opgelost op het niveau van gedeelde, lagere representaties voordat deze doorstromen naar taak-specifieke diepere lagen.

Betekenis en Conclusie

"Routing without Forgetting" biedt een fundamenteel nieuw perspectief op continual learning. Het toont aan dat stabiliteit niet noodzakelijk moet worden bereikt door het beperken van gradiëntupdates of het gebruik van grote replay buffers, maar kan voortkomen uit architecturale mechanismen die de stroom van representaties soepel en continu herschikken.

Door routing te verankeren in een energie-gebaseerde, analytische berekening binnen de backbone, biedt RwF een robuuste oplossing voor het strikte online regime. Het bewijst dat het dynamisch heralloceren van representatieve deelruimten op basis van de huidige input-geometrie effectiever is dan het statisch toewijzen van parameters aan taken, vooral in scenario's met grote en semantisch diverse klassenruimtes.

Routing without Forgetting

De Kern: Een Slimme Portier in plaats van een Volle Koffer

Hoe werkt het? (De Analogie)

Waarom is dit zo goed?

De Resultaten in het Kort

Conclusie

Probleemstelling: Online Continual Learning (OCL) in Transformers

Methodologie: Routing without Forgetting (RwF)

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem