Trained Persistent Memory for Frozen Encoder--Decoder LLMs: Six Architectural Methods

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme robot hebt die alles kan begrijpen wat je zegt, maar die geen geheugen heeft. Zodra je met hem praat en de sessie stopt, vergeet hij alles. Vraag je hem de volgende dag: "Wat zei ik gisteren over mijn favoriete boek?", dan kijkt hij je leeg aan. Hij is als een goudvis: zijn geheugen duurt slechts enkele seconden.

Dit artikel, geschreven door Hong Jeong, probeert een oplossing voor dit probleem. De vraag is: Kunnen we deze robot een 'langdurig geheugen' geven zonder hem opnieuw te hoeven trainen?

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen.

1. Het Probleem: De Robot met Amnesie

De onderzoekers gebruiken een bestaande, zeer krachtige AI (een "Frozen Encoder-Decoder"). Deze AI is als een fotograaf die alleen foto's maakt, maar ze nooit bewaart. Na elke foto (elk gesprek) wordt de foto direct weggegooid.

Huidige oplossingen: Andere systemen schrijven alles op in een dagboek (tekst) en zoeken later in dat dagboek. Dit werkt, maar het is traag en onnauwkeurig.
De nieuwe aanpak: In plaats van een dagboek, willen de onderzoekers een geheugenbank bouwen die direct in het "brein" van de robot zit. Maar er is een probleem: het brein is al volledig opgebouwd en mag niet worden aangepast (het is "bevroren").

2. De Oplossing: Een Slimme "Post-it" Notitie

De onderzoekers zeggen: "We kunnen het brein niet veranderen, maar we kunnen wel een klein, slim bijvoegsel (een 'adapter') toevoegen."

Stel je voor dat de robot een grote, statische bibliotheek is (het bevroren brein). We kunnen de boeken in die bibliotheek niet herschrijven. Maar we kunnen wel een kleine, slimme bibliothecaris aanstellen die:

Luistert naar wat je zegt.
De belangrijkste informatie pakt en op een klein, digitaal notitieblok (de geheugenbank) schrijft.
Kijkt op dat notitieblok voordat de robot antwoordt, zodat hij weet wat je eerder zei.

Dit notitieblok is geen tekst, maar een reeks van getallen (latent space). Het is als een geheime code die de robot direct kan lezen, zonder dat hij hoeft te zoeken in een tekstbestand.

3. De Zes Manieren (De Architecturen)

De onderzoekers hebben zes verschillende manieren bedacht om deze bibliothecaris te laten werken. Het is alsof ze zes verschillende soorten post-it-notities hebben getest om te zien welke het beste werkt:

De "Voorvoegsel"-methode: Ze plakken de notities aan het begin van de vraag (als een extra hoofdstuk).
De "Parallelle Lezer": Ze laten de robot tegelijkertijd naar de vraag én naar de notities kijken via een extra kanaal.
De "Hebbiaanse Methode" (De Associatie): Dit werkt als een menselijk brein dat patronen herkent. Als twee dingen vaak samen voorkomen, worden ze in het geheugen aan elkaar gekoppeld (zoals "ijs" en "koud").
De "Slot-methode": Het geheugen is een kast met vaste vakjes. De robot vult alleen de vakjes die op dat moment nodig zijn, en verwijdert oude info als de kast vol is.

4. Wat Vonden Ze? (De Resultaten)

Ze hebben deze zes methoden getest op een robot met een klein geheugen (1x) en een groot geheugen (10x).

Het grote nieuws: Het werkt! Zelfs met een bevroren brein kan de robot leren dingen te onthouden.
Het verrassende detail: De grootte van het geheugen is cruciaal.
- Met een klein geheugen (1x) faalden drie van de zes methoden. Ze konden niets onthouden.
- Met een groot geheugen (10x) werkten alle zes methoden. De robot kon feiten onthouden die hij dagen eerder had gezegd.
De winnaars:
- Bij een klein geheugen waren de methoden die slim selecteren (zoals "kies alleen de belangrijkste info") het beste.
- Bij een groot geheugen deed de "Hebbiaanse" methode (associaties maken) het het beste.

5. Waarom is dit belangrijk? (Conversational Learning)

Dit is het mooiste deel: Conversational Learning (leren door te praten).
Stel je voor dat je vandaag tegen de robot zegt: "Mijn naam is Jan."

Vandaag: Hij onthoudt het.
Morgen: Je zegt niets over je naam.
Over een week: Je vraagt: "Wie ben ik?"
Resultaat: Omdat de robot zijn geheugenbank heeft bijgewerkt zonder dat hij opnieuw getraind hoefde te worden, weet hij nog steeds dat je Jan bent.

Het is alsof de robot elke dag een beetje wijzer wordt door met jou te praten, zonder dat je hem opnieuw hoeft te programmeren.

Samenvatting in één zin

Dit artikel bewijst dat we bestaande, "stomme" AI-modellen (die alles vergeten na een gesprek) kunnen uitrusten met een slim, digitaal notitieblok dat ze in staat stelt om feiten te onthouden en te leren van eerdere gesprekken, zolang we ze maar genoeg ruimte geven om die notities op te slaan.

Het is een eerste stap (een proefproject) die laat zien dat de toekomst van AI niet alleen gaat over grotere modellen, maar ook over slimme manieren om ze te laten onthouden.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Gefrorene encoder-decoder taalmodellen (zoals Flan-T5) zijn van nature toestandsloos (stateless). Na elke doorloop (forward pass) wordt de latente representatie ( $Z_t$ ) verworpen, waardoor het model geen geheugen heeft van eerdere sessies of conversatierondes. Bestaande oplossingen voor langetermijngeheugen (zoals MemGPT of MemoryBank) werken op tekstniveau: ze slaan natuurlijke taalfragmenten op in een externe database en gebruiken zoekopdrachten voor ophaalwerk. Dit artikel adresseert echter een fundamenteel ander probleem: het creëren van persistent geheugen binnen de continue latente ruimte van het gefrorene model zelf. Het doel is om een systeem te bouwen dat feiten kan onthouden en ophalen zonder de basisarchitectuur van het model te wijzigen en zonder de volledige conversatiegeschiedenis als context te hoeven invoeren.

Methodologie

De auteur presenteert een proof-of-concept studie waarbij een klein aantal trainbare adapters ( $\theta_{Mem}$ ) wordt toegevoegd aan een volledig gefrorene encoder-decoder backbone (Flan-T5-XL, 3B parameters). Het systeem voegt een persistent geheugenbank $P_t$ toe die over sessies heen blijft bestaan.

De architectuur volgt deze flow:

Encoder: De input $x_t$ wordt omgezet in een latente representatie $Z_t$ door de gefrorene encoder.
Schrijfoperatie (Write): Een trainbare adapter update de geheugenbank $P_t$ op basis van $Z_t$ .
Leesoperatie (Read): De adapter injecteert context uit $P_t$ in de decoder, zodat deze historische informatie kan gebruiken bij het genereren van het antwoord $\hat{y}_t$ .

Er worden zes architecturale methoden onderzocht, variërend langs drie dimensies:

Injectiepunt: Waar komt het geheugen de forward pass binnen? (Vóór de encoder, tussen encoder en decoder, of binnen de decoder).
Schrijfmechanisme: Hoe wordt informatie opgeslagen? (Aandacht-gekoppeld, Hebbiaanse buitenproduct, gated cross-attention, of sparse slot-adressering).
Leesmechanisme: Hoe wordt informatie opgehaald? (Gedelegeerd aan de gefrorene cross-attention of expliciet door de adapter).

De zes methoden zijn:

M.1 Prefix: Geheugen als "soft tokens" toegevoegd aan de encoder-input.
M.2 XAttn: Een parallelle cross-attention laag in de decoder die naar $P$ kijkt.
M.3 KV Extension: Geheugen geprojecteerd als extra Key-Value paren in de decoder.
M.4 Hebbian: Een associatief geheugenmatrix gebaseerd op een Hebbiaanse leerregel (outer product).
M.5 Gated: Een decoder-branch met een inhoudsafhankelijke poort (gate) die bepaalt wanneer geheugen wordt gebruikt.
M.6 Slot: Een vast aantal geheugenslots met sparse updates (top-k schrijven), geïnspireerd op Neural Turing Machines.

Trainingsfasen:

Type 1 (Supervised Learning): Alleen de adapter-parameters $\theta_{Mem}$ worden getraind via backpropagatie; de backbone blijft gefroren.
Type 2 (Conversational Learning): Tijdens inferentie wordt $\theta_{Mem}$ gefroren, maar de geheugenbank $P_t$ blijft accumuleren zonder gradiënten. Dit stelt het model in staat om "te leren" tijdens gesprekken.

Evaluatie en Resultaten

De evaluatie vindt plaats op het LoCoMo-dataset (langdurige conversatiegeheugen) met een specifieke vergetelheidscurve-methode. In plaats van absolute scores te meten, wordt de "headroom-normalized memory recall rate" berekend: hoeveel van de mogelijke verbetering (tussen een stateless baseline en het perfecte antwoord) wordt bereikt door het geheugen?

Belangrijkste bevindingen:

Capaciteit is cruciaal: Bij een kleine capaciteit (1x) zakken drie methoden (M.1, M.3, M.5) naar bijna nul, terwijl M.2 (XAttn) en M.6 (Slot) presteren. Bij een grotere capaciteit (10x) presteren alle zes methoden positief, waarbij M.4 (Hebbian) de beste langetermijnprestaties laat zien.
Prestaties:
- Bij lage capaciteit domineren M.2 XAttn en M.6 Slot.
- Bij hoge capaciteit leidt M.4 Hebbian op lange termijn (vergetelheidscurve), gevolgd door M.3 en M.6.
- De stateless baseline scoort exact 0% op alle vragen.
Kennisaccumulatie: De beste methoden tonen een stijgende "cumulative knowledge curve" over 30 sessies, wat aantoont dat het model feiten daadwerkelijk opbouwt en onthoudt zonder de contextvenster te hoeven vergroten.
Adapter Interferentie: De adapters veroorzaken slechts minimale interferentie met de oorspronkelijke kennis van het gefrorene model (lage "adapter tax"), vooral bij voldoende geheugencapaciteit.

Bijdragen

Latente Ruimte Persistentie: Het bewijs dat persistent geheugen volledig in de continue latente ruimte van een gefroren LLM kan worden geïmplementeerd, in tegenstelling tot tekstgebaseerde systemen.
Architecturale Taxonomie: Een implementatie en vergelijking van zes methoden die verschillende injectiepunten en schrijfmechanismen testen, wat een gestructureerd overzicht biedt van de ontwerpruimte.
Nieuwe Evaluatieprotocollen: Introductie van een "headroom-normalized forgetting curve" die de bijdrage van het geheugen isoleert van de basisprestaties van het model.
Feasibility Bewijs: Het aantonen dat zelfs onder extreme beperkingen (één gefroren model, één dataset, kleine adapters) niet-triviale geheugenherinnering mogelijk is.

Betekenis en Toekomstperspectief

De studie toont aan dat het mogelijk is om bestaande, gefrorene LLM's "conversational learning" te laten doen door een compact numeriek geheugenarray toe te voegen. Dit is schaalbaarder dan tekstgebaseerde systemen, omdat de inferentiekost onafhankelijk is van de grootte van het geheugen (zolang de latent space dimensie constant blijft).

De auteurs betogen dat dit een pilot is: de resultaten zouden aanzienlijk sterker zijn bij end-to-end training van grotere modellen (bijv. 70B+ parameters) met grotere datasets en veel grotere geheugenbanken. De huidige studie legt echter de basis (taxonomie, evaluatieprotocol en haalbaarheid) voor dergelijke industriële schaalvergroting. Het concept van "conversational learning", waarbij het model met elke interactie rijker wordt zonder hertraining van de kern, opent nieuwe wegen voor persoonlijke en adaptieve AI-systemen.

Trained Persistent Memory for Frozen Encoder--Decoder LLMs: Six Architectural Methods

1. Het Probleem: De Robot met Amnesie

2. De Oplossing: Een Slimme "Post-it" Notitie

3. De Zes Manieren (De Architecturen)

4. Wat Vonden Ze? (De Resultaten)

5. Waarom is dit belangrijk? (Conversational Learning)

Samenvatting in één zin

Probleemstelling

Methodologie

Evaluatie en Resultaten

Bijdragen

Betekenis en Toekomstperspectief

Meer zoals dit

Sparse Goodness: How Selective Measurement Transforms Forward-Forward Learning

The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

Adaptive Memory Crystallization for Autonomous AI Agent Learning in Dynamic Environments

Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation

Spectral Entropy Collapse as an Empirical Signature of Delayed Generalisation in Grokking