Recurrent Action Transformer with Memory

Deze paper introduceert RATE, een nieuw transformer-architectuur voor offline versterkingsleren die een recurrente geheugenmechanisme integreert om effectieve besluitvorming op lange termijn in deels waarneembare omgevingen mogelijk te maken, wat leidt tot aanzienlijke prestatieverbeteringen op geheugenintensieve taken zonder in te leveren op standaard benchmarks.

Egor Cherepanov, Alexey Staroverov, Alexey K. Kovalev, Aleksandr I. Panov

Gepubliceerd 2026-03-05
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een speler bent in een heel moeilijk computerspel. Je moet een doolhof doorlopen, maar er is een probleem: het spel is zo lang dat je niet alles in één keer kunt onthouden. Je moet een hint zien die je 100 stappen geleden kreeg, om nu de juiste afslag te nemen.

Dit is precies het probleem waar kunstmatige intelligentie (AI) vaak tegenaan loopt. De slimste modellen van vandaag, de zogenaamde Transformers (denk aan de technologie achter ChatGPT), zijn fantastisch in het begrijpen van lange zinnen of verhalen. Maar in een spel of een complexe taak worden ze snel "kortzichtig". Ze kunnen maar een beperkt stukje van het verleden onthouden. Zodra iets te lang geleden is gebeurd, is het voor hen alsof het nooit heeft bestaan.

De auteurs van dit paper hebben een oplossing bedacht: RATE (Recurrent Action Transformer with Memory). Laten we uitleggen hoe dit werkt met een paar simpele vergelijkingen.

1. Het probleem: De "Gouden Kooi"

Stel je een standaard Transformer voor als een student die een heel dik boek leest, maar die maar 10 pagina's tegelijk op zijn bureau kan hebben. Als hij pagina 100 moet raadplegen terwijl hij op pagina 10 zit, kan hij dat niet. Hij moet het hele boek opnieuw lezen (wat te lang duurt) of hij raakt de informatie kwijt. In een spel betekent dit: als de hint voor de afslag 500 stappen geleden was, vergeet de AI het en loopt hij de verkeerde kant op.

2. De oplossing: RATE en het "Magische Notitieblok"

RATE is als diezelfde student, maar dan met een magisch notitieblok (de "Memory") en een slimme poortwachter (de "Memory Retention Valve").

Hier is hoe RATE werkt, stap voor stap:

  • Deel het verhaal op: In plaats van het hele boek (het spel) in één keer te proberen te lezen, deelt RATE het verhaal op in kleine hoofdstukken (segmenten).
  • Het Magische Notitieblok: Aan het begin van elk hoofdstuk pakt RATE een notitieblok. Hierin schrijft hij de belangrijkste dingen op die hij tot nu toe heeft gezien.
    • Vergelijking: Stel je voor dat je door een lange gang loopt. Je ziet een rode pijl aan het begin. Je loopt 100 meter, draait om een hoek, en ziet nog steeds de rode pijl in je hoofd. Dat is het notitieblok.
  • De Poortwachter (MRV): Dit is het slimste onderdeel. Normaal gesproken zou je bij het schrijven van een nieuw hoofdstuk je oude notities kunnen overschrijven met nieuwe, onbelangrijke praatjes.
    • De Poortwachter kijkt echter kritisch: "Is dit nieuwe ding belangrijk? Of moeten we de oude rode pijl bewaren?"
    • Als het nieuwe ding niet belangrijk is, laat de poortwachter de oude, cruciale informatie (zoals de rode pijl) veilig in het notitieblok staan. Hij blokkeert het overschrijven. Dit heet in het paper de Memory Retention Valve.

3. Waarom is dit zo goed?

In de paper testen ze RATE op verschillende "doolhoven":

  • Het T-Maze: Een agent moet aan het begin een hint zien (links of rechts) en die onthouden tot hij aan het einde van een zeer lange gang is.
    • Resultaat: De oude modellen (zoals de standaard Transformer) vergeten de hint zodra hij uit beeld is. RATE onthoudt het perfect, zelfs als de gang 9.600 stappen lang is (veel langer dan wat andere modellen kunnen).
  • ViZDoom (Een 3D spel): Hier moet je onthouden welke kleur zuil je zag, om later de juiste munten te verzamelen.
    • Resultaat: RATE is veel consistenter en maakt minder fouten dan de concurrenten.

4. Is het alleen maar voor moeilijke spellen?

Nee! De auteurs laten zien dat RATE ook heel goed is in "normale" taken waar je geen lange termijn geheugen voor nodig hebt (zoals het spelen van Atari-spelletjes of het laten lopen van een robot).

  • Vergelijking: Het is alsof je een auto hebt met een superkrachtige navigatie voor lange reizen, maar die ook perfect werkt als je gewoon naar de supermarkt rijdt. Je hoeft de navigatie niet uit te schakelen; hij helpt gewoon mee zonder in de weg te zitten.

Samenvatting in één zin

RATE is een slimme AI-architectuur die lange verhalen (of spelrondes) opdeelt in stukjes, en gebruikmaakt van een slimme poortwachter om ervoor te zorgen dat de belangrijkste herinneringen uit het verleden nooit worden gewist, zelfs niet als het verhaal duizenden stappen lang is.

Dit maakt het mogelijk voor robots en AI-agenten om taken te volbrengen die veel tijd en geduld vereisen, zonder dat ze de draad kwijtraken.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →