TempoFit: Plug-and-Play Layer-Wise Temporal KV Memory for Long-Horizon Vision-Language-Action Manipulation

Each language version is independently generated for its own context, not a direct translation.

TempoFit: De "Geheugen-Upgrade" voor Robotjes die Vergeten zijn

Stel je voor dat je een zeer slimme robot hebt die is opgeleid om taken in een keuken te doen, zoals een kom in een lade zetten of soep op het fornuis zetten. Deze robot is getraind met enorme hoeveelheden data en kan op basis van één foto en een instructie ("zet de kom weg") direct de juiste beweging maken.

Maar er is een groot probleem: deze robot heeft geen kortetermijngeheugen.

Het Probleem: De Goudvis in de Keuken

Stel je voor dat je de robot vraagt om twee potten op het fornuis te zetten.

De robot pakt pot A en zet hem neer.
Dan kijkt hij naar de camera voor de volgende stap. Omdat hij geen geheugen heeft, "vergeet" hij dat hij net pot A heeft neergezet. Hij ziet alleen de huidige foto.
Als er nu iets in de weg staat of als de camera even wazig is, denkt de robot: "Oh, ik heb nog niets gedaan!" en hij probeert pot A opnieuw te pakken, of hij raakt in de war en doet de verkeerde stap.

Dit heet in de vaktaal "geen geheugen hebben" (memoryless). Het werkt prima voor simpele taken, maar faalt bij langere reeksen stappen, vooral als er dingen worden verduisterd (occlusie) of als veranderingen heel subtiel zijn.

De Oude Oplossing: De "Foto-Stapel"

Vroeger probeerden mensen dit op te lossen door de robot meer foto's te geven. In plaats van één foto, gaf je hem een stapel van 4 of 8 foto's van de laatste paar seconden.

Het nadeel: Dit is als proberen te lezen door een stapel kranten op elkaar te leggen. De robot moet nu al die extra beelden verwerken. Dat maakt hem traag (hij moet meer rekenen) en hij raakt in de war door de herhaling (bijna dezelfde pixels). Het is alsof je een auto rijdt door door een raam te kijken dat vol zit met stickers; je ziet wel de weg, maar het is rommelig en traag.

De Nieuwe Oplossing: TempoFit

De auteurs van dit papier hebben TempoFit bedacht. Dit is een slimme, gratis upgrade (geen nieuwe training nodig!) die de robot van een geheugen voorziet zonder hem te vertragen of zijn brein te herschrijven.

Hier is hoe het werkt, met een paar creatieve vergelijkingen:

1. Het Geheugen is al daar (De "K/V Cache")

Elke moderne AI heeft een soort "werkgeheugen" (in de techniek: Key/Value cache) dat hij gebruikt om te begrijpen wat hij net heeft gezien. Normaal gesproken wordt dit werkgeheugen na elke stap gewist, alsof je een whiteboard na elke zin afveegt.

TempoFit's truc: We stoppen het wissen niet, maar we bewaren een kopie van dit werkgeheugen op een paar specifieke plekken in het brein van de robot.
Vergelijking: In plaats van een nieuwe notitieblok te kopen (wat duur en groot is), gebruiken we een klein post-itje dat we aan de rand van het bestaande whiteboard plakken. We hoeven de robot niet te leren hoe hij moet schrijven; hij doet dat al. We gebruiken alleen wat hij al heeft.

2. Slim zoeken, niet blindelings kijken (K-to-K Retrieval)

Als de robot een nieuwe stap moet doen, kijkt hij niet naar alle oude foto's. Hij kijkt naar zijn eigen werkgeheugen van nu en vraagt zich af: "Welk stukje van mijn verleden lijkt het meest op wat ik nu zie?"

Vergelijking: Stel je voor dat je in een bibliotheek bent. In plaats van elke boekplank te doorzoeken (wat lang duurt), zoek je op een specifiek trefwoord dat je nu in gedachten hebt. TempoFit doet precies dat: het zoekt in het verleden naar de juiste herinnering die nu relevant is.

3. De "Nieuwheid-Regel" (Frame-Gap Temporal Bias)

Een groot probleem bij geheugen is dat je soms vastzit aan oude herinneringen die niet meer relevant zijn. Als je 10 seconden geleden een deur zag, is dat misschien niet meer belangrijk als je nu in een andere kamer bent.

TempoFit's truc: Het systeem heeft een vaste regel: "Hoe ouder de herinnering, hoe minder belangrijk hij is."
Vergelijking: Het is alsof je een radio hebt waarbij het geluid van 10 minuten geleden automatisch zachter wordt naarmate het ouder is. Dit zorgt ervoor dat de robot zich vooral richt op wat er nu gebeurt, maar wel een zachte hint krijgt van wat er net voorbij is. Dit heet "Frame-Gap Temporal Bias".

4. De "Zachte Injectie" (Norm-Preserving Residual Loading)

Uiteindelijk moet de robot de oude herinnering gebruiken om zijn huidige beslissing te nemen. Maar als je te hard duwt, verandert het hele brein van de robot en gaat hij gek doen.

TempoFit's truc: Ze voegen de herinnering heel voorzichtig toe, alsof je een beetje zout toevoegt aan een soep zonder de hoeveelheid soep te veranderen. De "smaak" (de beslissing) verandert, maar de "kom" (de structuur van de robot) blijft precies hetzelfde.
Resultaat: De robot blijft snel en stabiel, maar wordt plotseling veel slimmer in lange reeksen.

Wat levert dit op?

De tests tonen aan dat TempoFit wonderen doet:

Sneller: De robot is bijna even snel als zonder geheugen (in tegenstelling tot de "foto-stapel" methode die hem traag maakt).
Slimmer: Op moeilijke taken (zoals het CALVIN-benchmark of echte robottests) stijgt het succespercentage aanzienlijk. De robot maakt minder fouten door verwarring en herhaalt minder vaak dezelfde beweging.
Plug-and-Play: Je hoeft de robot niet opnieuw te trainen. Je plakt deze "geheugen-module" er gewoon op en hij werkt direct.

Kortom: TempoFit maakt van een robot met een goudvisgeheugen een robot met een goed kortetermijngeheugen, zonder dat je hem hoeft te herscholen of vertragen. Het is als het geven van een bril aan iemand die al heel slim is, maar soms even vergeten is waar hij was.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "TempoFit: Plug-and-Play Layer-Wise Temporal KV Memory for Long-Horizon Vision-Language-Action Manipulation" in het Nederlands.

Probleemstelling

Pre-getrainde Vision-Language-Action (VLA) modellen hebben indrukwekkende resultaten geboekt bij robotmanipulatie, maar hun inferentie is over het algemeen geheugenloos (memoryless). Ze volgen een paradigma waarbij ze op elk tijdstip alleen de huidige observatie en instructie coderen om de volgende actie te voorspellen. Dit impliceert een Markoviaanse aanname, wat in de praktijk vaak niet opgaat voor langdurige taken (long-horizon tasks).

In realistische scenario's met:

Occlusie (objecten die tijdelijk uit beeld verdwijnen),
Staat-aliasing (verschillende situaties die er visueel hetzelfde uitzien),
Subtiele veranderingen na een actie,

falen deze modellen vaak door herhaling van acties, het missen van stappen of discontinuïteiten tussen verschillende fasen van een taak.

Bestaande oplossingen hebben twee grote nadelen:

Frame-stacking: Het stapelen van meerdere frames als input vergroot het aantal visuele tokens, wat leidt tot hoge latentie en redundantie (bijna-dubbele pixels).
Gestudeerde interfaces: Het toevoegen van externe geheugenmodules vereist vaak (her-)training, wat de plug-and-play aard van sterke, voorgeprogrammeerde VLA-modellen vernietigt.

Er is een duidelijke behoefte aan een methode die temporeel bewustzijn toevoegt zonder de input-context te vergroten, zonder trainbare modules toe te voegen en zonder het model opnieuw te trainen.

Methodologie: TempoFit

TempoFit is een trainingsvrije (training-free) "retrofit"-module die bestaande, bevroren VLA-modellen upgrade naar een geheugenbewust systeem. De kernidee is het hergebruiken van de interne Key/Value (K/V) attention states van het model als een model-native, inhoudsgeadresseerbaar geheugen.

De werking van TempoFit bestaat uit drie hoofdstappen:

1. Layer-Wise FIFO KV Cache (Schrijven)

In plaats van ruwe frames op te slaan, cacheert TempoFit de prefix K/V-projecties (de keys en values die gegenereerd worden tijdens het coderen van visuele en taalkundige input) op een geselecteerde subset van intermediate lagen van de Transformer.

Selectie: Alleen een klein aantal tussenliggende lagen wordt gebruikt. Diepere lagen zijn vaak te gespecialiseerd op de pre-training taak, terwijl lagere lagen te weinig semantische informatie bevatten. Intermediaire lagen bieden de beste balans.
FIFO: Er wordt een First-In-First-Out buffer gebruikt met een vaste capaciteit (bijv. 8 frames) om het oudste geheugen te verwijderen wanneer de buffer vol is.
Geen extra tokens: Er worden geen nieuwe tokens aan de inputreeks toegevoegd; het geheugen zit "verborgen" in de interne states.

2. K-to-K Retrieval met Frame-Gap Temporal Bias (FGTB) (Zoeken)

Op elk tijdstip $t$ worden de huidige keys ( $K^{(t)}$ ) gebruikt als query om relevant historisch geheugen op te halen uit de cache.

K-to-K Matching: In plaats van een nieuwe query-projection te leren, gebruikt TempoFit de bestaande keys van het bevroren model om de historische keys te zoeken. Dit is een "address-space matching" binnen de native ruimte van de Transformer.
FGTB (Frame-Gap Temporal Bias): Om te voorkomen dat het model verouderde (stale) informatie te zwaar weegt, wordt een vaste, niet-lerende bias toegevoegd aan de attentie-scores. Deze bias straalt af op basis van het tijdsverschil ( $|t - \tau|$ ) tussen de huidige frame en het historische frame. Dit zorgt ervoor dat recente informatie dominant blijft, zonder extra trainbare parameters.

3. Norm-Preserving Residual Loading (Injectie)

De opgehaalde historische context ( $K_{ctx}, V_{ctx}$ ) wordt geïntegreerd in de huidige state voordat de standaard self-attention plaatsvindt.

Residuele Update: De historische K/V worden opgeteld bij de huidige K/V: $\tilde{K} = K + K_{ctx}$ .
Norm-behoud: Omdat het optellen de grootte (norm) van de vectoren kan veranderen, wat de verdeling van de bevroren lagen kan verstoren, wordt een norm-preserving rescaling toegepast. Dit projecteert de samengevoegde vector terug naar de oorspronkelijke $\ell_2$ -norm van de huidige token. Dit zorgt voor stabiliteit zonder de tokenisatie of de modelparameters te wijzigen.

Belangrijkste Bijdragen

TempoFit Framework: Een trainingsvrije, plug-and-play module die de interne attention-states van VLA-modellen hergebruikt voor temporeel geheugen, zonder de input-lengte of modelparameters te wijzigen.
Layer-Wise K/V Retrieval & FGTB: Een innovatieve aanpak voor het ophalen van geschiedenis via K-to-K matching in de native key-ruimte, aangevuld met een vaste Frame-Gap Temporal Bias om verouderde context te onderdrukken.
Norm-Preserving Injectie: Een mechanisme om historische context veilig te injecteren in bevroren modellen zonder verdelingsschifting (distribution shift) te veroorzaken.
Uitgebreide Validatie: Demonstratie van consistente verbeteringen op diverse benchmarks (LIBERO-LONG, CALVIN) en op echte robotplatforms, met behoud van real-time inferentie.

Resultaten

TempoFit werd getest op meerdere benchmarks en presteerde aanzienlijk beter dan de basismodellen en andere state-of-the-art methoden:

LIBERO-LONG:
- Voor het sterke $\pi0.5$ -backbone steeg het gemiddelde succespercentage van 92,6% naar 96,6% (+4,0%).
- Voor de heterogene QwenGR00T-achtergrond steeg het van 90,8% naar 94,4% (+3,6%).
- TempoFit presteerde beter dan methoden die vereisen dat het model opnieuw wordt getraind (zoals MemoryVLA en HiF-VLA), terwijl het volledig trainingsvrij blijft.
CALVIN:
- Verbetering in de gemiddelde taaklengte voor opeenvolgende instructies. In de D-D setting steeg de lengte van 3,78 naar 3,84; in de ABC-D setting van 3,83 naar 3,87. De verbeteringen waren het grootst bij latere instructies, wat wijst op beter langetermijngeheugen.
Efficiëntie:
- In tegenstelling tot frame-stacking (waarbij latentie en geheugengebruik exponentieel stijgen), blijft TempoFit zeer efficiënt. Bij een cache-grootte van 32 frames was de latentie slechts 1,21x die van een single-frame model, terwijl frame-stacking bij 8 frames al 2,48x trager was.
Real-World Robots (Realman RM-65B):
- Op echte robottaken met lange horizon (bijv. meerdere objecten in een tray plaatsen) verbeterde TempoFit het totale succespercentage met gemiddeld +9,5%. Het model kon beter omgaan met staat-aliasing (bijv. identieke kommen) en subtiele veranderingen na acties.

Significantie

TempoFit is significant omdat het een fundamentele beperking van huidige VLA-modellen oplost: het gebrek aan geheugen voor langdurige taken, zonder de nadelen van bestaande oplossingen.

Plug-and-Play: Het maakt het mogelijk om de kracht van de nieuwste, zwaar getrainde single-frame modellen direct te gebruiken voor complexe, langdurige taken zonder dure hertraining.
Efficiëntie: Het lost het probleem van hoge computerkosten bij frame-stacking op door slim gebruik te maken van de interne representaties van het model.
Robuustheid: Door de focus op "state-level" geheugen in plaats van "observation-level" (ruwe pixels), vermijdt het redundantie en verbetert het de robuustheid tegen visuele ambiguïteiten.

De methode opent de deur voor schaalbare, real-time robotbesturing die over lange tijdshorizons consistent en betrouwbaar kan handelen, zelfs met modellen die oorspronkelijk niet voor dit doel zijn ontworpen.