Efficient Long-Horizon Vision-Language-Action Models via Static-Dynamic Disentanglement

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt bouwen die net zo slim is als een mens, die kan kijken, begrijpen wat je zegt en vervolgens handelingen uitvoeren (zoals een blikje van de tafel pakken). Dit soort robots worden aangedreven door VLA-modellen (Vision-Language-Action).

Het probleem is echter dat deze robots tot nu toe twee grote struikelblokken hebben:

Ze hebben een korte geheugenboog: Ze vergeten snel wat er een paar seconden geleden gebeurde. Als je ze zegt "Druk op de knop", vergeten ze soms dat ze die knop al hebben ingedrukt en blijven ze maar doorgaan.
Ze zijn traag en hongerig: Ze moeten elke keer opnieuw de hele wereld om hen heen analyseren, zelfs als er niets veranderd is. Dit kost veel tijd en energie, net als iemand die elke seconde opnieuw de hele kamer aftelt om te zien of de stoel nog steeds daar staat.

De onderzoekers van dit paper (SD-VLA) hebben een slimme oplossing bedacht die we Static-Dynamic Disentanglement noemen. Laten we dit uitleggen met een paar creatieve vergelijkingen.

De Grote Idee: De "Stille" en de "Actieve" Robot

Stel je voor dat je een film kijkt.

De achtergrond (de muren, het plafond, de meubels) verandert bijna nooit. Dit is het Statische deel.
De acteurs die lopen, praten en dingen oppakken, veranderen constant. Dit is het Dynamische deel.

Tot nu toe deden slimme robots alsof ze elke seconde de hele film opnieuw moesten bekijken en analyseren, inclusief de muren die al urenlang hetzelfde zijn. Dat is zonde van de tijd en energie.

SD-VLA doet het anders:
De robot leert om de "muren" (statisch) en de "acteurs" (dynamisch) uit elkaar te halen.

De Statische Deel (De Muren):
De robot kijkt één keer naar de achtergrond en zegt: "Oké, dit is de kamer. Dit verandert niet snel." Hij slaat dit op in zijn geheugen (een soort cache). Bij de volgende seconde hoeft hij de muren niet opnieuw te analyseren; hij gebruikt gewoon de opgeslagen versie.
- Vergelijking: Het is alsof je een foto van je kamer maakt en die op je bureau legt. Als je de kamer binnenkomt, hoef je niet opnieuw te tellen hoeveel stoelen er zijn; je kijkt gewoon naar je foto.
Het Dynamische Deel (De Acteurs):
Alleen de dingen die bewegen (de hand van de robot, het blikje dat verschuift) worden opnieuw bekeken en verwerkt.
- Vergelijking: Je let alleen op waar de kat nu loopt, niet op de muur waar hij tegenop loopt.

Het Slimme "Poortwachter"-Systeem

Je zou kunnen denken: "Maar wat als de achtergrond wel verandert? Bijvoorbeeld als iemand een schilderij verplaatst?"

Daarom hebben de onderzoekers een leerbare poortwachter (de Recache Gate) bedacht.

Dit is een slimme robot-assistent die constant checkt: "Is de achtergrond nog steeds hetzelfde?"
Als het antwoord JA is: "Geen probleem, gebruik de oude foto." (Snel en zuinig).
Als het antwoord NEE is: "Oeps, er is iets veranderd! Maak een nieuwe foto en updaten het geheugen."

Dit zorgt ervoor dat de robot snel blijft, maar niet dom wordt door verouderde informatie te gebruiken.

Waarom is dit zo belangrijk?

1. Langere verhalen (Long-Horizon):
Omdat de robot niet meer hoeft te rekenen aan de statische achtergrond, kan hij veel meer "frames" (beelden) van de afgelopen tijd onthouden zonder zijn geheugen vol te laten lopen.

Voorbeeld: De robot kan nu een taak uitvoeren die 10 minuten duurt en onthouden wat er in de eerste minuut gebeurde, terwijl een oude robot na 10 seconden al alles zou vergeten.

2. Super snel (Efficiëntie):
Omdat de robot minder hoeft te rekenen, is hij veel sneller.

Resultaat: In de tests was de nieuwe robot 2,26 keer sneller dan de oude versie, terwijl hij tegelijkertijd slimmer werd.

De Nieuwe Test (De "Geheugen-Test")

De onderzoekers merkten ook dat de oude tests voor robots te makkelijk waren. Ze vroegen vaak dingen die je niet hoeven te onthouden (zoals "zet dit in de mand").
Ze bedachten een nieuwe test, LIBERO-Memory, die meer lijkt op het menselijk geheugen:

De opdracht: "Pak blikje A, zet het op het fornuis, wacht 10 seconden, haal het eraf, zet het terug op de originele plek, en pak dan blikje B."
Om dit te doen, moet de robot onthouden:
- Waar het blikje vandaan kwam (ruimtelijk geheugen).
- Wanneer het op het fornuis stond (tijdsgeheugen).
- Wat er al gebeurd is (feitelijke geheugen).

Op deze nieuwe, moeilijkere test presteerde de nieuwe SD-VLA 39,8% beter dan de beste oude robots.

Samenvatting in één zin

SD-VLA is een slimme robot die leert om de statische wereld (wat niet verandert) uit elkaar te halen van de dynamische wereld (wat beweegt), zodat hij zijn geheugen niet verspilt aan muren en stoelen, maar zich kan focussen op wat er echt gebeurt – waardoor hij sneller, slimmer en beter in staat is om complexe, langdurige taken uit te voeren.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Vision-Language-Action (VLA) modellen zijn een veelbelovende paradigma voor robotbesturing, maar ze kampen met twee fundamentele beperkingen die hun toepassing in de echte wereld belemmeren:

Beperkte lange-horizon context: Bestaande VLA-modellen opereren vaak "geheugenloos" (memoryless) en nemen slechts de huidige observatie als input. Voor taken die tijdsafhankelijkheid vereisen (bijvoorbeeld: "druk op de knop als deze nog niet is ingedrukt"), is het nodig om eerdere observaties te onthouden. Het simpelweg toevoegen van meerdere frames aan de input leidt echter tot een onbeheersbare lengte van de context, omdat transformer-architecturen een kwadratische complexiteit hebben ten opzichte van de sequentielengte.
Inefficiënte inferentie: Vanwege de grote modelgrootte en de noodzaak om bij elke stap alle visuele tokens opnieuw te verwerken, is de inferentie-tijd (latentie) te hoog voor real-time robotica. Bestaande versnellingstechnieken (zoals KV-cache hergebruik) maken vaak gebruik van heuristieken die aannemen dat visuele gelijkenis in pixelruimte ook gelijkenis in de latente representatie betekent. Dit is echter onjuist in transformer-architecturen, waar zelfs statische achtergronden door de attention-mechanismen kunnen worden beïnvloed en veranderen.

Methodologie: SD-VLA

De auteurs stellen SD-VLA voor, een framework dat visuele input ontkoppelt in statische en dynamische tokens om zowel contextlengte als inferentie-efficiëntie te optimaliseren.

1. Static-Dynamic Disentanglement (Ontkoppeling)
In plaats van elke frame volledig opnieuw te verwerken, worden visuele tokens opgesplitst in:

Dynamische tokens: Tokens die snel veranderen (bijv. bewegende objecten, de robotarm). Deze worden bij elke tijdstap opnieuw berekend.
Statische tokens: Tokens die over tijd stabiel blijven (bijv. achtergrond, statische objecten).
- Het model introduceert meerdere niveaus van statische tokens (bijv. L1 voor zeer persistente achtergronden, L2 voor objecten die minder vaak bewegen).
- Statistische tokens worden slechts één keer in de inputsequentie opgenomen, ongeacht het aantal frames, wat de effectieve contextlengte drastisch verkort.

2. Learnable Recache Gate
Een kritiek onderdeel is het bepalen wanneer statische tokens opnieuw moeten worden berekend.

Een leerbare "recache gate" voorspelt de waarschijnlijkheid dat statische tokens verouderd zijn.
Als de gate aangeeft dat de cache nog geldig is, worden de Key-Value (KV) caches van de statische tokens hergebruikt.
Als de gate aangeeft dat er verandering is, worden de tokens opnieuw berekend.
Dit mechanisme is leerbaar (in tegenstelling tot handmatige heuristieken) en zorgt ervoor dat de statische tokens in de latente ruimte consistent blijven, zelfs als de pixelwaarden licht variëren.

3. Training en Loss Functies
Naast de standaard taakverliesfunctie ( $L_{task}$ ) worden twee extra doelen geïntroduceerd:

Contrastive Learning ( $L_{InfoNCE}$ ): Deze loss zorgt ervoor dat statische tokens over tijd consistent blijven (temporale persistentie) door observaties uit dezelfde trajecten als positieve paren te behandelen.
Gate Regularization ( $L_{gate}$ ): Deze loss straft de gate af om te vaak te herberekenen, waardoor het model wordt gestimuleerd om de cache zo lang mogelijk te hergebruiken zolang de prestaties niet lijden.

4. Architectuur en Complexiteit
Door statische tokens vóór dynamische tokens te plaatsen in de sequentie, kan het model de KV-cache van statische tokens over meerdere stappen hergebruiken zonder dat de causaliteit van de attention-mechanismen wordt geschonden. Dit leidt tot een theoretische reductie in FLOPs (floating point operations) die evenredig is met het percentage gecachte tokens.

Nieuwe Benchmark: LIBERO-Memory

De auteurs stellen vast dat bestaande benchmarks (zoals LIBERO en SimplerEnv) vaak taken bevatten die geen langetermijngeheugen vereisen. Ze introduceren daarom LIBERO-Memory, een nieuwe benchmark gebaseerd op het concept van episodisch geheugen.

Opzet: Een robot moet een reeks taken uitvoeren waarbij het moet onthouden:
1. Waar: De oorspronkelijke positie van een object om het later terug te plaatsen.
2. Wanneer: Hoe lang een object moet worden verwarmd (tijdsbewaking).
3. Wat: Welk object al is verwerkt en welk nog moet worden verwerkt.
Dit dwingt het model om expliciete tijdsafhankelijkheden te modelleren.

Resultaten

De experimenten tonen aan dat SD-VLA zowel superieure prestaties levert op langetijdtaken als aanzienlijke snelheidswinst:

Prestaties op Langetermijntaken (LIBERO-Memory):
- SD-VLA behaalde een 39,8% absolute verbetering in succespercentage vergeleken met de beste bestaande baselines.
- Er was ook een verbetering van 29,8% in de nauwkeurigheid van de verwarmingstijd ("heating time"), wat aantoont dat het model tijdsafhankelijkheid beter begrijpt.
- Bestaande methoden zoals TraceVLA (visuele sporen) of MemoryVLA (lightweight decoder) faalden vaak omdat ze geen volledige multi-frame redenering in de LLM-toevoeging toelaten.
Efficiëntie en Snelheid:
- SimplerEnv: 4,9% verbetering in succespercentage en een 2,26x versnelling in inferentie-tijd.
- LIBERO: 0,7% verbetering in succespercentage en een 1,70x versnelling.
- De methode reduceert de FLOPs aanzienlijk (tot 43,4% van de oorspronkelijke waarde in SimplerEnv) door het hergebruik van KV-caches.
Ablatie Studies:
- Het verwijderen van het contrastieve leerdoel leidde tot een duidelijke prestatiedaling, wat aantoont dat het expliciet trainen van temporale consistentie essentieel is.
- Het vervangen van de leerbare gate door vaste intervallen resulteerde in slechtere prestaties, wat de noodzaak van adaptief cache-beheer bevestigt.

Betekenis en Conclusie

Deze paper biedt een doorbraak in het maken van VLA-modellen die zowel schaalbaar (door efficiëntere inferentie) als intelligent (door langetermijngeheugen) zijn.

Technische Innovatie: Het idee om visuele input te ontkoppelen in statische en dynamische componenten en dit te combineren met een leerbare cache-mechanisme, lost het fundamentele probleem op van de kwadratische complexiteit bij lange sequenties zonder informatieverlies.
Praktische Impact: De aanzienlijke snelheidswinst maakt real-time robotbesturing in complexe, dynamische omgevingen haalbaarder.
Toekomstperspectief: Hoewel het huidige werk gebaseerd is op voorgeprogrammeerde VLA-modellen, suggereert de auteurs dat toekomstig werk gericht kan zijn op het trainen van VLA-modellen van scratch met deze architectuur voor nog betere prestaties.

Kortom, SD-VLA bewijst dat het expliciet modelleren van tijdspersistentie in visuele data een veelbelovende richting is voor de volgende generatie robotbesturingssystemen.

Efficient Long-Horizon Vision-Language-Action Models via Static-Dynamic Disentanglement

De Grote Idee: De "Stille" en de "Actieve" Robot

Het Slimme "Poortwachter"-Systeem

Waarom is dit zo belangrijk?

De Nieuwe Test (De "Geheugen-Test")

Samenvatting in één zin

Probleemstelling

Methodologie: SD-VLA

Nieuwe Benchmark: LIBERO-Memory

Resultaten

Betekenis en Conclusie

Meer zoals dit

VerifAI: A Verifiable Open-Source Search Engine for Biomedical Question Answering

Unbiased Rectification for Sequential Recommender Systems Under Fake Orders

Self-Sovereign Agent

Automated Standardization of Legacy Biomedical Metadata Using an Ontology-Constrained LLM Agent

GAN-Enhanced Deep Reinforcement Learning for Semantic-Aware Resource Allocation in 6G Network Slicing