Efficient Long-Horizon Vision-Language-Action Models via Static-Dynamic Disentanglement

Deze paper introduceert SD-VLA, een efficiënt kader voor Vision-Language-Action-modellen dat visuele input ontleedt in statische en dynamische tokens om de contextlengte te verkorten en de inferentie te versnellen, wat leidt tot aanzienlijke verbeteringen in prestaties op lange-termijntaken.

Weikang Qiu, Tinglin Huang, Rex Ying

Gepubliceerd 2026-02-17
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt bouwen die net zo slim is als een mens, die kan kijken, begrijpen wat je zegt en vervolgens handelingen uitvoeren (zoals een blikje van de tafel pakken). Dit soort robots worden aangedreven door VLA-modellen (Vision-Language-Action).

Het probleem is echter dat deze robots tot nu toe twee grote struikelblokken hebben:

  1. Ze hebben een korte geheugenboog: Ze vergeten snel wat er een paar seconden geleden gebeurde. Als je ze zegt "Druk op de knop", vergeten ze soms dat ze die knop al hebben ingedrukt en blijven ze maar doorgaan.
  2. Ze zijn traag en hongerig: Ze moeten elke keer opnieuw de hele wereld om hen heen analyseren, zelfs als er niets veranderd is. Dit kost veel tijd en energie, net als iemand die elke seconde opnieuw de hele kamer aftelt om te zien of de stoel nog steeds daar staat.

De onderzoekers van dit paper (SD-VLA) hebben een slimme oplossing bedacht die we Static-Dynamic Disentanglement noemen. Laten we dit uitleggen met een paar creatieve vergelijkingen.

De Grote Idee: De "Stille" en de "Actieve" Robot

Stel je voor dat je een film kijkt.

  • De achtergrond (de muren, het plafond, de meubels) verandert bijna nooit. Dit is het Statische deel.
  • De acteurs die lopen, praten en dingen oppakken, veranderen constant. Dit is het Dynamische deel.

Tot nu toe deden slimme robots alsof ze elke seconde de hele film opnieuw moesten bekijken en analyseren, inclusief de muren die al urenlang hetzelfde zijn. Dat is zonde van de tijd en energie.

SD-VLA doet het anders:
De robot leert om de "muren" (statisch) en de "acteurs" (dynamisch) uit elkaar te halen.

  1. De Statische Deel (De Muren):
    De robot kijkt één keer naar de achtergrond en zegt: "Oké, dit is de kamer. Dit verandert niet snel." Hij slaat dit op in zijn geheugen (een soort cache). Bij de volgende seconde hoeft hij de muren niet opnieuw te analyseren; hij gebruikt gewoon de opgeslagen versie.

    • Vergelijking: Het is alsof je een foto van je kamer maakt en die op je bureau legt. Als je de kamer binnenkomt, hoef je niet opnieuw te tellen hoeveel stoelen er zijn; je kijkt gewoon naar je foto.
  2. Het Dynamische Deel (De Acteurs):
    Alleen de dingen die bewegen (de hand van de robot, het blikje dat verschuift) worden opnieuw bekeken en verwerkt.

    • Vergelijking: Je let alleen op waar de kat nu loopt, niet op de muur waar hij tegenop loopt.

Het Slimme "Poortwachter"-Systeem

Je zou kunnen denken: "Maar wat als de achtergrond wel verandert? Bijvoorbeeld als iemand een schilderij verplaatst?"

Daarom hebben de onderzoekers een leerbare poortwachter (de Recache Gate) bedacht.

  • Dit is een slimme robot-assistent die constant checkt: "Is de achtergrond nog steeds hetzelfde?"
  • Als het antwoord JA is: "Geen probleem, gebruik de oude foto." (Snel en zuinig).
  • Als het antwoord NEE is: "Oeps, er is iets veranderd! Maak een nieuwe foto en updaten het geheugen."

Dit zorgt ervoor dat de robot snel blijft, maar niet dom wordt door verouderde informatie te gebruiken.

Waarom is dit zo belangrijk?

1. Langere verhalen (Long-Horizon):
Omdat de robot niet meer hoeft te rekenen aan de statische achtergrond, kan hij veel meer "frames" (beelden) van de afgelopen tijd onthouden zonder zijn geheugen vol te laten lopen.

  • Voorbeeld: De robot kan nu een taak uitvoeren die 10 minuten duurt en onthouden wat er in de eerste minuut gebeurde, terwijl een oude robot na 10 seconden al alles zou vergeten.

2. Super snel (Efficiëntie):
Omdat de robot minder hoeft te rekenen, is hij veel sneller.

  • Resultaat: In de tests was de nieuwe robot 2,26 keer sneller dan de oude versie, terwijl hij tegelijkertijd slimmer werd.

De Nieuwe Test (De "Geheugen-Test")

De onderzoekers merkten ook dat de oude tests voor robots te makkelijk waren. Ze vroegen vaak dingen die je niet hoeven te onthouden (zoals "zet dit in de mand").
Ze bedachten een nieuwe test, LIBERO-Memory, die meer lijkt op het menselijk geheugen:

  • De opdracht: "Pak blikje A, zet het op het fornuis, wacht 10 seconden, haal het eraf, zet het terug op de originele plek, en pak dan blikje B."
  • Om dit te doen, moet de robot onthouden:
    • Waar het blikje vandaan kwam (ruimtelijk geheugen).
    • Wanneer het op het fornuis stond (tijdsgeheugen).
    • Wat er al gebeurd is (feitelijke geheugen).

Op deze nieuwe, moeilijkere test presteerde de nieuwe SD-VLA 39,8% beter dan de beste oude robots.

Samenvatting in één zin

SD-VLA is een slimme robot die leert om de statische wereld (wat niet verandert) uit elkaar te halen van de dynamische wereld (wat beweegt), zodat hij zijn geheugen niet verspilt aan muren en stoelen, maar zich kan focussen op wat er echt gebeurt – waardoor hij sneller, slimmer en beter in staat is om complexe, langdurige taken uit te voeren.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →