DynVLA: Learning World Dynamics for Action Reasoning in Autonomous Driving

Het artikel introduceert DynVLA, een autonoom rijmodel dat een nieuwe 'Dynamics CoT'-paradigma hanteert door compacte werelddynamieken te voorspellen via een dynamische tokenizer, wat leidt tot fysiek onderbouwde en nauwkeurigere beslissingen dan bestaande tekstuele of visuele methoden.

Shuyao Shang, Bing Zhan, Yunfei Yan, Yuqi Wang, Yingyan Li, Yasong An, Xiaoman Wang, Jierui Liu, Lu Hou, Lue Fan, Zhaoxiang Zhang, Tieniu Tan

Gepubliceerd 2026-03-12
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een beginnende bestuurder bent die net zijn rijbewijs heeft gehaald. Als je een auto bestuurt, doe je niet alleen iets op basis van wat je nu ziet. Je denkt vooruit: "Als die bus nu remt, moet ik ook remmen," of "Die fietser lijkt te wankelen, ik moet hem ruimte geven."

Dit is precies wat DynVLA doet, maar dan voor een zelfrijdende auto. Het is een slim computerprogramma dat niet alleen kijkt, maar ook droomt over de toekomst voordat het de stuurknuppel aanraakt.

Hier is hoe het werkt, vertaald in alledaags taal:

1. Het probleem: Te veel praten of te veel tekenen

Vroeger hadden zelfrijdende auto's twee manieren om na te denken:

  • De tekst-baas: De computer schreef een lang verhaal over wat er gaande was. "Er is een rode lichte, de auto links remt, ik moet stoppen." Dit is traag en soms te vaag. Het is alsof je een recept leest terwijl je kookt; het duurt te lang.
  • De teken-baas: De computer probeerde elke pixel van de toekomstige foto te tekenen. "Ik zie hier een boom, daar een wolk, en hier een auto..." Dit is heel gedetailleerd, maar het kost enorm veel tijd en rekenkracht. Het is alsof je een heel schilderij maakt voordat je weet of je überhaupt gaat eten.

2. De oplossing: DynVLA (De "Toekomst-Dichter")

DynVLA introduceert een nieuwe manier van denken, genaamd Dynamics CoT. In plaats van lange verhalen of gedetailleerde tekeningen, leert het programma de essentie van de toekomst te vangen in een paar simpele "toekomst-blokjes" (tokens).

Stel je voor dat je een film kijkt. In plaats van elke seconde van de film op te slaan, onthoud je alleen de belangrijke bewegingen:

  • "De auto voor mij remt."
  • "De fietser gaat naar links."
  • "Ik ga rechtdoor."

DynVLA doet precies dit. Het pakt de complexe wereld en verpakt de toekomst in een klein, compact pakketje van bewegingen.

3. Hoe het werkt: Twee soorten bewegingen

Het slimme aan DynVLA is dat het twee soorten bewegingen uit elkaar haalt, net als een dirigent die het orkest in twee groepen splitst:

  1. De Eigen Beweging (Ego-centric): Dit is wat jij doet. Gaat de auto vooruit, remt hij, of draait hij?
  2. De Omgevingsbeweging (Environment-centric): Dit is wat anderen doen. De andere auto's, fietsers en voetgangers.

Vaak verwarren computers deze twee. Ze denken bijvoorbeeld dat de auto vooruit beweegt omdat jij accelereert, terwijl het eigenlijk de auto voor jou is die achteruit rijdt. DynVLA gebruikt een slimme truc (een "Dynamics Tokenizer") om deze twee duidelijk van elkaar te scheiden. Het zorgt ervoor dat de computer weet: "Oké, ik beweeg, en die ander beweegt ook."

4. De training: Eerst dromen, dan doen

Het leerproces van DynVLA ziet eruit als een drie-stappenplan:

  • Stap 1: De Oefening (Tokenizer): Het programma kijkt naar beelden van nu en straks, en leert de "toekomst-blokjes" te maken. Het oefent tot het perfect kan voorspellen hoe de wereld er over een paar seconden uit zal zien, zonder de hele foto te hoeven tekenen.
  • Stap 2: Het Script (SFT): Nu leert het programma een script te volgen. Eerst denkt het na over de toekomst (de blokjes), en pas daarna zegt het: "Draai het stuur naar links." Het leert dat nadenken een noodzakelijke tussenstap is.
  • Stap 3: De Meester (RFT): Tot slot krijgt het programma feedback. Als het een goede beslissing neemt, krijgt hij een sterretje. Als hij een onveilige beslissing neemt, krijgt hij een waarschuwing. Zo wordt het steeds slimmer en veiliger.

Waarom is dit geweldig?

  • Snelheid: Omdat het niet hoeft te tekenen of lange verhalen te schrijven, is het supersnel. Het is als het verschil tussen een lange brief schrijven en een korte tekstberichtje sturen: je krijgt dezelfde boodschap over, maar veel sneller.
  • Veiligheid: Door eerst de toekomst te "dromen" (de bewegingen te voorspellen), ziet de auto gevaarlijke situaties eerder dan de mens. Hij ziet bijvoorbeeld dat een kind op de stoep naar de weg kijkt, en remt al voordat het kind de weg op rent.
  • Betrouwbaarheid: Het maakt minder fouten omdat het de wereld begrijpt als een dynamisch spel van bewegingen, niet als een statische foto.

Kortom: DynVLA is als een super-slimme passagier die niet alleen kijkt, maar de toekomst van de weg "voelt" in een paar simpele bewegingen, zodat de auto veilig en snel kan rijden zonder te hoeven wachten op een lang verhaal of een gedetailleerde tekening.