VLANeXt: Recipes for Building Strong VLA Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt leren om de huishoudelijke klusjes te doen: de was ophangen, een glas water brengen of de lade openen. In het verleden moest je voor elke taak een aparte "recept" programmeren. Maar nu, met de opkomst van VLA-modellen (Visie-Taal-Actie), proberen we robots een "brein" te geven dat net als mensen werkt: ze kijken, begrijpen wat je zegt, en doen iets.

Het probleem is dat de wetenschap momenteel een beetje chaotisch is. Het is alsof er honderden koks zijn die elk een eigen recept voor robot-koken hebben, maar niemand weet precies welke ingrediënten echt belangrijk zijn. Soms gebruiken ze te veel zout, soms vergeten ze de oven voor te verwarmen, en het is lastig om te zeggen wie de beste kok is.

VLANeXt is een nieuw onderzoek dat deze chaos oplost. De auteurs hebben een "keuken" gebouwd waar ze systematisch alle mogelijke ingrediënten hebben getest om het ultieme robot-recept te vinden. Hier is hoe ze dat deden, vertaald naar alledaagse taal:

1. De Basis: Een goed onderlegde kok

Stel je de robot voor als een kok.

Het Brein (VLM): De kok heeft een enorm kennisboek nodig (een groot taal- en beeldmodel). De onderzoekers ontdekten dat je een sterker kennisboek moet gebruiken. Het is alsof je een kok met een culinaire diploma (Qwen3-VL) neemt in plaats van iemand die alleen maar YouTube-video's heeft gekeken.
De Verbinding: Hoe praat het brein met de handen?
- Te los: Het brein schreeuwt instructies, maar de handen luisteren niet goed.
- Te strak: De handen zijn vastgeketend aan het brein en kunnen niet flexibel reageren.
- De "Zachte" aanpak (Winnaar!): De onderzoekers vonden dat een zachte, flexibele verbinding het beste werkt. Het is alsof de kok en de sous-chef een stille, intuïtieve band hebben; ze weten precies wat de ander bedoelt zonder dat alles letterlijk hoeft te worden gezegd.

2. De Zintuigen: Kijk niet alleen, maar voel ook

Een robot moet niet alleen kijken, maar ook voelen waar zijn eigen armen zijn (dit heet proprioceptie).

De camera's: Een enkele camera is als kijken door een sleutelgat. De onderzoekers ontdekten dat je meerdere camera's nodig hebt: één die naar de hele tafel kijkt (derde persoon) en één die aan de pols van de robot zit (als een handcamera). Dit geeft de robot een compleet beeld, net zoals jij zowel naar je handen kijkt als naar het object dat je vasthoudt.
Het gevoel: De robot moet zijn eigen spierbewegingen voelen. Maar waar moet dit gevoel naartoe? De onderzoekers vonden dat je dit gevoel in het brein moet stoppen, niet direct in de handen. Het is alsof je eerst de informatie in je hoofd verwerkt ("mijn arm is moe") voordat je beslist hoe je je hand beweegt.

3. De Actie: Geen stap voor stap, maar een dans

Hoe vertaal je een gedachte naar beweging?

Chunking: In plaats van één beweging per seconde te plannen (alsof je een dansstap per seconde bedenkt), plannen ze blokken van bewegingen (bijvoorbeeld 8 stappen vooruit). Dit is als een danser die een hele choreografie in gedachten heeft, in plaats van alleen de volgende stap.
De Frequentie: Dit is misschien wel het coolste deel. De onderzoekers behandelden de bewegingen als muziek. Ze keken niet alleen naar de beweging zelf, maar naar het ritme en de trillingen (frequentie). Door de robot te leren luisteren naar het "ritme" van de beweging, worden de acties veel vloeiender en natuurlijker. Het is alsof je een robot leert drummen in plaats van alleen maar te tellen.

Het Resultaat: VLANeXt

Het eindresultaat is VLANeXt.
Dit is geen monsterlijke robot die gigantisch veel rekenkracht nodig heeft. Integendeel, het is een slimme, efficiënte robot die, ondanks dat hij kleiner is dan veel concurrenten, beter presteert.

In de test: Hij slaagt bijna perfect in moeilijke taken (zoals het openen van laden of het stapelen van objecten), zelfs als de omgeving verandert (bijvoorbeeld als het licht anders is of als de objecten op een andere plek liggen).
In de echte wereld: Ze hebben het getest op echte robotarmen. De robot kon taken uitvoeren zoals het opruimen van een tafel of het openen van een lade, en deed dit beter dan de beste robots van nu.

Waarom is dit belangrijk?

Voorheen probeerden onderzoekers vaak "gokken" met nieuwe, ingewikkelde architecturen. VLANeXt laat zien dat je niet per se een grotere, duurdere robot nodig hebt. Als je de recepten (de ontwerpkeuzes) goed begrijpt – zoals het juiste brein, de juiste camera's en het luisteren naar het ritme van de beweging – kun je met een kleinere, slimmere robot dezelfde (of betere) resultaten bereiken.

Kortom: De auteurs hebben de "primordiale soep" van robotonderzoek opgeruimd en ons een duidelijk, werkend recept gegeven voor hoe we robots echt slim kunnen maken. En het beste deel? Ze delen dit recept gratis met de hele wereld, zodat iedereen erop kan bouwen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Met de opkomst van grote fundamentele modellen (foundation models) zijn Vision-Language-Action (VLA) modellen ontstaan die visuele waarneming en taalbegrip combineren voor robotbesturing. Ondanks de snelle vooruitgang blijft het huidige landschap van VLA-modellen echter gefragmenteerd en exploratief.

Verschillende onderzoeksgroepen hebben hun eigen modellen ontwikkeld, maar door inconsistente trainingsprotocollen en evaluatieomgevingen is het moeilijk om te bepalen welke ontwerpkeuzes echt belangrijk zijn.
Er ontbreekt een gestructureerde aanpak om te begrijpen welke componenten (zoals architectuur, perceptie en actie-modellering) de prestaties het meest beïnvloeden.
Het doel van dit werk is om deze "oer-sop" (primordial soup) van ideeën te ordenen door VLA-ontwerpruimtes systematisch te onderzoeken onder een uniek raamwerk.

Methodologie

De auteurs beginnen met een eenvoudige baseline (vergelijkbaar met RT-2 en OpenVLA) en analyseren systematisch de ontwerpruimte langs drie dimensies. Ze bouwen stap voor stap een nieuw model op, VLANeXt, door de meest effectieve keuzes te combineren.

1. Fundamentele Componenten (Foundational Components)

Policy Module: In plaats van tekst-tokens te hergebruiken voor acties, introduceren ze een gescheiden policy head (een transformer-laag) die gekoppeld is aan een 'class token'. Dit presteert iets beter dan directe hergebruik. Ze vergroten de policy module verder (van 2 naar 12 lagen) met meerdere tokens (16), wat aanzienlijke winst oplevert.
Actie-chunking: In plaats van één stap per keer te voorspellen, voorspellen ze blokken van 8 toekomstige acties tegelijk. Dit verbetert de coherentie van de actiesequentie.
Leerdoel (Loss Function): Ze vergelijken classificatie (binning), regressie, en generatieve methoden (Diffusion, Flow Matching). Flow Matching (een continue methode) bleek het meest effectief, waarschijnlijk omdat actie-distributies in benchmarks vaak Gaussisch zijn.
VLM Backbone: Een sterkere Vision-Language Model (VLM) backbone leidt tot betere prestaties. Ze kiezen voor Qwen3-VL-2B als een goede balans tussen kracht en efficiëntie.
Verbinding VLM-Policy: Ze vergelijken "locke" (losgekoppeld), "tight" (laag-voor-laag gekoppeld) en "soft" verbindingen. De soft connection, waarbij leerbare 'queries' als een latent buffer tussen de VLM en de policy worden geplaatst, presteert het beste.

2. Perceptie-elementen (Perception Essentials)

Temporale geschiedenis: Het toevoegen van historische frames (temporale context) bleek niet nuttig en presteerde zelfs iets slechter dan alleen het huidige frame (waarschijnlijk door ruis).
Multi-view: Het combineren van een derde-persoons camera met een pols-camera (wrist camera) leverde een aanzienlijke prestatieverbetering op door ruimtelijke ambiguïteiten op te lossen.
Proprioceptie: Het conditioneren van proprioceptie (robotinterne staat) binnen de VLM (in plaats van alleen in de policy module) gaf de beste resultaten. Dit suggereert dat fusie op het visueel-taal niveau cruciaal is.

3. Actie-modellering (Action Modelling Perspectives)

Wereldmodellen: Het toevoegen van een wereldmodel (voorspellen van toekomstige beelden) verbeterde de prestaties, maar verhoogde de trainingskosten met een factor 3, waardoor het onpraktisch werd voor de uiteindelijke "recept".
Tijdreeksvoorspelling: Ze introduceerden een frequentiedomein-loss (gebaseerd op Discrete Cosine Transform) als extra regularisatie. Dit modelleert de gestructureerde, laag-rang aard van robotacties effectief en verbeterde de prestaties met verwaarloosbare rekentijd.

Belangrijkste Bijdragen

VLANeXt: Een eenvoudig maar krachtig VLA-model dat is afgeleid van de geoptimaliseerde ontwerpkeuzes. Het heeft een modelgrootte van ongeveer 2.5B parameters (kleiner dan veel concurrenten zoals OpenVLA-OFT met 7B), maar presteert beter.
Het "Recept": De auteurs distilleren 12 kernbevindingen die een praktische leidraad vormen voor het bouwen van sterke VLA-modellen.
- Gebruik een sterkere VLM backbone.
- Gebruik een gescheiden policy head met soft coupling.
- Conditioneer proprioceptie in de VLM.
- Gebruik multi-view inputs.
- Gebruik Flow Matching en frequentiedomein-loss.
Unificatie: Ze bieden een uniforme codebase en evaluatieframework (op LIBERO en LIBERO-plus) om toekomstig onderzoek te standaardiseren en reproduceerbaar te maken.

Resultaten

LIBERO Benchmark: VLANeXt behaalt state-of-the-art resultaten op de standaard LIBERO-benchmarks (Spatial, Object, Goal, Long), met name in de ruimtelijke suite.
LIBERO-plus Benchmark: Op dit robuustheids-benchmark (met onbekende verstoringen in licht, achtergrond, robotstaat, taal, etc.) overtreft VLANeXt bestaande methoden aanzienlijk. Het bereikt een succespercentage van 80.1% in totaal, vergeleken met 69.6% voor de sterke concurrent OpenVLA-OFT.
Real-world Evaluatie: In fysieke experimenten met een Franka-Emika arm (single-arm) en een Aloha-systeem (bimanual) presteert VLANeXt beter dan OpenVLA-OFT en $\pi_0$ . Het model toont ook sterke cross-embodiment aanpassingsvermogen, waarbij het zonder specifieke training voor tweearmige taken toch goed presteert.

Significantie

Dit werk markeert een verschuiving van het willekeurig experimenteren met modelvarianten naar een systematische, principes-gedreven benadering van VLA-ontwerp.

Het toont aan dat sterke prestaties niet per se afhankelijk zijn van agressieve schaalvergroting (meer parameters), maar van principiële ontwerpkeuzes (zoals hoe informatie wordt gefuseerd en hoe acties worden gemodelleerd).
De bevindingen, zoals het belang van proprioceptie in de VLM en het gebruik van frequentiedomein-analyse voor robotacties, bieden nieuwe inzichten voor de bredere gemeenschap.
Door een open, lichtgewicht en transparante codebase vrij te geven, faciliteren de auteurs verdere innovatie en reproduceerbaarheid in het veld van robotica en VLA-modellen.