Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt bouwen die niet alleen een simpele taak kan uitvoeren, zoals een kopje koffie pakken, maar die ook echt slim is, kan leren van verschillende situaties en zelfs complexe taken kan doen, zoals het opruimen van een hele tafel of het sorteren van boodschappen in een winkel.

Dit is precies wat het team van Sber Robotics Center heeft gedaan met hun nieuwe robot, genaamd Green, en het brein erachter: Green-VLA.

Hier is hoe ze het hebben gedaan, vertaald in simpele taal:

1. Het Probleem: Robots zijn vaak te stijf

Tot nu toe waren robot-robots vaak als een kind dat alleen maar een liedje kan zingen dat het heeft gehoord. Als je iets anders vraagt, of als de situatie een beetje verandert, raken ze in de war. Ze leren vaak alleen door te kijken wat iemand anders doet (nabootsen), maar ze begrijpen niet echt waarom ze iets doen. Als ze een keer een fout maken, weten ze niet hoe ze zich moeten redden.

2. De Oplossing: Een Vijf-Stappen Leerplan

Green-VLA is geen robot die in één keer alles leert. Het is meer als een student die een zeer gestructureerd leerplan volgt. De auteurs noemen dit een "staged curriculum" (een gefaseerd curriculum).

Stel je dit voor als het opbouwen van een huis:

Stap 1 & 2 (De Basis & De Wereld): Eerst leert de robot niet over robots, maar over de wereld zoals wij die zien. Hij kijkt naar miljarden foto's en video's van internet (zoals YouTube of Wikipedia). Hij leert wat een "banaan" is, wat "zwaar" betekent, en hoe dingen bewegen. Dit is alsof hij eerst naar school gaat om de wereld te begrijpen voordat hij gaat werken.
Stap 3 (De Praktijk): Nu kijkt hij naar duizenden uren video's van andere robots die taken uitvoeren. Hij leert hoe een robotarm een kopje vastpakt, of hoe een ander type robot een deur opent. Hij leert de "algemene regels" van bewegen, ongeacht of het een mensachtige robot is of een robotarm op een wieltje.
Stap 4 (De Specialisatie): Nu is het tijd om zich te specialiseren in zijn eigen lichaam (de Green-robot). Hij leert precies hoe zijn armen en handen werken.
Stap 5 (De Meesterklas - RL): Dit is het belangrijkste nieuwe stukje. Tot nu toe leerde de robot alleen door te kijken (nabootsen). In deze laatste stap krijgt hij een "virtuele trainer" (Reinforcement Learning). Als hij iets goed doet, krijgt hij een virtuele beloning. Als hij iets fout doet, leert hij van zijn fouten en probeert hij het opnieuw. Hierdoor leert hij niet alleen te kopiëren, maar ook om oplossingen te vinden als hij vastloopt.

3. De "Universele Vertaler"

Een groot probleem bij robots is dat ze allemaal anders zijn. De ene heeft twee armen, de andere heeft één arm, en weer een andere heeft een grijper in plaats van een hand.
Green-VLA heeft een slimme truc bedacht: een Universele Actie-ruimte.
Stel je voor dat alle robots een eigen taal spreken. Green-VLA fungeert als een vertaler. Hij vertaalt de instructie "pak dat op" naar een taal die elke robot begrijpt, ongeacht of hij twee armen of één arm heeft. Hierdoor kan één enkel "brein" (Green-VLA) besturen:

Een mensachtige robot (Green).
Een robotarm op een tafel.
Een mobiele robot met wielen.

4. Slimme hulpmiddelen voor lastige situaties

Soms staat er een object op een plank dat de robot nog nooit heeft gezien, of staat het heel precies.

De "JPM" (Joint Prediction Module): Dit is als een slimme zoektocht. Als de robot hoort "pik die blauwe fles op", maar ziet die fles niet direct, dan helpt deze module de robot om te raden waar die fles waarschijnlijk zit, gebaseerd op de tekst en de foto. Het is alsof de robot een beetje "snuffelt" met zijn ogen voordat hij grijpt.
De "OOD" Detector: Dit is een veiligheidsnet. Als de robot merkt dat hij iets gaat doen wat hij nog nooit heeft gedaan en dat gevaarlijk zou kunnen zijn, zegt hij: "Wacht even, dit voelt raar," en corrigeert zijn beweging om veilig te blijven.

5. Wat kunnen ze nu?

Met dit systeem is de Green-robot in staat om:

Borden en bestek van een tafel te halen en in een kast te zetten (zelfs als er veel rommel op staat).
Specifieke producten uit een winkelrek te pakken (bijvoorbeeld: "pik de oranje jus d'orange, niet de gele").
Taken uit te voeren die lang duren en meerdere stappen vereisen, zonder de draad kwijt te raken.

Conclusie

Green-VLA is een doorbraak omdat het niet alleen probeert om "groter" te zijn (meer data), maar "slimmer" te zijn. Door een goede mix van internetkennis, robotpraktijk en het leren van fouten (via beloningen), hebben ze een robot gemaakt die niet alleen een scriptje kan afspelen, maar die echt kan nadenken en aanpassen in de echte wereld.

Het is alsof je van een poppetje dat alleen maar dansbewegingen nabootst, een echte danser maakt die kan improviseren als de muziek stopt of als er iemand in de weg loopt.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Hoewel Vision-Language-Action (VLA) modellen veelbelovend zijn voor embodied AI, stuiten ze op ernstige beperkingen bij de implementatie in de echte wereld:

Data-heterogeniteit: Robotische datasets variëren sterk in observaties, actieruimtes en sample-frequenties.
Data-kwaliteit: Bestaande datasets bevatten vaak ruis (trillingen), wazige frames, inconsistente uitvoering en gebrek aan diversiteit.
Beperkingen van Behavior Cloning (BC): De huidige standaardtraining (BC) bereikt snel een verzadigingspunt. Het faalt vaak in het aligneren van beleidsplanning met lange-termijn doelen en kan niet goed omgaan met Out-of-Distribution (OOD) situaties.
Efficiëntie: Bestaande methoden met expliciete redenering (zoals Chain-of-Thought) leiden vaak tot hoge inferentie-latentie, wat real-time robotbesturing onmogelijk maakt.

Er is dus behoefte aan een framework dat niet alleen schaalt, maar ook kwaliteit, actie-unificatie en versterkende leer (RL) integreert om robuuste, generalistische robots te creëren.

Methodologie: Green-VLA Framework

Green-VLA is een gefaseerd (staged) trainingsframework dat is ontworpen voor de mensachtige "Green"-robot, maar generaliseert naar diverse robotvormen. Het framework bestaat uit een vijf-fasen curriculum:

L0 (Base VLM): Startpunt met een fundamenteel Vision-Language Model (bijv. Qwen3-VL of PaliGemma) dat is vooringesloten op grote internet-datasets.
L1 (Web & Multimodal Pretraining): Training op 24 miljoen niet-robotische, internet-schaal multimodale samples (VQA, spatial reasoning, pointing) om semantische en fysische priors op te bouwen.
R0 (General Robotics Pretraining): Training op >3.000 uur aan robotdata van diverse platforms (mensachtig, mobiele manipulatoren, vaste armen). Dit creëert een gedeelde "affordance" prior over verschillende lichamen.
R1 (Embodiment-Specific Adaptation): Fijne afstemming (SFT) op een specifiek robotlichaam (bijv. de Green humanoid) om de prestaties direct te verhogen zonder nieuwe grote datasets.
R2 (RL Alignment): Reinforcement Learning om de beleidsplanning te verbeteren voor lange-termijn taken, foutherstel en robuustheid, verder dan wat BC alleen kan bereiken.

Kerncomponenten van de Architectuur:

DataQA Pipeline: Een geautomatiseerd filter dat trajecten scant op kwaliteit (jitter, scherpte, diversiteit, statische variantie) en onbruikbare data verwijdert.
Unificatie van Actieruimte: In plaats van actie-ruimtes na te vullen met nullen (wat semantische conflicten veroorzaakt), gebruikt Green-VLA een unified action space ( $A_u$ ) van 64 dimensies met een vaste semantische lay-out. Een masker ( $m_e$ ) bepaalt welke slots actief zijn voor een specifieke robot. Dit elimineert "spurious gradients" en zorgt voor positieve transfer tussen robots.
Temporale Alignering: Trajecten worden gesynchroniseerd via optische flow (optical flow) om verschillen in uitvoeringssnelheid tussen datasets te normaliseren.
Snelheids-Conditionering: Een moduleringsmechanisme dat het model leert om zowel fijne, trage manipulatie als snelle, grove bewegingen te hanteren binnen hetzelfde model.
JPM Guidance (Joint Prediction Module): Een training-vrije module die een 2D-aanraakpunt voorspelt op basis van taal en beeld, dit omzet naar 3D, en de actiestroom (flow-matching) naar dit punt stuurt. Dit is cruciaal voor het grijpen van nieuwe objecten die niet in de trainingdata staan.
OOD Detectie & Correctie: Een Gaussian Mixture Model (GMM) detecteert wanneer de robot in een onbekende staat belandt en corrigeert de actie om terug te keren naar de trainingsdistributie.
RL Fine-tuning (R2): Gebruikt Implicit Q-Learning en trajectoptimalisatie (via Q-functie gradiënten) om de basisbeleidsplanning te verbeteren zonder de gewichten van het basismodel direct te beschadigen.

Belangrijkste Bijdragen

Kwaliteitsgerichte Data Pipeline: Een DataQA-systeem dat datasets filtert op ruis en diversiteit, gecombineerd met temporale alignering via optische flow.
Gefaseerde Trainingsrecept: Een bewezen route van web-schaal pretraining naar robot-specifieke specialisatie en RL-alignment, die generalisatie en robuustheid maximaliseert.
Unificatie van Acties: Een nieuwe methode om heterogene actieruimtes (joint vs. Cartesian, verschillende robottypes) te verenigen in één semantische ruimte zonder verlies van informatie.
Validatie over Embodiments: Het bewijs dat één beleid (policy) succesvol kan worden ingezet op enkelarmige systemen, dubbelarmige systemen en complexe mensachtige robots (Green humanoid) zonder architecturale wijzigingen.
JPM Guidance: Een innovatieve aanpak voor het aansturen van manipulatie naar specifieke, onbekende objecten in dynamische omgevingen (zoals e-commerce schappen).

Resultaten

Green-VLA is getest op diverse benchmarks en real-world scenario's:

Benchmarks (Simpler & CALVIN): Green-VLA presteert in de R0-fase al beter dan bestaande foundation-modellen (zoals $\pi_0$ , OpenVLA) en benadert de prestaties van modellen die specifiek zijn gefinetuned. Na RL-alignment (R2) behaalt het state-of-the-art resultaten op de Simpler BRIDGE WidowX setup en is zeer competitief op CALVIN.
E-commerce Schap-picking: In een omgeving met veel vergelijkbare producten (OOD scenario's) zorgt de JPM-guidance voor een enorme stijging in succespercentage (van ~36% naar ~93% voor exacte SKU's).
Humanoid Robot (Green): De robot slaagt erin complexe, bimanuele taken uit te voeren zoals het sorteren van fruit, het overhandigen van objecten en het schoonmaken van tafels. Het systeem toont robuustheid in onbekende (OOD) omgevingen en kan lange reeksen acties (long-horizon) succesvol voltooien.
Efficiëntie: Door de RL-fase (R2) wordt de "Average Chain Length" (ACL) aanzienlijk verbeterd, wat betekent dat de robot taken sneller en met minder fouten voltooit.

Betekenis en Impact

Green-VLA markeert een verschuiving in robotica van puur "schaalvergroting" (meer data, meer parameters) naar kwaliteitsalignering en architecturale unificatie.

Het bewijst dat een enkel model kan leren om te werken met verschillende robotlichamen door een slimme unificatie van actieruimtes.
Het lost het probleem van "brittle" (kwetsbare) modellen op door RL te gebruiken voor langere-termijn planning en foutherstel.
De framework biedt een praktische blauwdruk voor het bouwen van generalistische robots die niet alleen in simulatie, maar ook in de echte wereld (met onvoorspelbare objecten en omgevingen) kunnen opereren.
Het is specifiek geoptimaliseerd voor de mensachtige Green-robot, maar de methodiek is breed toepasbaar, wat de weg vrijmaakt voor snellere adoptie van geavanceerde robotica in huishoudens en industrie.

Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

1. Het Probleem: Robots zijn vaak te stijf

2. De Oplossing: Een Vijf-Stappen Leerplan

3. De "Universele Vertaler"

4. Slimme hulpmiddelen voor lastige situaties

5. Wat kunnen ze nu?

Conclusie

Probleemstelling

Methodologie: Green-VLA Framework

Kerncomponenten van de Architectuur:

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers