Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

Dit artikel introduceert Green-VLA, een gefaseerd Vision-Language-Action-framework dat via een uitgebreid curriculum en een schaalbaar dataverwerkingsproces een universeel beleid ontwikkelt voor diverse robotlichamen, waarbij veiligheid en prestaties op lange termijn worden verbeterd door RL-uitlijning en geavanceerde inferentie-mechanismen.

I. Apanasevich, M. Artemyev, R. Babakyan, P. Fedotova, D. Grankin, E. Kupryashin, A. Misailidi, D. Nerus, A. Nutalapati, G. Sidorov, I. Efremov, M. Gerasyov, D. Pikurov, Y. Senchenko, S. Davidenko, D. Kulikov, M. Sultankin, K. Askarbek, O. Shamanin, D. Statovoy, E. Zalyaev, I. Zorin, A. Letkin, E. Rusakov, A. Silchenko, V. Vorobyov, S. Sobolnikov, A. Postnikov

Gepubliceerd 2026-03-10
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt bouwen die niet alleen een simpele taak kan uitvoeren, zoals een kopje koffie pakken, maar die ook echt slim is, kan leren van verschillende situaties en zelfs complexe taken kan doen, zoals het opruimen van een hele tafel of het sorteren van boodschappen in een winkel.

Dit is precies wat het team van Sber Robotics Center heeft gedaan met hun nieuwe robot, genaamd Green, en het brein erachter: Green-VLA.

Hier is hoe ze het hebben gedaan, vertaald in simpele taal:

1. Het Probleem: Robots zijn vaak te stijf

Tot nu toe waren robot-robots vaak als een kind dat alleen maar een liedje kan zingen dat het heeft gehoord. Als je iets anders vraagt, of als de situatie een beetje verandert, raken ze in de war. Ze leren vaak alleen door te kijken wat iemand anders doet (nabootsen), maar ze begrijpen niet echt waarom ze iets doen. Als ze een keer een fout maken, weten ze niet hoe ze zich moeten redden.

2. De Oplossing: Een Vijf-Stappen Leerplan

Green-VLA is geen robot die in één keer alles leert. Het is meer als een student die een zeer gestructureerd leerplan volgt. De auteurs noemen dit een "staged curriculum" (een gefaseerd curriculum).

Stel je dit voor als het opbouwen van een huis:

  • Stap 1 & 2 (De Basis & De Wereld): Eerst leert de robot niet over robots, maar over de wereld zoals wij die zien. Hij kijkt naar miljarden foto's en video's van internet (zoals YouTube of Wikipedia). Hij leert wat een "banaan" is, wat "zwaar" betekent, en hoe dingen bewegen. Dit is alsof hij eerst naar school gaat om de wereld te begrijpen voordat hij gaat werken.
  • Stap 3 (De Praktijk): Nu kijkt hij naar duizenden uren video's van andere robots die taken uitvoeren. Hij leert hoe een robotarm een kopje vastpakt, of hoe een ander type robot een deur opent. Hij leert de "algemene regels" van bewegen, ongeacht of het een mensachtige robot is of een robotarm op een wieltje.
  • Stap 4 (De Specialisatie): Nu is het tijd om zich te specialiseren in zijn eigen lichaam (de Green-robot). Hij leert precies hoe zijn armen en handen werken.
  • Stap 5 (De Meesterklas - RL): Dit is het belangrijkste nieuwe stukje. Tot nu toe leerde de robot alleen door te kijken (nabootsen). In deze laatste stap krijgt hij een "virtuele trainer" (Reinforcement Learning). Als hij iets goed doet, krijgt hij een virtuele beloning. Als hij iets fout doet, leert hij van zijn fouten en probeert hij het opnieuw. Hierdoor leert hij niet alleen te kopiëren, maar ook om oplossingen te vinden als hij vastloopt.

3. De "Universele Vertaler"

Een groot probleem bij robots is dat ze allemaal anders zijn. De ene heeft twee armen, de andere heeft één arm, en weer een andere heeft een grijper in plaats van een hand.
Green-VLA heeft een slimme truc bedacht: een Universele Actie-ruimte.
Stel je voor dat alle robots een eigen taal spreken. Green-VLA fungeert als een vertaler. Hij vertaalt de instructie "pak dat op" naar een taal die elke robot begrijpt, ongeacht of hij twee armen of één arm heeft. Hierdoor kan één enkel "brein" (Green-VLA) besturen:

  • Een mensachtige robot (Green).
  • Een robotarm op een tafel.
  • Een mobiele robot met wielen.

4. Slimme hulpmiddelen voor lastige situaties

Soms staat er een object op een plank dat de robot nog nooit heeft gezien, of staat het heel precies.

  • De "JPM" (Joint Prediction Module): Dit is als een slimme zoektocht. Als de robot hoort "pik die blauwe fles op", maar ziet die fles niet direct, dan helpt deze module de robot om te raden waar die fles waarschijnlijk zit, gebaseerd op de tekst en de foto. Het is alsof de robot een beetje "snuffelt" met zijn ogen voordat hij grijpt.
  • De "OOD" Detector: Dit is een veiligheidsnet. Als de robot merkt dat hij iets gaat doen wat hij nog nooit heeft gedaan en dat gevaarlijk zou kunnen zijn, zegt hij: "Wacht even, dit voelt raar," en corrigeert zijn beweging om veilig te blijven.

5. Wat kunnen ze nu?

Met dit systeem is de Green-robot in staat om:

  • Borden en bestek van een tafel te halen en in een kast te zetten (zelfs als er veel rommel op staat).
  • Specifieke producten uit een winkelrek te pakken (bijvoorbeeld: "pik de oranje jus d'orange, niet de gele").
  • Taken uit te voeren die lang duren en meerdere stappen vereisen, zonder de draad kwijt te raken.

Conclusie

Green-VLA is een doorbraak omdat het niet alleen probeert om "groter" te zijn (meer data), maar "slimmer" te zijn. Door een goede mix van internetkennis, robotpraktijk en het leren van fouten (via beloningen), hebben ze een robot gemaakt die niet alleen een scriptje kan afspelen, maar die echt kan nadenken en aanpassen in de echte wereld.

Het is alsof je van een poppetje dat alleen maar dansbewegingen nabootst, een echte danser maakt die kan improviseren als de muziek stopt of als er iemand in de weg loopt.