Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einen Roboter namens Green bauen, der nicht nur wie ein starrer Arm funktioniert, sondern wie ein echter, flexibler Mensch: Er soll verstehen, was du sagst, Dinge sehen, planen und dann mit beiden Händen und dem ganzen Oberkörper Aufgaben erledigen – vom Aufräumen des Tisches bis zum Sortieren von Obst.

Das Problem ist: Roboter lernen normalerweise nur durch stures Nachahmen (wie ein Schüler, der eine Aufgabe 100-mal abspult). Das funktioniert gut für einfache Dinge, aber wenn die Welt sich ändert oder die Aufgabe kompliziert wird, scheitern sie.

Die Forscher vom Sber Robotics Center haben mit Green-VLA eine neue Methode entwickelt, die wie ein fünfstufiges Ausbildungsprogramm für einen genialen Roboter-Azubi funktioniert. Hier ist die Erklärung, wie das Ganze funktioniert, ohne technisches Fachchinesisch:

1. Das Geheimnis: Ein fünfstufiges Trainings-Camp

Statt den Roboter einfach nur mit Daten zu "füttern", haben sie ihn in fünf aufeinanderfolgenden Stufen ausgebildet. Man kann sich das wie das Studium eines Menschen vorstellen:

Stufe 0 & 1 (Die Schulzeit & Allgemeinbildung): Zuerst lernt der Roboter die Welt kennen. Er schaut sich Milliarden von Bildern und Videos aus dem Internet an (wie ein Kind, das die Welt entdeckt). Er lernt, dass ein Stuhl zum Sitzen da ist, dass Wasser fließt und dass man Dinge greifen kann. Er hat noch keine Arme, aber er versteht die Logik der Welt.
Stufe 2 (Das Praktikum bei verschiedenen Firmen): Jetzt kommt der Roboter in Kontakt mit echten Robotern. Aber nicht nur einem! Er trainiert mit Daten von vielen verschiedenen Robotern: von einfachen Armen, von mobilen Robotern und sogar von anderen humanoiden Robotern. Er lernt: "Oh, ein Greifarm bewegt sich anders als ein ganzer Mensch, aber das Ziel (den Apfel greifen) ist dasselbe." Er lernt die gemeinsamen Regeln des Greifens, egal wie viele Gelenke der Roboter hat.
Stufe 3 (Die Spezialisierung): Jetzt konzentriert sich der Roboter nur noch auf seinen Körper – den Green-Roboter. Er lernt genau, wie seine 32 Gelenke funktionieren, wie seine Finger sich bewegen und wie er sein Gleichgewicht hält. Er wird zum Spezialisten für seinen eigenen Körper.
Stufe 4 (Das Coaching durch den Trainer): Das ist der wichtigste Schritt. Bisher hat der Roboter nur nachgeahmt. Jetzt bekommt er einen "Trainer" (Reinforcement Learning). Wenn er eine Aufgabe gut macht, gibt es Lob (Belohnung). Wenn er etwas fallen lässt, lernt er daraus, ohne dass jemand ihm den Weg zeigen muss. Er lernt, Fehler zu korrigieren und schwierige Aufgaben (wie lange Reihen von Handlungen) zu meistern.

2. Die drei genialen Tricks im Hintergrund

Um dieses Training so effizient zu machen, haben die Entwickler drei clevere Werkzeuge erfunden:

Der "Einheits-Steckdose"-Ansatz (Unified Action Space):
Stell dir vor, du hast viele verschiedene Fernbedienungen für verschiedene Geräte. Normalerweise müsstest du für jede eine eigene App lernen. Green-VLA erfindet eine universelle Fernbedienung. Egal, ob der Roboter 3 Gelenke oder 30 hat, Green-VLA denkt in einer einheitlichen Sprache. Das bedeutet: Was er von einem kleinen Roboter lernt, kann er sofort auf den großen Humanoiden übertragen. Es ist wie wenn du Klavier spielen lernst und dann sofort auch Orgel spielen kannst, weil die Prinzipien dieselben sind.
Der "Qualitäts-Filter" (DataQA):
Nicht jedes Video, das ein Roboter aufnimmt, ist gut. Manche sind wackelig, unscharf oder der Roboter macht nur Unsinn. Green-VLA hat einen intelligenten Filter, der wie ein strenger Filmkritiker funktioniert. Er schaut sich die Aufnahmen an und wirft alles weg, was "wackelig" oder "unscharf" ist. Nur die besten, glattesten und klarsten Bewegungen kommen ins Training. Das spart Zeit und macht den Roboter schlauer.
Der "Zielscheiben-Helfer" (JPM Guidance):
Stell dir vor, du sollst eine sehr kleine, spezielle Flasche aus einem vollen Regal holen, die du noch nie gesehen hast. Ein normaler Roboter würde raten. Green-VLA hat aber einen intelligenten Assistenten. Dieser liest den Befehl ("Hole die blaue Flasche"), schaut sich das Bild an, berechnet genau, wo die Flasche ist, und gibt dem Roboter eine unsichtbare "Zielscheibe" vor. Der Roboter weiß dann genau, wohin er greifen muss, selbst wenn die Flasche neu ist. Das ist wie wenn dir jemand im Dunkeln sagt: "Greife genau dort hin, wo das Licht ist."

3. Was kann Green-VLA heute schon?

Er ist ein Generalist: Er kann Aufgaben auf einem einfachen Roboterarm erledigen und funktioniert dann sofort auch auf dem komplexen, menschenähnlichen Green-Roboter, ohne dass man die Software ändern muss.
Er ist schnell und präzise: Er kann lange Aufgabenketten planen (z. B. "Räume den Tisch ab", "Sortiere das Obst", "Gib mir den Apfel").
Er ist robust: Wenn etwas schiefgeht (z. B. ein Objekt rutscht), weiß er, wie er sich korrigiert, dank des "Trainer-Modus" (Stufe 4).
Er versteht Sprache: Du kannst ihm auf Deutsch, Englisch oder Russisch sagen, was er tun soll, und er versteht den Kontext.

Zusammenfassung

Green-VLA ist wie ein Super-Azubi, der erst die Welt im Internet studiert, dann bei vielen verschiedenen Firmen Praktika macht, sich dann auf seinen eigenen Körper spezialisiert und schließlich von einem Coach trainiert wird, der ihm beibringt, Fehler zu vermeiden und Aufgaben effizient zu lösen.

Das Ergebnis ist ein Roboter, der nicht stur Befehle abspult, sondern versteht, plant und anpasst – genau wie ein echter Mensch. Das ist ein riesiger Schritt hin zu Robotern, die uns im echten Leben wirklich helfen können, sei es in der Fabrik, im Laden oder im Haushalt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Trotz rascher Fortschritte bei Vision-Language-Action (VLA) Modellen bleiben zentrale Herausforderungen für den Einsatz in der realen Welt bestehen:

Heterogenität der Daten: Roboter-Datensätze unterscheiden sich stark in Beobachtungen, Aktionsräumen und Abtastraten.
Datenqualität: Viele Datensätze leiden unter Rauschen (Jitter), unscharfen Frames, inkonsistenter Ausführung und geringer Szenenvielfalt.
Limitierungen von Behavior Cloning (BC): Der vorherrschende Trainingsansatz (BC) stößt schnell an Grenzen, insbesondere bei langfristigen Aufgaben (Long-Horizon Tasks). Er scheitert oft daran, Strategien an langfristige Ziele und Belohnungen anzupassen, was zu brüchigen Modellen führt, die schlecht auf neue Embodiments (Roboterformen) oder Umgebungen verallgemeinern.
Effizienz vs. Reasoning: Explizite Reasoning-Ansätze (Chain-of-Thought) verbessern die Planung, führen aber oft zu hohen Latenzen, die für die Echtzeitsteuerung ungeeignet sind.

2. Methodik: Das Green-VLA Framework

Green-VLA ist ein gestuftes (staged) Framework, das über reine Skalierung hinausgeht und Qualität, Handlungseinheit und Reinforcement Learning (RL) integriert. Es zielt darauf ab, eine einzelne Policy zu erstellen, die auf verschiedenen Robotern (Humanoiden, mobilen Manipulatoren, festen Armen) funktioniert.

A. Die 5-Stufen-Trainingskurve (Curriculum)

Das Training folgt einem strukturierten Ablauf, der semantische und physikalische Priors aufbaut:

L0 (Base VLM): Startpunkt ist ein vortrainiertes Vision-Language-Modell (z. B. Qwen3-VL oder PaliGemma) ohne Roboter-Aktionen.
L1 (Web & Multimodal Pretraining): Nutzung von 24 Millionen nicht-robotischen, internetweiten multimodalen Daten (VQA, räumliches Reasoning, Zeigen), um physikalisches Verständnis und Affordanzen zu erlernen.
R0 (General Robotics Pretraining): Vortraining auf über 3.000 Stunden Roboter-Demonstrationen (ca. 184 Mio. Samples) von verschiedenen Robotern (Humanoiden, Dual-Arm, Single-Arm). Hier werden gemeinsame Manipulationsfähigkeiten gelernt.
R1 (Embodiment-Specific Adaptation): Feinabstimmung (Fine-Tuning) auf ein spezifisches Ziel-Embodiment (primär der „Green"-Humanoid-Roboter), um die Erfolgsrate (Success Rate) zu maximieren.
R2 (RL Alignment): Reinforcement Learning zur Ausrichtung der Policy auf langfristige Belohnungen, Fehlerkorrektur und Robustheit, um die Grenzen von Behavior Cloning zu überwinden.

B. Daten-Framework und Qualitätssicherung

DataQA Pipeline: Ein automatisiertes System zur Bewertung und Filterung von Trajektorien basierend auf Metriken wie Jitter ( $J$ ), Schärfe ( $S$ ), visueller Vielfalt ( $D$ ) und Zustandsvarianz ( $\sigma^2$ ).
Temporale Ausrichtung: Nutzung von optischem Fluss (Optical Flow) zur Normalisierung der Ausführungsgeschwindigkeit über verschiedene Datensätze hinweg.
Datenaugmentierung: Synthetische Erweiterung von Humanoid-Daten durch Spiegelung (Bilateral Symmetry) und zeitliche Umkehrung reversibler Aufgaben, um die Trainingsmenge zu erhöhen.

C. Architektur und Unified Action Space

Einheitlicher Aktionsraum ( $A_u$ ): Statt naive Padding-Strategien zu verwenden, definiert Green-VLA einen einheitlichen semantischen Raum (64 Dimensionen). Jede Roboter-Aktion wird über eine Abbildung $\Phi_e$ in diesen Raum projiziert. Ein binärer Maskierungsmechanismus ( $m_e$ ) sorgt dafür, dass nur relevante Dimensionen für das jeweilige Embodiment berechnet werden, was negative Transfer-Effekte verhindert.
Flow-Matching Action Expert: Ein Flow-Matching-Modell sagt Aktions-Chunks im einheitlichen Raum vorher.
Task Planner: Ein hochauflösendes VLM (GigaVision) zerlegt komplexe Benutzeranweisungen in atomare Subaufgaben (z. B. „Greife Objekt X mit linker Hand").
Guidance Module (JPM): Ein Joint Prediction Module sagt einen 3D-Zielpunkt für das Greifen vorher und leitet den Flow-Matching-Prozess gezielt dorthin, was besonders bei unbekannten Objekten (OOD) hilft.
OOD-Detektion: Ein Gaußsches Mischmodell (GMM) überwacht den Zustandsraum und korrigiert Aktionen, die den Roboter in unwahrscheinliche (OOD) Zustände führen würden.

3. Schlüsselbeiträge

Qualitäts- und Zeit-Alignment: Eine DataQA-Pipeline mit Trajektorien-Glättung und optischem Fluss-basiertem Speed-Alignment, kombiniert mit einem Joint Prediction Module (JPM) für präzises Zielen.
Gestuftes Trainingsrezept: Ein klarer Pfad von Web-Priors über Roboter-Pretraining bis hin zu Embodiment-Spezialisierung und RL-Ausrichtung (L0→L1→R0→R1→R2).
Unified Action Space: Ein Design, das positive Transfer-Effekte zwischen verschiedenen Robotertypen ermöglicht, ohne die Architektur zu ändern.
Validierung: Umfassende Tests zeigen, dass das gestufte Training zu signifikanten Verbesserungen führt, insbesondere durch die RL-Phase (R2) bei langfristigen Aufgaben.
Deployment-Ready: Das System wurde erfolgreich auf dem Green-Humanoid-Roboter (32 DoF, dexterous hands) eingesetzt und generalisiert auf andere Plattformen.

4. Ergebnisse

Benchmarks (Simpler & CALVIN): Green-VLA übertrifft in der R0-Phase (reines Pretraining) viele bestehende Modelle (wie $\pi_0$ $π_{0}$ , OpenVLA, GR00T N1) und erreicht nach R1/R2 Feinabstimmung State-of-the-Art-Ergebnisse.
- Auf dem WidowX-Roboter (Simpler-Benchmark) stieg die Erfolgsrate von R1 zu R2 um 24 % absolut.
- Auf dem CALVIN-Benchmark zeigte R2 deutliche Verbesserungen bei der durchschnittlichen Kettenlänge (ACL) und der Fehlerkorrektur.
Humanoid-Performance: Auf dem Green-Roboter wurde eine hohe Erfolgsrate bei komplexen, bimanualen Aufgaben (Tischreinigung, Sortieren, Übergeben) erreicht, auch bei Out-of-Distribution (OOD) Szenarien.
E-Commerce-Szenario: In einem Regal-Picking-Szenario mit neuen Produkten (OOD) führte die JPM-Guidance zu einer signifikanten Steigerung der Erfolgsrate (von ~36 % auf ~93 % bei ID-SKU).
Effizienz: Das Modell erreicht hohe Erfolgsraten bei gleichzeitig kürzeren Ausführungszeiten im Vergleich zu Baselines.

5. Bedeutung und Ausblick

Green-VLA demonstriert, dass die reine Skalierung von Daten nicht ausreicht. Stattdessen ist eine Kombination aus hochwertigen, bereinigten Daten, einem einheitlichen Aktionsraum für verschiedene Roboter und Reinforcement Learning entscheidend für robuste, generalistische Robotik.

Das Framework bietet einen praktischen Weg, um von Web-Daten zu einsatzbereiten Robotern zu gelangen. Es löst das Problem der Fragmentierung zwischen verschiedenen Robotertypen und ermöglicht es, eine einzelne Policy für Humanoid-Roboter, mobile Manipulatoren und feste Arme zu nutzen. Zukünftige Arbeiten zielen auf mehrsprachige Unterstützung, effizienteres Reasoning und die Integration von Online-Datensammlung ab.

Zusammenfassend stellt Green-VLA einen Meilenstein dar, der zeigt, wie durch sorgfältige Datenkuratierung, architektonische Vereinheitlichung und RL-Verfeinerung zuverlässige, generalistische KI-Roboter für komplexe reale Aufgaben gebaut werden können.

Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

1. Das Geheimnis: Ein fünfstufiges Trainings-Camp

2. Die drei genialen Tricks im Hintergrund

3. Was kann Green-VLA heute schon?

Zusammenfassung

1. Problemstellung

2. Methodik: Das Green-VLA Framework

A. Die 5-Stufen-Trainingskurve (Curriculum)

B. Daten-Framework und Qualitätssicherung

C. Architektur und Unified Action Space

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes