StemVLA:An Open-Source Vision-Language-Action Model with Future 3D Spatial Geometry Knowledge and 4D Historical Representation

Each language version is independently generated for its own context, not a direct translation.

Stell dir einen Roboterarm vor, der wie ein kleiner Koch in einer Küche arbeitet. Bisher waren diese Roboter oft wie blinde Köche: Sie konnten sehen, was auf dem Teller lag (2D-Bilder), aber sie hatten kein echtes Gefühl für die Tiefe oder dafür, wie sich Dinge bewegen, wenn sie sie anfassen. Wenn sie versuchten, einen Teller zu schieben, wussten sie oft nicht genau, wie weit er rutschen würde oder was dahinter lag.

Die Forscher haben jetzt eine neue Lösung namens StemVLA entwickelt. Man kann sich das wie einen Super-Koch mit einem Kristallkugel- und einem Zeitmaschinen-Verstand vorstellen.

Hier ist die einfache Erklärung, wie das funktioniert:

1. Das Problem: Der Roboter sieht nur "flach"

Die alten Roboter-Modelle schauten nur auf ein flaches Foto. Das ist wie wenn du versuchst, einen Stapel Bücher zu sortieren, indem du nur auf den Schatten an der Wand schaust. Du siehst die Form, aber nicht, wie tief der Stapel ist oder wie sich die Bücher bewegen, wenn du sie anfasst. Das führte zu Fehlern, besonders bei langen Aufgaben (z. B. "Nimm den Teller, räume den Tisch ab, bringe den Teller in die Spülmaschine").

2. Die Lösung: StemVLA mit zwei super Kräften

StemVLA gibt dem Roboter zwei neue Fähigkeiten, die wie ein Zukunftsvisionär und ein Zeitgeschichtenerzähler funktionieren:

A. Der Zukunftsvisionär (3D-Raumwissen)

Statt nur zu raten, wie die Welt aussieht, träumt StemVLA die Zukunft vorher.

Die Analogie: Stell dir vor, du spielst Billard. Ein normaler Spieler sieht nur die Kugeln jetzt. StemVLA hingegen schließt die Augen, stellt sich vor, wie die Kugeln nach dem Stoß rollen werden, und berechnet im Kopf die exakte 3D-Position.
Was es tut: Bevor der Roboter eine Bewegung macht, berechnet er im Inneren, wie die Objekte in der nächsten Sekunde aussehen werden (Tiefe, Abstand, Form). Er weiß also nicht nur, wo der Tassenrand ist, sondern auch, wie er sich bewegen wird, wenn er ihn berührt.

B. Der Zeitgeschichtenerzähler (4D-Vergangenheit)

Roboter hatten oft ein schlechtes Kurzzeitgedächtnis. Sie sahen das letzte Bild, aber vergaßen, wie sich die Dinge davor bewegt haben.

Die Analogie: Stell dir vor, du versuchst, einen Tanzschritt zu lernen, indem du nur auf ein einzelnes Foto schaust. Du weißt nicht, ob der Tänzer gerade springt oder landet. StemVLA schaut sich hingegen einen ganzen Film an, nicht nur ein Standbild.
Was es tut: Es fasst alle Bilder der letzten Sekunden zusammen und erstellt eine Art "4D-Karte" (3D-Raum + Zeit). So versteht der Roboter nicht nur, dass ein Ball da ist, sondern dass er rollt, beschleunigt oder abprallt. Das hilft ihm, Bewegungen vorherzusehen und flüssiger zu agieren.

3. Wie alles zusammenpasst

StemVLA verbindet diese beiden Fähigkeiten in einem großen Gehirn (einem KI-Modell):

Es schaut sich die aktuelle Szene an.
Es ruft seinen Zeitgeschichtenerzähler auf, um zu verstehen, was gerade passiert (Bewegung).
Es ruft seinen Zukunftsvisionär auf, um zu planen, was als Nächstes passiert (Raum).
Erst dann sagt es dem Roboterarm: "Heb die Hand jetzt genau so!"

Das Ergebnis

In Tests (wie in einer virtuellen Küche namens CALVIN) war dieser neue Roboter viel besser als alle vorherigen. Er konnte längere Aufgaben ohne Fehler erledigen.

Alte Roboter: Schafften vielleicht 2-3 Schritte hintereinander, bevor sie sich verirrten.
StemVLA: Schaffte deutlich mehr Schritte in einer Reihe, weil er die Welt dreidimensional versteht und die Zeit im Blick hat.

Zusammengefasst: StemVLA ist wie ein Roboter, der nicht nur "sieht", sondern auch "fühlt" (durch 3D-Wissen) und "erinnert" (durch 4D-Zeitwissen). Dadurch wird er zum Meisterkoch, der komplexe Aufgaben sicher und flüssig erledigt, statt nur blind herumzufummeln.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Bestehende Vision-Language-Action (VLA) Modelle für robotische Manipulation basieren häufig auf impliziten 2D-Visuellen Darstellungen, die direkte Abbildungen von Bild-Eingaben auf Aktionssequenzen lernen. Diese Ansätze weisen jedoch erhebliche Einschränkungen auf:

Fehlende 3D-Struktur: Sie modellieren die zugrunde liegende 3D-Raumgeometrie (z. B. Tiefe, Szenenlayout) nicht explizit, was das räumliche Denken und die physische Interaktion behindert.
Begrenzte zeitliche Dynamik: Historische Beobachtungen werden oft bildweise kodiert, ohne kohärente 4D-spatiotemporale Dynamiken (Bewegung, Kausalität über die Zeit) zu erfassen.
Redundanz und Ineffizienz: Ansätze, die zukünftige Vollbild-Frames vorhersagen, erzeugen oft redundante Pixelinformationen, anstatt strukturierte geometrische Weltwissen zu extrahieren.
Fehlende Langzeitplanung: Ohne explizite Modellierung von zukünftigen Szenenstrukturen und historischem Kontext ist die Entscheidungsfindung für komplexe, langfristige Aufgaben (Long-Horizon Tasks) unzureichend.

2. Methodik: Das StemVLA-Framework

StemVLA ist ein neuartiges Framework, das explizit zukunftsorientiertes 3D-Raumgeometrie-Wissen und historische 4D-spatiotemporale Darstellungen in die Aktionsvorhersage integriert. Die Architektur basiert auf einem gemeinsamen Multimodal Large Language Model (MLLM) Backbone und besteht aus vier Kernkomponenten:

A. Eingabe-Modi und Kodierung

Das Modell verarbeitet heterogene Eingaben:

Natürlichsprachliche Anweisungen: Kodiert via CLIP Text Encoder.
2D-Bildbeobachtungen: Kodiert via Masked AutoEncoder (MAE) für feinkörnige Merkmale (Farbe, Textur).
Propriozeptive Zustände: Verarbeitet durch Aufmerksamkeitsmodule und Fully-Connected-Layer.
Historische Video-Sequenzen: Hier kommt der entscheidende Unterschied: Statt roher Pixel werden latente 3D-Raummerkmale extrahiert.

B. 4D-Historische Spatiotemporale Darstellung

Um zeitliche Konsistenz und Bewegungsdynamik zu erfassen, nutzt StemVLA einen zweistufigen Prozess:

VGGT Aggregator: Extrahiert latente 3D-Raumgeometrie-Merkmale (Tiefe, Layout) aus historischen 2D-Bildern.
VideoFormer (History Aggregator): Ein temporaler Aufmerksamkeitsmodul, das diese 3D-Merkmale über die Zeit aggregiert.

Ergebnis: Eine einheitliche 4D-historische Darstellung, die sowohl räumliche Struktur als auch zeitliche Dynamik (Bewegungszustände, Kausalität) kodiert.

C. 3D-Zukünftige Raumgeometrie-Wissensvorhersage (FSGWP)

Statt zukünftige Pixelbilder zu generieren, sagt das Modell strukturierte 3D-Weltinformationen voraus:

Ein lernbarer <spatial-geometric>-Query wird in das MLLM eingeführt.
Das Modell extrapoliert den Weltzustand für $n$ Schritte in die Zukunft.
Supervision: Die Vorhersage wird durch einen 3D-Zukunfts-Supervisions-Modul geleitet, das Ground-Truth-Labels (generiert durch VGGT aus zukünftigen Frames) nutzt, um den Fehler (L2-Loss) zwischen vorhergesagter und tatsächlicher 3D-Geometrie zu minimieren. Dies zwingt das Modell, die physikalische Struktur der Welt zu verstehen, anstatt nur Pixel zu raten.

D. Aktionsgenerierung via Diffusion

Ein lernbarer <action>-Query aggregiert die kontextuellen Informationen (Sprache, 4D-Historie, 3D-Zukunft).
Diese latente Aktions-Embedding wird an einen Denoising-Diffusion Transformer (DiT) weitergegeben.
Der DiT generiert durch iteratives Ent-Rauschen eine sequenzielle Aktions-Trajektorie.

3. Schlüsselbeiträge

Explizite 3D- und 4D-Integration: StemVLA ist das erste VLA-Modell, das sowohl zukünftige 3D-Geometrie als auch historische 4D-Dynamiken explizit in die Aktionsplanung integriert, ohne auf redundante Bildgenerierung angewiesen zu sein.
Latente 3D-Repräsentationen: Durch die Nutzung von VGGT und VideoFormer werden implizite, aber ausdrucksstarke 3D-Strukturen aus 2D-Daten extrahiert, was eine präzisere physikalische Reasoning ermöglicht.
Dual-Query-Mechanismus: Die Trennung von <spatial-geometric>- und <action>-Queries erlaubt eine spezialisierte Verarbeitung von Weltwissen und Kontrollbefehlen innerhalb eines einzigen MLLM-Backbones.
Open-Source-Ansatz: Das Framework ist als Open-Source-Modell konzipiert, um die Reproduzierbarkeit und Weiterentwicklung in der Community zu fördern.

4. Ergebnisse

Die Leistung von StemVLA wurde auf zwei wichtigen Benchmarks evaluiert:

CALVIN ABC-D Benchmark (Langfristige Manipulation):
- StemVLA erreicht einen State-of-the-Art (SOTA)-Ergebnis.
- Es übertrifft bestehende Methoden (wie OpenVLA, Robovlm, VPP) signifikant in der durchschnittlichen Sequenzlänge (Anzahl erfolgreich abgeschlossener Aufgaben in Folge).
- Die Erfolgswahrscheinlichkeit steigt von ca. XX.X% auf XX.X% (genaue Zahlen im Paper durch Platzhalter ersetzt, aber der Trend ist klar: deutliche Steigerung).
- Besonders starke Verbesserungen wurden bei räumlich komplexen und langfristigen Szenarien verzeichnet.
LIBERO Benchmark (Transferlernen und verschiedene Aufgaben):
- Auf allen vier Subsets (Spatial, Object, Goal, Long) erzielt StemVLA die besten Ergebnisse.
- Ablationsstudien belegen die Wirksamkeit der einzelnen Komponenten:
  - Ohne 4D-Historie sinkt die Leistung signifikant (z. B. auf LIBERO-Long von 86,0% auf 83,5%).
  - Ohne 3D-Zukunfts-Wissen bricht die Leistung drastisch ein (z. B. auf LIBERO-Long von 86,0% auf 67,0%), was die kritische Rolle der geometrischen Vorhersage unterstreicht.

5. Bedeutung und Ausblick

StemVLA adressiert eine fundamentale Lücke in der Embodied AI: Die Fähigkeit, nicht nur zu sehen, sondern die physikalische Struktur und zeitliche Entwicklung der Welt zu verstehen.

Robustheit: Durch die explizite Modellierung von 3D-Geometrie und 4D-Dynamik ist das Modell robuster gegenüber viewpoint-Änderungen, Verdeckungen und dynamischen Umgebungen.
Effizienz: Der Verzicht auf die Generierung voller zukünftiger Bilder zugunsten von strukturierten 3D-Kenntnissen reduziert Rechenredundanz und verbessert die Planungsgenauigkeit.
Zukunft: Die Autoren planen, das Modell auf dexterous hands (geschickte Hände) zu erweitern, die Datengrundlage zu vergrößern und den DiT durch effizientere Flow-Matching-Techniken zu ersetzen, um die Bewegungskalme zu verbessern.

Zusammenfassend stellt StemVLA einen Paradigmenwechsel dar, weg von rein pixelbasierten VLA-Modellen hin zu Systemen, die tiefes räumliches und zeitliches Verständnis für komplexe robotische Manipulationsaufgaben nutzen.