StemVLA:An Open-Source Vision-Language-Action Model with Future 3D Spatial Geometry Knowledge and 4D Historical Representation

Die Arbeit stellt StemVLA vor, ein Open-Source-Vision-Language-Action-Modell, das durch die explizite Integration zukünftiger 3D-Raumgeometrie und historischer 4D-Spatiotemporal-Darstellungen die räumliche Schlussfolgerung und langfristige Entscheidungsfindung bei Robotermanipulationsaufgaben verbessert und damit neue Maßstäbe auf dem CALVIN ABC-D-Benchmark setzt.

Jiasong Xiao, Yutao She, Kai Li, Yuyang Sha, Ziang Cheng, Ziang Tong

Veröffentlicht 2026-03-02
📖 3 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir einen Roboterarm vor, der wie ein kleiner Koch in einer Küche arbeitet. Bisher waren diese Roboter oft wie blinde Köche: Sie konnten sehen, was auf dem Teller lag (2D-Bilder), aber sie hatten kein echtes Gefühl für die Tiefe oder dafür, wie sich Dinge bewegen, wenn sie sie anfassen. Wenn sie versuchten, einen Teller zu schieben, wussten sie oft nicht genau, wie weit er rutschen würde oder was dahinter lag.

Die Forscher haben jetzt eine neue Lösung namens StemVLA entwickelt. Man kann sich das wie einen Super-Koch mit einem Kristallkugel- und einem Zeitmaschinen-Verstand vorstellen.

Hier ist die einfache Erklärung, wie das funktioniert:

1. Das Problem: Der Roboter sieht nur "flach"

Die alten Roboter-Modelle schauten nur auf ein flaches Foto. Das ist wie wenn du versuchst, einen Stapel Bücher zu sortieren, indem du nur auf den Schatten an der Wand schaust. Du siehst die Form, aber nicht, wie tief der Stapel ist oder wie sich die Bücher bewegen, wenn du sie anfasst. Das führte zu Fehlern, besonders bei langen Aufgaben (z. B. "Nimm den Teller, räume den Tisch ab, bringe den Teller in die Spülmaschine").

2. Die Lösung: StemVLA mit zwei super Kräften

StemVLA gibt dem Roboter zwei neue Fähigkeiten, die wie ein Zukunftsvisionär und ein Zeitgeschichtenerzähler funktionieren:

A. Der Zukunftsvisionär (3D-Raumwissen)

Statt nur zu raten, wie die Welt aussieht, träumt StemVLA die Zukunft vorher.

  • Die Analogie: Stell dir vor, du spielst Billard. Ein normaler Spieler sieht nur die Kugeln jetzt. StemVLA hingegen schließt die Augen, stellt sich vor, wie die Kugeln nach dem Stoß rollen werden, und berechnet im Kopf die exakte 3D-Position.
  • Was es tut: Bevor der Roboter eine Bewegung macht, berechnet er im Inneren, wie die Objekte in der nächsten Sekunde aussehen werden (Tiefe, Abstand, Form). Er weiß also nicht nur, wo der Tassenrand ist, sondern auch, wie er sich bewegen wird, wenn er ihn berührt.

B. Der Zeitgeschichtenerzähler (4D-Vergangenheit)

Roboter hatten oft ein schlechtes Kurzzeitgedächtnis. Sie sahen das letzte Bild, aber vergaßen, wie sich die Dinge davor bewegt haben.

  • Die Analogie: Stell dir vor, du versuchst, einen Tanzschritt zu lernen, indem du nur auf ein einzelnes Foto schaust. Du weißt nicht, ob der Tänzer gerade springt oder landet. StemVLA schaut sich hingegen einen ganzen Film an, nicht nur ein Standbild.
  • Was es tut: Es fasst alle Bilder der letzten Sekunden zusammen und erstellt eine Art "4D-Karte" (3D-Raum + Zeit). So versteht der Roboter nicht nur, dass ein Ball da ist, sondern dass er rollt, beschleunigt oder abprallt. Das hilft ihm, Bewegungen vorherzusehen und flüssiger zu agieren.

3. Wie alles zusammenpasst

StemVLA verbindet diese beiden Fähigkeiten in einem großen Gehirn (einem KI-Modell):

  1. Es schaut sich die aktuelle Szene an.
  2. Es ruft seinen Zeitgeschichtenerzähler auf, um zu verstehen, was gerade passiert (Bewegung).
  3. Es ruft seinen Zukunftsvisionär auf, um zu planen, was als Nächstes passiert (Raum).
  4. Erst dann sagt es dem Roboterarm: "Heb die Hand jetzt genau so!"

Das Ergebnis

In Tests (wie in einer virtuellen Küche namens CALVIN) war dieser neue Roboter viel besser als alle vorherigen. Er konnte längere Aufgaben ohne Fehler erledigen.

  • Alte Roboter: Schafften vielleicht 2-3 Schritte hintereinander, bevor sie sich verirrten.
  • StemVLA: Schaffte deutlich mehr Schritte in einer Reihe, weil er die Welt dreidimensional versteht und die Zeit im Blick hat.

Zusammengefasst: StemVLA ist wie ein Roboter, der nicht nur "sieht", sondern auch "fühlt" (durch 3D-Wissen) und "erinnert" (durch 4D-Zeitwissen). Dadurch wird er zum Meisterkoch, der komplexe Aufgaben sicher und flüssig erledigt, statt nur blind herumzufummeln.