InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation

Das Paper stellt InstructVLA vor, ein End-to-End-Modell, das durch eine neuartige Vision-Language-Action Instruction Tuning (VLA-IT)-Paradigme die flexible multimodale Reasoning-Fähigkeit großer Sprachmodelle mit präziser robotischer Manipulation verbindet und dabei sowohl in Simulationen als auch in der realen Welt signifikante Verbesserungen gegenüber bestehenden Ansätzen erzielt.

Shuai Yang, Hao Li, Bin Wang, Yilun Chen, Yang Tian, Tai Wang, Hanqing Wang, Feng Zhao, Yiyi Liao, Jiangmiao Pang

Veröffentlicht 2026-03-04
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🤖 InstructVLA: Der Roboter, der nicht nur handelt, sondern auch denkt

Stell dir vor, du möchtest einen Roboter bauen, der dir im Haushalt hilft. Das Problem bisher war: Entweder war der Roboter ein Genie in der Sprache (er verstand Witze, konnte Texte schreiben und Bilder beschreiben), aber wenn du ihn batest, „den roten Becher auf den Tisch zu stellen", landete er daneben. Oder er war ein Meister der Bewegung (er konnte Dinge greifen und stapeln), aber er war wie ein Roboter ohne Gehirn: Er verstand keine komplexen Anweisungen wie „Hilf mir beim Aufräumen, aber lass die Vase stehen".

Bisher mussten Forscher sich entscheiden: Verstehen oder Handeln?

Das neue Papier stellt InstructVLA vor. Das ist wie ein Roboter, der beides kann: Er hat den Kopf eines Professors (für das Verstehen) und die Hände eines Handwerkers (für das Handeln).

1. Das Problem: Der „Vergessliche" Roboter

Frühere Roboter-Modelle hatten ein großes Problem: Wenn man sie trainierte, um Dinge zu greifen (Manipulation), vergaßen sie oft alles, was sie über Sprache und Bilder wussten.

  • Die Analogie: Stell dir vor, du bist ein brillanter Mathematiker. Wenn du jetzt nur noch 10 Jahre lang nur Klavier üben würdest, würdest du vielleicht ein guter Pianist werden, aber du würdest deine Mathekenntnisse verlieren. Frühere Roboter-Modelle waren so: Sie wurden zu guten „Klaviern", vergaßen aber ihre „Mathe".

2. Die Lösung: InstructVLA – Der „Zwei-in-Eins"-Chef

InstructVLA löst dieses Problem durch eine clevere Architektur, die man sich wie ein großes Büro mit zwei Abteilungen vorstellen kann:

  • Abteilung A (Der Denker): Ein riesiges Sprach-Modell (wie ein sehr schlauer Chatbot), das die Welt versteht. Es sieht Bilder, liest Anweisungen und weiß, was ein „Löffel" ist oder was „sauber" bedeutet.
  • Abteilung B (Der Macher): Ein spezialisierter Motor, der die physischen Bewegungen plant (wie Greifen, Drehen, Bewegen).

Das Geniale an InstructVLA ist die Verbindung zwischen beiden:
Es nutzt eine Technik namens „Mixture of Experts" (MoE). Das ist wie ein Wechselschalter oder ein Türsteher.

  • Wenn der Roboter eine komplexe Frage bekommt („Welches Obst ist am sauersten?"), schaltet er auf Abteilung A (Denker) um und denkt nach.
  • Wenn er dann handeln muss („Greife die saure Zitrone"), schaltet er nahtlos auf Abteilung B (Macher) um.
  • Wichtig: Der „Denker" vergisst dabei nichts! Er behält sein gesamtes Wissen über die Welt, während er gleichzeitig lernt, wie man Dinge greift.

3. Der Trainings-Trick: „Lernen durch Nachdenken"

Wie trainiert man so etwas? Die Forscher haben einen neuen Weg gefunden, den sie VLA-IT nennen.

Stell dir vor, du unterrichtest einen Schüler:

  1. Schritt 1 (Das Grundgerüst): Du gibst dem Roboter erst einmal nur die Aufgabe, die Bewegungen zu lernen, aber du lässt ihn dabei über die Bewegungen sprechen. Er sagt also: „Ich greife jetzt den Becher" und führt die Bewegung aus. So verknüpft er Sprache und Tat, ohne sein Sprachwissen zu verlieren.
  2. Schritt 2 (Der Feinschliff): Jetzt kommen die komplexen Aufgaben. Der Roboter lernt, nicht nur „Greife" zu sagen, sondern zu denken: „Der Becher ist rot, aber ich soll den blauen nehmen. Also muss ich erst den blauen finden." Er lernt, Schritt-für-Schritt zu planen, bevor er die Hand bewegt.

4. Die Ergebnisse: Ein Roboter, der wirklich versteht

Die Forscher haben ihren Roboter auf einem neuen Testgelände namens SimplerEnv-Instruct geprüft. Das war wie eine „Schule für Roboter", in der es Aufgaben gab wie:

  • „Nimm das Werkzeug, mit dem man schneiden kann" (Der Roboter muss wissen, was ein Messer ist, auch wenn es nicht so genannt wird).
  • „Mach das, was man tut, wenn man durstig ist, aber keine Getränke will" (Er muss ein Obst holen, keine Cola).

Das Ergebnis?

  • InstructVLA war deutlich besser als alle vorherigen Modelle.
  • Während andere Roboter bei solchen Aufgaben oft versagten (weil sie nur das Wort „Greifen" kannten, aber nicht den Kontext), löste InstructVLA die Aufgaben fast immer richtig.
  • Er konnte sogar in der echten Welt (nicht nur im Simulator) funktionieren, indem er Anweisungen wie „Hilf mir beim Essen vorbereiten" in konkrete Handlungen umsetzte.

Zusammenfassung in einem Satz

InstructVLA ist wie ein Roboter-Assistent, der nicht blind Befehle ausführt, sondern erst kurz nachdenkt („Was genau will der Mensch?"), dann die passende Handlung plant und dabei sein riesiges Wissen über die Welt behält, ohne dabei zu vergessen, wie man Dinge greift.

Es ist ein großer Schritt hin zu Robotern, die wir nicht mehr wie Maschinen programmieren müssen, sondern mit denen wir einfach so reden können, wie mit einem menschlichen Helfer.