VLANeXt: Recipes for Building Strong VLA Models

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einen Roboterarm beibringen, wie man einen Teller abräumt oder eine Schublade öffnet. Früher musste man für jede einzelne Aufgabe einen völlig neuen, spezialisierten Roboter programmieren. Das war wie ein Koch, der für jeden einzelnen Gerichtstyp einen komplett neuen Kochkurs besuchen musste.

Heute gibt es jedoch VLA-Modelle (Vision-Language-Action). Das sind wie „Allround-Köche" mit einem riesigen Kochbuch (dem Internet), das sie schon lesen konnten. Sie verstehen Bilder (Vision), Sprache (Language) und können dann die richtigen Bewegungen ausführen (Action).

Das Problem ist: Die Welt der Robotik-Forschung war bisher ein riesiger, chaotischer „Suppenkessel". Jeder Forscher hat seine eigene „Rezeptur" für diese Allround-Köche entwickelt. Man wusste nicht genau, welche Zutat (z. B. eine bestimmte Kamera oder ein spezieller Algorithmus) wirklich den Unterschied macht und welche nur unnötigen Ballast ist.

VLANeXt ist das Ergebnis einer neuen Studie, die diesen Suppenkessel ordentlich aufgeräumt hat. Die Forscher haben gesagt: „Halt, machen wir mal einen systematischen Test, um das perfekte Grundrezept zu finden."

Hier ist die Erklärung der wichtigsten Erkenntnisse, übersetzt in einfache Bilder:

1. Das Grundgerüst: Ein besserer Chefkoch

Stell dir das VLA-Modell als ein Restaurant vor.

Der VLM (Vision-Language-Model): Das ist der Chefkoch, der die Zutaten (Bilder) und den Auftrag (Sprache) versteht.
Das Policy-Modul: Das ist der Koch, der tatsächlich am Herd steht und die Bewegungen ausführt.

Früher haben viele Modelle den Chefkoch direkt am Herd stehen lassen (eine „lose" Verbindung). Die Forscher von VLANeXt haben entdeckt, dass es besser funktioniert, wenn man einen kleinen, flexiblen Mittelsmann (eine „weiche Verbindung") zwischen Chef und Herd stellt. Dieser Mittelsmann sorgt dafür, dass die Anweisungen des Chefs perfekt in die Handbewegungen des Kochs übersetzt werden, ohne dass Informationen verloren gehen.

2. Die Zutaten: Was braucht der Roboter wirklich?

Die Forscher haben verschiedene Zutaten getestet:

Mehrere Augen (Multi-View): Ein Roboter mit nur einem Auge (einer Kamera) ist wie ein Koch, der nur durch ein Schlüsselloch schaut. VLANeXt nutzt zwei Perspektiven: eine vom Raum (wie ein Mensch, der den Tisch sieht) und eine vom Handgelenk (wie der Blick des Kochs auf das Messer). Das macht den Roboter viel sicherer und präziser.
Körpergefühl (Proprioception): Das ist das Gefühl des Roboters für seine eigene Gliedmaßenposition. Die Studie fand heraus, dass man dieses Gefühl nicht einfach nur dem „Koch" geben sollte, sondern es dem Chefkoch mitgeben muss. Nur so versteht der Chef, wie der Körper des Roboters gerade ist, und kann die Anweisungen besser anpassen.
Vergesslichkeit ist gut: Man dachte vielleicht, der Roboter sollte sich an die letzten 10 Sekunden erinnern (Vergangenheit). Aber die Studie zeigte: Das macht ihn nur verwirrt. Es reicht, sich auf das Jetzt zu konzentrieren. Zu viel Vergangenheit ist wie ein Koch, der sich an jeden einzelnen Schritt der letzten Stunde erinnert, statt auf den aktuellen Teller zu schauen.

3. Die Kochtechnik: Wie werden Bewegungen vorhergesagt?

Roboterbewegungen sind wie Musik oder ein Tanz – sie haben einen Rhythmus.

Der neue Trick: Statt nur zu raten, was als Nächstes passiert, nutzt VLANeXt eine Technik aus der Musiktheorie (Frequenzanalyse). Es schaut sich die Bewegung nicht nur als einzelne Punkte an, sondern als Welle. Das hilft dem Roboter, glattere und natürlichere Bewegungen zu machen, ohne dass er extra viel rechnen muss.
Keine Welt-Simulation: Manche Modelle versuchen, die ganze Zukunft vorherzusagen (z. B. „Wie sieht der Teller in 5 Sekunden aus?"). Das ist wie ein Koch, der versucht, das Essen zu kochen, während er gleichzeitig das ganze Restaurant renoviert. Das kostet zu viel Energie. VLANeXt verzichtet auf diese aufwendige Welt-Simulation und bleibt effizient.

Das Ergebnis: VLANeXt

Das Endergebnis dieser „Rezept-Suche" ist VLANeXt.

Es ist kleiner als viele andere Super-Modelle (nur 2,5 Milliarden Parameter, während andere 7 Milliarden haben).
Es ist aber schneller und besser.
Es gewinnt bei Tests, bei denen die Umgebung verändert wird (z. B. andere Lichtverhältnisse, andere Objekte), was zeigt, dass es wirklich „versteht", was es tut, und nicht nur auswendig gelernt hat.

Zusammenfassend:
Die Autoren haben nicht einfach einen noch größeren Roboter gebaut. Stattdessen haben sie herausgefunden, wie man einen schlauen, effizienten Roboter mit den richtigen Verbindungen, den richtigen Kameras und der richtigen Denkweise baut. Sie haben das Chaos der Forschung in ein klares, nachbaubares Rezept verwandelt, damit andere Forscher nicht mehr raten müssen, sondern einfach das beste Rezept verwenden können.

Es ist wie der Unterschied zwischen einem Koch, der wild herumprobiert, und einem Koch, der genau weiß, welche Gewürze in welcher Reihenfolge die perfekte Suppe ergeben.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Feld der Vision-Language-Action (VLA)-Modelle hat sich rasant entwickelt, um allgemeine Roboterkontrollstrategien zu ermöglichen, die auf großen visuellen und sprachlichen Grundlagenmodellen (Foundation Models) basieren. Trotz des Fortschritts bleibt die Landschaft jedoch fragmentiert und explorativ.

Herausforderung: Viele Forschungsgruppen haben eigene VLA-Modelle vorgeschlagen, doch inkonsistente Trainingsprotokolle und Evaluierungsszenarien machen es schwierig, herauszufinden, welche Designentscheidungen tatsächlich entscheidend für die Leistung sind.
Ziel: Die Autoren wollen diese „Ursuppe" (primordial soup) strukturieren, indem sie den Designraum von VLA-Modellen unter einem einheitlichen Rahmenwerk und Evaluierungssetup systematisch neu untersuchen.

2. Methodik

Die Studie beginnt mit einer einfachen VLA-Baseline (ähnlich wie RT-2 und OpenVLA) und untersucht systematisch Designentscheidungen entlang drei Hauptdimensionen. Durch schrittweises Abtragen und Hinzufügen von Komponenten (Ablationsstudien) werden 12 Schlüsselfindungen extrahiert, die zu dem finalen Modell VLANeXt führen.

A. Fundamentale Komponenten (Foundational Components)

Policy-Modul-Design: Statt nur Text-Token wiederverzuwenden, führt ein separater, tiefer Policy-Head (mit einem „Class Token" oder mehreren „Meta-Query"-Token) zu besseren Ergebnissen. Ein größeres Policy-Netzwerk (12 Schichten statt 2) nutzt die Repräsentationskapazität des VLM besser aus.
VLM-Policy-Verbindung: Die Autoren vergleichen lose, enge und „weiche" Verbindungen. Eine weiche Verbindung (Soft Connection), bei der lernbare Query-Token als latenter Puffer zwischen VLM und Policy-Modul dienen, performt am besten, da sie den Informationsfluss optimiert.
Aktions-Lernziel: Während Regression und Diffusion gut funktionieren, zeigt Flow Matching die beste Balance aus Leistung und Eignung für komplexe, multimodale Aktionsverteilungen. Klassische Diskretisierung (Binning) oder VQ-VAE-Ansätze schneiden schlechter ab.
Backbone-Kapazität: Stärkere VLM-Backbones (z. B. Qwen3-VL-4B oder 2B) führen konsistent zu besseren VLA-Leistungen, insbesondere wenn das Policy-Modul groß genug ist, um diese Kapazität zu nutzen.

B. Wahrnehmungswesentliches (Perception Essentials)

Propriozeption: Die Einbettung von Propriozeptionsdaten (Zustand des Roboters) direkt in das VLM (anstatt nur in das Policy-Modul) führt zu den besten Ergebnissen. Dies ermöglicht eine bessere Fusion mit visuellen und sprachlichen Eingaben.
Multi-View: Die Kombination von Dritt-Personen-Ansichten und Handgelenkkameras (Wrist-Cam) verbessert die räumliche Auflösung und die Leistung signifikant.
Zeitliche Historie: Im Gegensatz zu Erwartungen bringt die Eingabe mehrerer vergangener Frames (temporale Historie) keine Leistungssteigerung und kann sogar Rauschen einführen; der aktuelle Frame reicht aus.

C. Perspektiven des Aktionsmodellierens (Action Modeling Perspectives)

World Modelling: Ein zusätzlicher Weltmodellierungs-Task (Vorhersage zukünftiger Bilder) verbessert die Leistung, erhöht aber die Trainingszeit fast verdreifacht. Aus Effizienzgründen wird dies im finalen Rezept verworfen.
Zeitreihen-Prognose: Die Einführung eines Frequenzbereichs-Verlustes (Frequency Domain Loss), der auf der diskreten Kosinustransformation (DCT) basiert, regularisiert die Aktionsvorhersage effektiv. Dies nutzt die strukturierte, niedrig-rangige Natur robotischer Aktionssequenzen aus und steigert die Leistung mit vernachlässigbarem Rechenaufwand.
Action Chunking: Die Vorhersage von Aktionsblöcken (Chunking) über einen längeren Zeithorizont (z. B. 8 Schritte) verbessert die Kohärenz der Aktionssequenz.

3. Das Ergebnis: VLANeXt

Das Ergebnis dieser Forschung ist VLANeXt, ein einfaches, aber hocheffektives VLA-Modell.

Architektur: Es nutzt Qwen3-VL-2B als Backbone, eine weiche Verbindung mit Meta-Queries, Flow Matching als Lernziel, Multi-View-Eingaben, Propriozeption im VLM und einen Frequenzbereichs-Verlust.
Größe: Mit ca. 2,5 Milliarden Parametern ist es kleiner als viele State-of-the-Art-Modelle (z. B. OpenVLA-OFT mit 7B), erreicht aber bessere Ergebnisse.

4. Ergebnisse

Die Evaluierung erfolgte auf den Benchmarks LIBERO (Standard-Leistung) und LIBERO-plus (Robustheit gegen Störungen wie Licht, Hintergrund, Layout, Sprache).

LIBERO Benchmark: VLANeXt erreicht einen durchschnittlichen Erfolg von 97,4 % (gegenüber 97,1 % bei OpenVLA-OFT und 96,9 % bei FLOWER).
LIBERO-plus Benchmark: Hier zeigt VLANeXt seine überlegene Generalisierungsfähigkeit. Es erreicht 80,1 % im Durchschnitt, was eine signifikante Steigerung von ca. 10 % gegenüber dem vorherigen State-of-the-Art (OpenVLA-OFT mit ~69,6 %) darstellt.
Real-World-Experimente: In physischen Tests (Franka Emika und Aloha-Systeme) mit Einzelnarm- und beidarmigen Aufgaben (z. B. Schubladen öffnen, Tische reinigen, Körbe heben) übertraf VLANeXt die Baselines (OpenVLA-OFT und $\pi_0$ ) deutlich in der Erfolgsrate.
Effizienz: Trotz der hohen Leistung ist das Modell kleiner und effizienter trainierbar als viele Konkurrenten.

5. Bedeutung und Beitrag

Systematisierung: Das Paper bietet erstmals eine strukturierte „Rezeptur" (Recipe) für den Aufbau starker VLA-Modelle und klärt auf, welche Designentscheidungen wirklich zählen (z. B. die Art der Propriozeption-Integration oder die weiche Kopplung).
Open Source: Die Autoren veröffentlichen einen einheitlichen, leichtgewichtigen Codebase, der die Reproduzierbarkeit sichert und der Community ermöglicht, neue Varianten auf dieser gemeinsamen Basis zu entwickeln.
Paradigmenwechsel: Die Arbeit zeigt, dass starke VLA-Leistung nicht zwingend durch aggressive Skalierung oder komplexe, aufgabenspezifische Engineering-Lösungen erreicht werden muss, sondern durch prinzipiengeleitete Designentscheidungen innerhalb eines einheitlichen Rahmens.
Frequenzbereich: Die erfolgreiche Anwendung von Frequenzbereichs-Methoden (aus der Zeitreihenanalyse) auf die Robotik-Aktionsmodellierung ist ein innovativer und übertragbarer Befund.

Zusammenfassend stellt VLANeXt einen Meilenstein dar, der die Entwicklung von VLA-Modellen von einer explorativen Phase hin zu einer systematischen, evidenzbasierten Ingenieurskunst führt.

VLANeXt: Recipes for Building Strong VLA Models

1. Das Grundgerüst: Ein besserer Chefkoch

2. Die Zutaten: Was braucht der Roboter wirklich?

3. Die Kochtechnik: Wie werden Bewegungen vorhergesagt?

Das Ergebnis: VLANeXt

1. Problemstellung

2. Methodik

A. Fundamentale Komponenten (Foundational Components)

B. Wahrnehmungswesentliches (Perception Essentials)

C. Perspektiven des Aktionsmodellierens (Action Modeling Perspectives)

3. Das Ergebnis: VLANeXt

4. Ergebnisse

5. Bedeutung und Beitrag

Mehr davon

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems