VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der Roboter, der nur „sieht", aber nicht „versteht"

Stell dir vor, du möchtest einem Roboter beibringen, eine Tasse Kaffee zu holen. Die bisherigen Methoden waren wie ein Schüler, der nur die Oberfläche auswendig lernt.

Wenn der Roboter ein Video sieht, in dem jemand eine Tasse holt, achten die alten Modelle oft auf alles Mögliche:

Die Farbe der Tasse.
Das Licht im Raum.
Die Bewegung der Kamera (wenn sich der Kameramann umdreht).
Den Hintergrund (ob im Hintergrund jemand läuft).

Das ist wie wenn du versuchst, Autofahren zu lernen, indem du nur die Farbe der anderen Autos auswendig lernst, aber nicht verstehst, wie Lenkrad, Pedale und Bremsen funktionieren. Wenn sich dann die Farbe des Autos ändert oder die Sonne scheint, ist der Roboter verwirrt und macht Fehler. Er lernt die falschen Dinge: Er lernt, wie sich das Bild verändert, nicht wie sich die Welt durch eine Handlung verändert.

Die Lösung: VLA-JEPA – Der „Träumer" im Kopf

Die Forscher von VLA-JEPA haben eine neue Methode entwickelt, die wir uns wie einen intelligenten Träumer vorstellen können.

Statt das Bild pixelgenau nachzubauen (was den Roboter verwirrt), baut dieser Roboter eine innere Landkarte auf.

Die drei genialen Tricks:

Kein „Spionieren" (Leakage-Free):
Bei alten Methoden durfte der Roboter beim Lernen oft schon einen Blick in die Zukunft werfen. Das war wie ein Schüler, der beim Testen die Lösungen auf dem Rücken des Nachbarn abguckt. Er lernte dann nur, das Bild vorherzusagen, aber nicht, warum es passiert.
VLA-JEPA macht das anders: Der Roboter sieht nur das Jetzt. Er muss raten, was als Nächstes passiert, basierend auf dem, was er gerade tut. Die Zukunft ist nur das „Ziel", nicht der „Spickzettel". So lernt er wirklich, wie seine Handlungen die Welt verändern.
Die „Zusammenfassung" statt des „Fotos":
Statt sich jedes einzelne Pixel eines Videos zu merken (was viel zu viel Rauschen und unnötige Details wie fliegende Staubpartikel enthält), fasst der Roboter die Szene in abstrakten Gedanken zusammen.
- Alt: „Ich sehe einen roten Ball, der sich bewegt, und der Hintergrund ist unscharf."
- VLA-JEPA: „Ich habe den Ball geschoben."
  Es ist der Unterschied zwischen einem Fotoalbum, das voller unnötiger Details ist, und einem klaren Tagebuch, das nur die wichtigen Handlungen festhält.
Lernen vom Menschen (ohne zu kopieren):
Der Roboter schaut sich Millionen von Videos von Menschen an (wie jemand, der kocht oder aufräumt). Aber er kopiert nicht einfach die Bewegungen. Er lernt daraus, wie sich Dinge verändern, wenn man etwas tut. Es ist, als würde ein junger Handwerker den Meister beobachten: Er lernt nicht nur die Handbewegung, sondern versteht das Prinzip dahinter (z. B. „Wenn ich zu fest drücke, bricht es").

Das Ergebnis: Ein robusterer Roboter

Dank dieser Methode passiert Folgendes:

Er ist unempfindlich: Wenn das Licht ausgeht oder die Kamera wackelt, stört das den Roboter nicht. Er weiß immer noch, dass er den Griff öffnen muss.
Er lernt schneller: Er braucht weniger roboterspezifische Daten, weil er schon viel aus menschlichen Videos gelernt hat.
Er gibt nicht so schnell auf: In echten Tests hat der Roboter gezeigt, dass er, wenn er einen Gegenstand nicht greifen kann, noch einmal versucht, ihn zu greifen (er öffnet den Greifer neu und probiert es erneut). Andere Roboter haben einfach aufgegeben, weil sie das in ihren Trainingsdaten nie gesehen hatten. VLA-JEPA hat das „Gedächtnis" dafür aus den menschlichen Videos mitgenommen.

Die Analogie: Der Koch

Stell dir vor, du willst Kochen lernen:

Die alten Roboter schauen sich ein Video an und merken sich: „Wenn der Topf rot ist und das Licht warm, dann ist die Suppe fertig." Wenn du den Topf blau machst, weiß er nicht mehr weiter.
VLA-JEPA schaut sich das Video an und denkt: „Ich muss Wasser kochen, Gemüse schneiden und dann alles mischen." Es versteht den Prozess. Wenn du ihm einen blauen Topf gibst, kocht er trotzdem die Suppe, weil er das Prinzip verstanden hat, nicht nur das Bild.

Zusammenfassend: VLA-JEPA ist wie ein Roboter, der aufhört, nur Bilder zu sehen, und anfängt, die Welt zu verstehen. Er lernt die „Regeln des Spiels" statt nur die „Bewegungen der Figuren" auswendig zu lernen. Das macht ihn viel schlauer, robuster und besser darin, Aufgaben in der echten, chaotischen Welt zu erledigen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung und Motivation

Das Paper adressiert die Herausforderungen beim Vor-Training von Vision-Language-Action (VLA)-Modellen mit internetweiten Videodaten. Während ungelabelte Videos eine reichhaltige Quelle für zeitlich ausgedehnte Veränderungen darstellen, weisen bestehende Ansätze für „Latent-Action"-Vor-Training erhebliche Mängel auf:

Pixel-Bias: Herkömmliche Ziele (z. B. das Vorhersagen zukünftiger Pixel oder das Komprimieren von Bildunterschieden) sind zu stark auf visuelle Erscheinungen (Textur, Beleuchtung, Hintergrund) fixiert und nicht auf die für die Steuerung relevanten Zustandsübergänge.
Rauschen und irrelevante Bewegung: In realen Videos (z. B. menschlichen Aufnahmen) dominieren Kamerabewegungen und nicht-kausale Hintergrundänderungen oft die eigentlichen Interaktionen. Latente Aktionen lernen daher oft nur „Störbewegungen" (nuisance motion) statt kontrollierbarer Dynamik.
Informationsleckage (Information Leakage): Viele Architekturen führen zukünftige Frames sowohl als Eingabe als auch als Ziel in das Training ein. Dies ermöglicht dem Modell einen „Shortcut": Es kodiert die Zukunft direkt, anstatt zu lernen, wie Zustände durch Aktionen verändert werden. Dies führt zu semantisch leeren latenten Aktionen, die für die Kontrolle unbrauchbar sind.
Komplexität: Bestehende Pipelines erfordern oft mehrstufige Trainingsverfahren (Repräsentation, Latent-Action-Lernen, Policy-Lernen), was die Stabilität und Reproduzierbarkeit erschwert.

Das Ziel ist es, eine Methode zu entwickeln, die zustandsrelevante Übergangssemantik lernt, robust gegenüber visuellen Störungen ist und ohne Informationsleckage auskommt.

2. Methodik: VLA-JEPA

Die Autoren stellen VLA-JEPA vor, ein Vor-Training-Framework im Stil von JEPA (Joint-Embedding Predictive Architectures), das speziell für VLA-Richtlinien entwickelt wurde.

Kernidee: Leakage-freie Zustandsvorhersage
Im Gegensatz zu rekonstruktiven Ansätzen oder solchen, die zukünftige Frames als Eingabe nutzen, trennt VLA-JEPA strikt zwischen Eingabe und Ziel:

Ziel-Encoder (Target Encoder): Ein eingefrorener Encoder (basierend auf V-JEPA2) verarbeitet zukünftige Frames und erzeugt latente Zielzustände ( $s_{t+1}$ ).
Student-Pfad (Student Pathway): Das VLM-Backbone (Qwen3-VL) sieht nur den aktuellen Beobachtungszustand ( $I_t$ ) und Sprachanweisungen. Es darf keine zukünftigen Informationen als Eingabe erhalten.
Latente Weltmodellierung: Das Modell lernt, den zukünftigen latenten Zustand vorherzusagen, indem es eine latente Aktion ( $\langle latent_i \rangle$ ) generiert, die den Übergang von $s_t$ zu $s_{t+1}$ repräsentiert.

Architektur und Training:

Backbone: Qwen3-VL mit SigLIP-2 als Vision-Encoder.
Latente Tokens: Lernbare Tokens ( $\langle latent_i \rangle$ ) kodieren die Zustandsübergänge.
Weltmodell: Ein autoregressives Transformer-Modell mit zeit-kaualem Attention-Mechanismus sagt den nächsten Zustandsblock basierend auf der Historie und den latenten Aktionen voraus.
Verlustfunktion: Ein JEPA-Alignment-Loss im latenten Raum (statt Pixel-Rekonstruktion). Dies fördert semantische Abstraktionen und ignoriert visuelles Rauschen.
Zweistufiger Workflow:
1. JEPA-Vor-Training: Lernen von Weltmodellen und latenten Aktionen aus ungelabelten menschlichen Videos (Something-Something-v2) und roboterspezifischen Daten (Droid).
2. Fine-Tuning: Anpassung eines „Action Head" (basierend auf Conditional Flow Matching) für die genaue Endeffektor-Trajektorie-Generierung, wobei die gelernten latenten Aktionen als Konditionierung dienen.

Das System kann sowohl mit roboterspezifischen Daten (mit Aktionen) als auch mit reinen menschlichen Videos (ohne Aktionen) trainiert werden, wobei die latenten Aktionen aus den visuellen Dynamiken extrahiert werden.

3. Wichtige Beiträge

Analyse von Fehlern in Latent-Action-Pretraining: Das Paper identifiziert systematisch vier Versagensmodi (Pixel-Bias, Rauschen, Informationsleckage, Komplexität) und zeigt auf, warum diese zu schlechter Generalisierung führen.
VLA-JEPA Framework: Einführung eines leakage-freien, zustandsbasierten JEPA-Vor-Trainings, das zukünftige Informationen strikt als Ziele und nicht als Eingaben nutzt. Dies eliminiert die Notwendigkeit für mehrstufige Pipelines und zusätzliche Alignment-Module.
Robustheit und Einfachheit: Die Methode vereinfacht den Trainingsprozess auf zwei Hauptphasen (Vor-Training + Fine-Tuning) und erreicht gleichzeitig eine höhere Robustheit gegenüber visuellen Störungen (Kamerabewegung, Hintergrund, Beleuchtung).

4. Ergebnisse und Evaluation

Die Methode wurde auf mehreren Benchmarks evaluiert:

LIBERO (Simulation): VLA-JEPA erreicht State-of-the-Art-Ergebnisse in 2 von 4 Task-Suiten und den höchsten Durchschnittserfolg. Es übertrifft Modelle, die auf großen Roboterdatensätzen trainiert wurden (wie OpenVLA-OFT, $\pi0$ ), obwohl es weniger roboterspezifische Trainingsdaten nutzt.
SimplerEnv (Real-to-Sim Gap): VLA-JEPA erzielt die besten Ergebnisse bei Google Robot und zweitbeste bei WidowX Robot. Es zeigt, dass hochwertige Vor-Training-Daten (auch menschliche Videos) effektiver sind als reine Roboterdaten, wenn diese begrenzt sind.
LIBERO-Plus (Robustheitstests): Unter 7 verschiedenen Perturbationen (Kamera, Sprache, Licht, Hintergrund, etc.) erzielt VLA-JEPA in 5 Fällen die besten Ergebnisse. Besonders stark ist es bei Störungen durch Sprache, Licht und Hintergrund, was die Fähigkeit unterstreicht, task-agnostische Störungen zu ignorieren.
Echtwelt-Experimente (Franka Robot): In realen Manipulationsaufgaben zeigt VLA-JEPA eine überlegene Stabilität und Sicherheit im Vergleich zu $\pi0$ $π 0$ und $\pi0.5$ $π 0.5$ .
- Sicherheitsverhalten: Während $\pi0.5$ oft Sicherheitsgrenzen verletzt, hält VLA-JEPA diese ein.
- Wiederholtes Greifen: Ein entscheidender Vorteil ist die Fähigkeit, nach einem Greifversagen das Greifwerkzeug zu öffnen und erneut zu versuchen. Diese Fähigkeit wurde durch das Vor-Training auf menschlichen Videos erlernt, die solche Korrekturverhalten enthalten, während reine Roboterdaten dies oft nicht zeigen.

Ablationsstudien:

Einfluss menschlicher Videos: Das Entfernen menschlicher Videos führt zu einem leichten Rückgang der Robustheit (besonders bei LIBERO-Plus), aber nicht zu einem drastischen Leistungsabfall bei Standardaufgaben. Dies bestätigt, dass menschliche Videos primär die Robustheit und Stabilität bestehender Fähigkeiten stärken, anstatt neue physikalische Dynamiken zu lehren.
Aufmerksamkeitsvisualisierung: Im Gegensatz zu Modellen wie LAPA (die sich auf irrelevante Details konzentrieren) oder UniVLA (die zu stark auf Semantik fokussieren), konzentriert sich VLA-JEPA präzise auf die relevanten Operationselemente (Arm, Hand, Objekt).

5. Bedeutung und Ausblick

VLA-JEPA stellt einen Paradigmenwechsel dar, indem es zeigt, dass latente Weltmodelle im JEPA-Stil effektiver sind als pixelbasierte oder leakages-behaftete Ansätze für das Lernen von Roboterkontrolle aus Videos.

Skalierbarkeit: Der Ansatz ist hochskalierbar, da er die riesigen Mengen an ungelabelten menschlichen Videos nutzen kann, um robuste Repräsentationen zu lernen, ohne auf teure roboterspezifische Daten angewiesen zu sein.
Robustheit: Durch das Vermeiden von Informationsleckagen und pixelbasierten Zielen lernt das Modell echte physikalische Dynamiken, was zu stabileren und sichereren Roboterverhalten in unvorhersehbaren Umgebungen führt.
Zukunft: Die Autoren sehen Potenzial darin, dieses Framework durch die Integration von Text-basierten Reasoning-Daten weiter zu erweitern, um die Generalisierungsfähigkeit von VLA-Modellen noch weiter zu steigern.

Zusammenfassend bietet VLA-JEPA eine elegante, effiziente und leistungsstarke Lösung für das Problem der Datennutzung in der Robotik, indem es die Lücke zwischen ungelabelten menschlichen Videos und präziser robotischer Steuerung schließt.

VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model

Das große Problem: Der Roboter, der nur „sieht", aber nicht „versteht"

Die Lösung: VLA-JEPA – Der „Träumer" im Kopf

Das Ergebnis: Ein robusterer Roboter

Die Analogie: Der Koch

1. Problemstellung und Motivation

2. Methodik: VLA-JEPA

3. Wichtige Beiträge

4. Ergebnisse und Evaluation

5. Bedeutung und Ausblick

Mehr davon

VerifAI: A Verifiable Open-Source Search Engine for Biomedical Question Answering

Unbiased Rectification for Sequential Recommender Systems Under Fake Orders

Self-Sovereign Agent

Automated Standardization of Legacy Biomedical Metadata Using an Ontology-Constrained LLM Agent

GAN-Enhanced Deep Reinforcement Learning for Semantic-Aware Resource Allocation in 6G Network Slicing