UniLACT: Depth-Aware RGB Latent Action Learning for Vision-Language-Action Models

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einem Roboter beibringen, wie man einen Apfel pflückt oder eine Schublade öffnet. Bisher haben Roboter dafür oft nur „Augen" (Kameras), die sehen, wie Dinge aussehen (Farben, Formen). Das ist wie ein Maler, der nur Farben kennt, aber nicht weiß, wie tief ein Loch ist oder wie schwer ein Gegenstand ist. Wenn der Roboter versucht, einen Apfel zu greifen, kann er ihn leicht verfehlen oder gegen die Schublade stoßen, weil ihm das Gefühl für den Raum fehlt.

Das neue Papier stellt eine Lösung vor, die wie ein Super-Gehirn für Roboter funktioniert. Hier ist die einfache Erklärung, wie es funktioniert, mit ein paar lustigen Vergleichen:

1. Das Problem: Der Roboter ist „flach" denkend

Bisher lernten Roboter aus Millionen von Videos im Internet. Sie schauten sich an, was Menschen tun, und versuchten, die Bewegungen nachzuahmen. Aber da sie nur 2D-Videos (wie normale Filme) sahen, lernten sie nur: „Der Apfel ist rot und bewegt sich nach links." Sie lernten nicht: „Der Apfel ist drei Zentimeter von meiner Hand entfernt."
Das ist wie jemand, der versucht, ein 3D-Puzzle zu lösen, aber nur die Vorderseite der Teile sieht. Er weiß nicht, wie die Teile ineinander passen.

2. Die Lösung: UNILACT – Der Roboter mit „Tiefen-Sinn"

Die Forscher haben ein neues System namens UNILACT entwickelt. Stell dir UNILACT wie einen Architekten vor, der nicht nur die Farbe der Wände betrachtet, sondern auch die Abmessungen des Raumes kennt.

Das System besteht aus zwei Hauptteilen:

Teil A: UNILARN – Der „Übersetzer" (Das Training)

Bevor der Roboter etwas tun kann, muss er lernen. Dafür nutzen die Forscher ein System namens UNILARN.

Wie es funktioniert: UNILARN schaut sich Videos an, die sowohl das normale Bild (RGB) als auch eine Tiefenkarte (wie ein 3D-Scan) enthalten.
Die Analogie: Stell dir vor, du hast zwei Freunde. Einer beschreibt dir ein Bild nur mit Worten („Der Ball ist rot"), der andere gibt dir eine Skizze mit Abmessungen („Der Ball ist 10 cm groß und 2 Meter entfernt"). UNILARN ist wie ein genialer Dolmetscher, der diese beiden Beschreibungen nimmt und sie in eine einzige, perfekte Anleitung verwandelt.
Das Ergebnis: Der Roboter lernt eine „geheime Sprache" (latente Aktionen), die sowohl die Farben als auch die räumliche Tiefe enthält. Er lernt nicht nur was passiert, sondern auch wie weit und wo genau.

Teil B: UNILACT – Der „Ausführende" (Das Tun)

Jetzt kommt der eigentliche Roboter-Controller, UNILACT, ins Spiel.

Das Geniale: Während des Trainings nutzt UNILACT die 3D-Tiefeninformationen, um die geheime Anleitung zu lernen. Aber sobald er fertig ist und im echten Leben arbeitet, braucht er keine Tiefenkarte mehr!
Die Analogie: Stell dir vor, du lernst Fahrradfahren. Am Anfang hast du einen Trainer, der dir hilft, das Gleichgewicht zu halten (das ist die Tiefeninformation). Wenn du das Fahrradfahren aber einmal wirklich gelernt hast, brauchst du den Trainer nicht mehr. Du kannst einfach losfahren und weißt instinktiv, wie weit der nächste Baum ist, auch wenn du nur mit den Augen siehst.
UNILACT hat diese „Tiefen-Intuition" in sein Gehirn eingebaut. Wenn er jetzt nur ein normales Video sieht, denkt er automatisch: „Aha, das ist 50 cm entfernt, ich muss vorsichtig sein!"

3. Warum ist das so toll? (Die Ergebnisse)

Die Forscher haben das System in einer Simulation und in der echten Welt getestet.

In der Simulation: Der Roboter mit UNILACT war deutlich besser als die alten Modelle. Er schaffte mehr Aufgaben hintereinander, ohne zu scheitern.
In der echten Welt: Das war der Beweis.
- Beispiel 1: Ein alter Roboter (Moto) versuchte, eine Karotte in eine Schüssel zu legen. Er sah die Karotte, aber weil ihm die Tiefe fehlte, stieß er mit der Karotte gegen den Rand der Schüssel und kippte sie um.
- Beispiel 2: Der UNILACT-Roboter sah die Karotte, „fühlte" den Abstand zur Schüssel und legte sie sanft und präzise hinein, ohne etwas zu berühren.

Zusammenfassung

Stell dir vor, du gibst einem Roboter nicht nur ein Foto, sondern auch ein Gefühl für den Raum.

Alt: Der Roboter sieht nur Farben und Formen (wie ein flacher Film).
Neu (UNILACT): Der Roboter hat gelernt, wie die Welt in 3D aussieht, indem er während des Trainings „Tiefen-Brillen" trug. Jetzt, ohne die Brille, sieht er die Welt immer noch in 3D, weil es in seinem Gehirn gespeichert ist.

Das macht Roboter viel sicherer und geschickter, besonders wenn sie Dinge anfassen, greifen oder mit ihrer Umgebung interagieren müssen, ohne alles zu zertrümmern. Es ist der Unterschied zwischen jemandem, der nur auf eine Landkarte schaut, und jemandem, der die Gegend wirklich kennt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Vision-Language-Action (VLA) Modelle haben gezeigt, dass Roboterpolicies generalisieren können, wenn sie auf großen Datensätzen vortrainiert werden. Ein Hauptproblem bei der Skalierung dieser Modelle ist jedoch die Abhängigkeit von teuren, menschlich ferngesteuerten (teleoperierten) Roboterdemonstrationen mit expliziten Aktionslabels.

Um dies zu umgehen, wurde kürzlich das Lernen von latenten Aktionen aus ungelabelten Videos (ohne Aktionslabels) als vielversprechender Ansatz untersucht. Bisherige Methoden lernen diese latenten Aktionen jedoch ausschließlich aus RGB-Observationen (Farbbilder).

Die Limitierung: Reine RGB-Latents erfassen primär erscheinungsbasierte (appearance-driven) Dynamiken. Ihnen fehlt die explizite 3D-geometrische Struktur (Tiefeninformation), die für präzise, kontaktreiche Manipulationsaufgaben (z. B. Greifen, Platzieren, Kollisionsvermeidung) entscheidend ist.
Die Lücke: Es fehlte bisher ein Ansatz, der Tiefeninformationen (Depth) direkt in die latente Aktionsrepräsentation selbst integriert, um räumliche Priors zu stärken, ohne dass zusätzliche gelabelte Daten benötigt werden.

2. Methodik

Die Autoren stellen UNILACT (Unified Latent Action Transformer) vor, ein VLA-Modell, das geometrische Struktur durch tiefenbewusstes (depth-aware) latentes Vortraining integriert. Der Prozess gliedert sich in drei Stufen:

A. UNILARN: Unified Latent Action Learning (Lernframework)

Um die latenten Repräsentationen zu erzeugen, wird ein neues Framework namens UNILARN vorgeschlagen. Dieses nutzt inverse und forward Dynamikmodelle (IDM/FDM), um einen gemeinsamen Embedding-Raum für RGB und Depth zu lernen.

Prozess:
1. Modality-Specific IDMs: Für RGB und Depth werden separate Inverse Dynamics Models trainiert, die Paare von aktuellen und zukünftigen Bildern auf kontinuierliche latente Embeddings abbilden.
2. Diskretisierung (VQ): Diese Embeddings werden mittels eines geteilten Vektor-Quantisierungs-Operators (VQ) diskretisiert, um modality-spezifische latente Aktionen zu erhalten.
3. Fusion: Die modality-spezifischen Codes werden concateniert und in einen kontinuierlichen Raum projiziert.
4. Unified VQ: Dieser projizierte Vektor wird erneut quantisiert, um eine unifizierte latente Aktion ( $z^u_t$ ) zu erzeugen.
5. Forward Dynamics (FDM): Die unifizierte latente Aktion wird genutzt, um Forward Dynamics Modelle zu konditionieren, die versuchen, zukünftige Beobachtungen (sowohl RGB als auch Depth) vorherzusagen. Dies erzwingt, dass die unifizierte Repräsentation die komplementären Dynamiken beider Modalitäten erfasst.

B. Unified Latent Pretraining (UNILACT)

Das eigentliche VLA-Modell UNILACT (ein Transformer-basiertes Modell) wird nun vortrainiert.

Ziel: Das Modell lernt, diskrete latente Aktionstokens (die von UNILARN generiert wurden) basierend auf visuellen Beobachtungen und Sprachanweisungen vorherzusagen.
Cross-Modal-Lernen: UNILACT wird trainiert, um nicht nur die unifizierte latente Aktion, sondern auch modality-spezifische Latents (RGB oder Depth) vorherzusagen. Dies fördert die Ausrichtung zwischen den verschiedenen Räumen und integriert semantische (RGB) und geometrische (Depth) Hinweise.
Wichtig: Depth wird hier nur als Supervisionssignal während des Trainings genutzt, um die latenten Priors zu lernen.

C. Action Fine-Tuning

In der letzten Stufe wird UNILACT auf echte Roboteraktionen feinabgestimmt.

Das Modell wird auf Demonstrationsdaten mit echten Aktionslabels (z. B. Endeffektor-Verschiebungen) nachtrainiert.
Inferenz: Während des Trainings nutzt das Modell die gelernten latenten Priors. Zum Inferenzzeitpunkt benötigt UNILACT nur noch RGB-Bilder und Sprachanweisungen. Die Tiefenkarte wird nicht mehr benötigt, da die räumliche Intelligenz bereits in den latenten Repräsentationen kodiert ist.

3. Wichtige Beiträge

UNILARN: Ein einheitliches Framework, das inverse und forward Dynamik nutzt, um sowohl modality-spezifische als auch unifizierte latente Aktionen in einem geteilten Raum zu lernen, der sowohl visuelle Semantik als auch 3D-Geometrie erfasst.
UNILACT: Das erste VLA-Modell, das Tiefenhinweise direkt in den Raum der latenten Aktionen integriert. Es nutzt cross-modale latente Vorhersagen, um die Policy-Lernfähigkeit zu verbessern.
Validierung: Umfassende Experimente zeigen, dass unifizierte latente Repräsentationen das 3D-räumliche Verständnis im Vergleich zu reinen RGB-Ansätzen signifikant verbessern.

4. Ergebnisse

Die Methode wurde sowohl in Simulation (CALVIN-Benchmark) als auch in realen Umgebungen evaluiert.

Simulation (CALVIN ABC→D):
- UNILACT übertraf den reinen RGB-Baseline-Ansatz (Moto) unter in-domain Bedingungen konsistent.
- Unter Out-of-Domain-Vortraining (mit Open X-Embodiment-Daten) erreichte UNILACT eine relative Verbesserung von 29,2 % in der durchschnittlichen Sequenzlänge gegenüber dem RGB-Baseline.
- Die Verbesserungen waren besonders stark bei geometrie-zentrierten Aufgaben (z. B. Schieberegler bewegen, Lichtschalter umlegen), während reine RGB-Latents bei rein erscheinungsbasierten Aufgaben gut abschnitten.
Real-World-Experimente (xArm7 Roboter):
- Auf vier Manipulationsaufgaben (sichtbar und unsichtbar während des Trainings) erreichte UNILACT eine 10 % höhere Gesamterfolgsrate als der Baseline.
- Qualitative Analyse: In Fällen, in denen der Baseline-Roboter aufgrund falscher Tiefenwahrnehmung kollidierte (z. B. Karotte in die Schale legen), gelang es UNILACT dank der besseren räumlichen Priors, präzise zu greifen und zu platzieren, ohne Kollisionen.
Effizienz:
- Trotz des Trainings mit RGB und Depth hat UNILACT die gleiche Modellgröße und Inferenz-Latenz (27 ms) wie der reine RGB-Baseline, da Depth nur im Training verwendet wird.

5. Bedeutung und Fazit

Die Arbeit demonstriert, dass die Integration von Tiefeninformationen in die latente Aktionsrepräsentation (und nicht nur als zusätzlicher Eingabe-Feature für die Policy) ein entscheidender Hebel für die Verbesserung von Roboterpolicies ist.

Skalierbarkeit: Der Ansatz reduziert die Abhängigkeit von teuren, gelabelten Roboterdemonstrationen, da er ungelabelte RGB-D-Videos für das Vortraining nutzt.
Generalisierung: Die gelernten geometrischen Priors ermöglichen eine robustere Generalisierung auf neue Umgebungen und Aufgaben, insbesondere bei kontaktreichen Manipulationen.
Praxisrelevanz: Da das Modell zur Inferenz nur RGB benötigt, ist es direkt in realen Szenarien einsetzbar, ohne dass teure Tiefensensoren am Roboter installiert sein müssen, solange das Vortraining mit RGB-D-Daten erfolgte.

Zusammenfassend zeigt UNILACT, dass die Kodierung von 3D-Struktur in die abstrakte Aktionsrepräsentation die Brücke zwischen visueller Wahrnehmung und präziser robotischer Kontrolle effektiv schlägt.