UniLACT: Depth-Aware RGB Latent Action Learning for Vision-Language-Action Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt leren om te koken. Je kunt hem duizenden video's laten kijken van mensen die koken, maar je vertelt hem niet wat ze precies met hun handen doen. De robot moet het zelf raden door te kijken naar de beelden. Dit is wat onderzoekers "latent action learning" noemen: het robot leren de intentie van een beweging te begrijpen zonder dat iemand de beweging expliciet heeft opgeschreven.

Het probleem met de huidige robots is dat ze vaak alleen kijken met hun "ogen" (camera's die kleuren zien, ofwel RGB). Ze zien dat een appel rood is en dat een mes beweegt, maar ze hebben geen goed gevoel voor diepte. Ze weten niet precies hoe ver de appel van het mes af is, of of ze tegen een muur gaan aanlopen. Het is alsof je probeert een bal te vangen terwijl je een bril op hebt die de wereld plat maakt; je ziet de bal, maar je weet niet of hij op je neus landt of op je hand.

UNILACT is de oplossing die deze onderzoekers hebben bedacht. Laten we het uitleggen met een paar creatieve vergelijkingen:

1. Het probleem: De "2D-Blindheid"

Stel je voor dat je een robot leert een blokje in een doos te leggen.

De oude methode (alleen RGB): De robot kijkt naar de video en denkt: "Ah, ik zie een blokje en een doos. Ik ga mijn hand bewegen." Maar omdat hij geen diepte ziet, botst hij misschien tegen de rand van de doos aan, of hij legt het blokje net naast de doos. Hij mist de 3D-ruimte.
Het gevolg: De robot is goed in dingen die op kleur lijken, maar slecht in taken waar precisie en aanraking nodig zijn (zoals een deur openen of een glas vullen).

2. De oplossing: UNILARN (De "Twee-Ogen Trainer")

Om dit op te lossen, hebben de onderzoekers eerst een slimme trainer bedacht, genaamd UNILARN.

De analogie: Stel je voor dat UNILARN een meester-leraar is die een robot twee brillen laat dragen: één bril voor kleuren (RGB) en één bril voor diepte (zoals een 3D-bril).
Hoe het werkt: De trainer kijkt naar video's waar zowel kleuren als diepte-informatie in zit. Hij leert de robot een gemeenschappelijke taal te spreken. In plaats van alleen te zeggen "rood blokje", leert hij de robot te denken: "rood blokje, op 30 centimeter afstand, schuin naar links".
Het resultaat: De robot leert een "geheime code" (latent action) die zowel de kleur als de 3D-vorm bevat. Dit is als het leren van een taal die niet alleen woorden kent, maar ook de afstanden tussen de woorden.

3. De hoofdpersoon: UNILACT (De "Slimme Uitvoerder")

Nu hebben we die slimme code. UNILACT is de robot die deze code gaat gebruiken.

De training: Tijdens het leren gebruikt UNILACT de "twee-ogen" informatie (kleur + diepte) om die geheime code te begrijpen. Hij leert: "Als ik dit commando krijg, moet ik rekening houden met de diepte."
De truc (Het magische moment): Zodra de robot klaar is met leren, haal je de "diepte-bril" eraf!
- Bij het leren (de training) gebruikt hij diepte om de wereld te begrijpen.
- Bij het werken (de uitvoering) kijkt hij alleen nog maar met zijn gewone camera (kleuren).
- Waarom werkt dit? Omdat hij tijdens het leren zo goed heeft gekeken naar de diepte, heeft hij die kennis in zijn hoofd opgeslagen. Hij hoeft de diepte niet meer te meten; hij weet hoe het eruit ziet. Het is alsof je een kaart van een stad leert lezen met een 3D-model, en daarna de stad in loopt zonder het model, maar je weet nog steeds precies waar de straten liggen.

Wat levert dit op?

De onderzoekers hebben dit getest in een virtuele wereld (simulatie) en in het echt met een robotarm.

In de simulatie: De robot met UNILACT was 29% beter dan robots die alleen naar kleuren keken. Hij kon langere reeksen taken doen zonder vast te lopen.
In het echt:
- Taak 1: Een wortel in een kom leggen. De oude robot botste tegen de kom aan. UNILACT zag de diepte (in zijn hoofd) en legde de wortel perfect erin.
- Taak 2: Een aubergine vastpakken en naar een banaan brengen. De oude robot botste tegen het tafelblad. UNILACT greep precies en bewoog veilig.

Samenvatting in één zin

UNILACT is een robot die tijdens zijn opleiding een 3D-bril opzet om de wereld in de diepte te begrijpen, zodat hij daarna, zonder die bril, toch slimme en precieze bewegingen kan maken die geen andere robot kan.

Het is een beetje alsof je een piloot traint in een dure simulator met perfecte 3D-visuals, zodat hij later, zelfs als zijn instrumenten uitvallen, nog steeds precies weet waar de grond is.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Vision-Language-Action (VLA) modellen hebben recent grote stappen gezet in het generaliseren van robotpolicies naar nieuwe taken en objecten. Een veelbelovende aanpak voor het voortrainen van deze modellen zonder dure, handmatig gelabelde robotdata is het leren van latente actierepresentaties uit ongelabelde video's (via inverse en forward dynamics).

Echter, bestaande methoden leren deze latente acties uitsluitend op basis van RGB-observaties. Dit leidt tot representaties die voornamelijk gedreven worden door uiterlijke kenmerken (appearance-driven dynamics) en blind zijn voor de 3D-geometrische structuur van de omgeving. Voor robots die complexe, contactrijke manipulatie taken moeten uitvoeren (zoals precisie-grijpen, plaatsen en botsingsvermijding), is diepte-informatie cruciaal. Zonder diepte-gevoeligheid in de actie-representatie kan een robot niet goed inschatten of een object binnen bereik ligt of of er een botsing dreigt. Bestaande methoden die diepte gebruiken, behandelen dit vaak als pixel- of feature-level input voor het policy-netwerk, maar integreren de geometrie niet in de latente actie-abstractie zelf tijdens het voortrainen.

Methodologie

De auteurs stellen UNILACT (Unified Latent Action Transformer) voor, een VLA-model dat gebruikmaakt van diepte-bewuste, verenigde latente acties. Het trainingsproces bestaat uit drie fasen:

UNILARN (Unified Latent Action leaRNing):
- Dit is een framework dat een gedeelde embedding-ruimte leert voor zowel RGB- als diepte-observaties.
- Het gebruikt een tweestaps vector-quantisatie pijplijn:
  - Inverse Dynamics Model (IDM): Mapt paren van huidige en toekomstige frames (voor zowel RGB als diepte) naar continue latente embeddings.
  - Vector Quantization (VQ): Deze embeddings worden gediskretiseerd met een gedeelde codebook.
  - Unificatie: De modality-specifieke discrete latents worden samengevoegd en opnieuw gekwantiseerd om een verenigde latente actie-representatie ( $z^u_t$ ) te creëren.
  - Forward Dynamics Model (FDM): Deze verenigde latent wordt gebruikt om toekomstige observaties in beide modaliteiten te reconstrueren. Dit dwingt de verenigde representatie om zowel semantische (RGB) als geometrische (diepte) dynamiek te bevatten.
Unify Latent Pretraining (UNILACT):
- UNILACT is een transformer-model dat wordt voorgetraind om de latente actietokens (afgeleid van UNILARN) te voorspellen op basis van visuele observaties en taakinstructies.
- Het model wordt getraind met een cross-modale autoregressieve doelstelling: het moet voorspellen of de volgende token een RGB-latent, een diepte-latent of een verenigd latent is. Dit zorgt voor een sterke uitlijning tussen de semantische en geometrische priors.
Action Fine-tuning:
- In deze laatste fase wordt UNILACT gefinetuned op een kleine dataset van robotdemonstraties met echte actielabels.
- Het model leert de voorspelde verenigde latente tokens om te zetten in continue robotacties (positie, rotatie en gripper-commando's).
- Belangrijk: Diepte-informatie wordt alleen tijdens het trainen gebruikt. Tijdens de inferentie (testtijd) werkt UNILACT uitsluitend op basis van RGB-observaties en taakinstructies, wat de toepasbaarheid in de praktijk vergroot.

Kernbijdragen

UNILARN: Een uniek framework dat inverse en forward dynamics combineert om een gedeelde latent-ruimte te leren die zowel visuele semantiek als 3D-geometrische structuur vastlegt.
UNILACT: Het eerste VLA-model dat dieptecues direct integreert in de latente actie-representatieruimte tijdens het voortrainen, in plaats van alleen als extra input voor het policy-netwerk.
Empirische Validatie: Uitgebreide experimenten in simulatie en de echte wereld tonen aan dat verenigde latente representaties superieur zijn aan RGB-only benaderingen, vooral bij contactrijke taken.

Resultaten

De prestaties van UNILACT zijn getest op zowel simulatiebenchmarks als real-world experimenten:

Simulatie (CALVIN Benchmark):
- UNILACT behaalde een 29,2% relatieve verbetering in de gemiddelde sequentielengte (het aantal opeenvolgende taken dat succesvol wordt voltooid) ten opzichte van de state-of-the-art RGB-only baseline (Moto) bij out-of-domain pretraining.
- Het model presteerde consistent beter dan baselines, zelfs zonder gebruik van proprioceptieve data of gripper-camera beelden, terwijl het wel gebruikmaakte van de geometrische priors uit de training.
- Analyse toont aan dat de verbetering het grootst is bij taken die sterk afhankelijk zijn van geometrie (bijv. schuiven, lichtknoppen indrukken), terwijl RGB-only modellen beter presteren op puur uiterlijke taken.
Real-World Experimenten:
- Getest op een 7-DoF xArm7 manipulator met een RGB-D camera.
- UNILACT behaalde een 10% hogere totale succesratio over vier taken (zowel gezien als ongezien) vergeleken met de Moto-baseline.
- Kwalitatieve resultaten: In taken zoals "karrot in een kom leggen" of "een object verplaatsen zonder te botsen", faalde de RGB-baseline vaak door onnauwkeurige dieptebewaking (botsingen), terwijl UNILACT succesvol en nauwkeurig opereerde dankzij de in het latent space verankerde dieptekennis.
Efficiëntie:
- Ondanks het gebruik van diepte tijdens training, heeft UNILACT tijdens inferentie dezelfde modelgrootte en latentie (27ms per stap) als de RGB-only baselines, omdat de diepte-input niet nodig is tijdens het uitvoeren van taken.

Betekenis

Dit werk markeert een belangrijke stap in de schaalbaarheid en precisie van robotpolicies. Het bewijst dat het integreren van 3D-geometrie in de abstractieniveau van de actie (de latente ruimte) superieur is aan het toevoegen van diepte als extra sensorinput op het laagste niveau. Door UNILARN en UNILACT kunnen robots leren van grote hoeveelheden ongelabelde video's (inclusief diepte-data) en deze kennis generaliseren naar nieuwe, complexe manipulatie-taken zonder dat er extra gelabelde robotdata nodig is voor het voortrainen. Dit opent de deur tot robuustere en veiligere robots die beter kunnen omgaan met fysieke interacties in onvoorspelbare omgevingen.

UniLACT: Depth-Aware RGB Latent Action Learning for Vision-Language-Action Models

1. Het probleem: De "2D-Blindheid"

2. De oplossing: UNILARN (De "Twee-Ogen Trainer")

3. De hoofdpersoon: UNILACT (De "Slimme Uitvoerder")

Wat levert dit op?

Samenvatting in één zin

Probleemstelling

Methodologie

Kernbijdragen

Resultaten

Betekenis

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation