UniLACT: Depth-Aware RGB Latent Action Learning for Vision-Language-Action Models

Het artikel introduceert UniLACT, een transformer-gebaseerd vision-language-action model dat via het UniLARN-framework dieptebewuste latente acties leert uit RGB- en dieptedata om de ruimtelijke vaardigheden van robots voor complexe manipulatie taken te verbeteren.

Manish Kumar Govind, Dominick Reilly, Pu Wang, Srijan Das

Gepubliceerd 2026-02-25
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt leren om te koken. Je kunt hem duizenden video's laten kijken van mensen die koken, maar je vertelt hem niet wat ze precies met hun handen doen. De robot moet het zelf raden door te kijken naar de beelden. Dit is wat onderzoekers "latent action learning" noemen: het robot leren de intentie van een beweging te begrijpen zonder dat iemand de beweging expliciet heeft opgeschreven.

Het probleem met de huidige robots is dat ze vaak alleen kijken met hun "ogen" (camera's die kleuren zien, ofwel RGB). Ze zien dat een appel rood is en dat een mes beweegt, maar ze hebben geen goed gevoel voor diepte. Ze weten niet precies hoe ver de appel van het mes af is, of of ze tegen een muur gaan aanlopen. Het is alsof je probeert een bal te vangen terwijl je een bril op hebt die de wereld plat maakt; je ziet de bal, maar je weet niet of hij op je neus landt of op je hand.

UNILACT is de oplossing die deze onderzoekers hebben bedacht. Laten we het uitleggen met een paar creatieve vergelijkingen:

1. Het probleem: De "2D-Blindheid"

Stel je voor dat je een robot leert een blokje in een doos te leggen.

  • De oude methode (alleen RGB): De robot kijkt naar de video en denkt: "Ah, ik zie een blokje en een doos. Ik ga mijn hand bewegen." Maar omdat hij geen diepte ziet, botst hij misschien tegen de rand van de doos aan, of hij legt het blokje net naast de doos. Hij mist de 3D-ruimte.
  • Het gevolg: De robot is goed in dingen die op kleur lijken, maar slecht in taken waar precisie en aanraking nodig zijn (zoals een deur openen of een glas vullen).

2. De oplossing: UNILARN (De "Twee-Ogen Trainer")

Om dit op te lossen, hebben de onderzoekers eerst een slimme trainer bedacht, genaamd UNILARN.

  • De analogie: Stel je voor dat UNILARN een meester-leraar is die een robot twee brillen laat dragen: één bril voor kleuren (RGB) en één bril voor diepte (zoals een 3D-bril).
  • Hoe het werkt: De trainer kijkt naar video's waar zowel kleuren als diepte-informatie in zit. Hij leert de robot een gemeenschappelijke taal te spreken. In plaats van alleen te zeggen "rood blokje", leert hij de robot te denken: "rood blokje, op 30 centimeter afstand, schuin naar links".
  • Het resultaat: De robot leert een "geheime code" (latent action) die zowel de kleur als de 3D-vorm bevat. Dit is als het leren van een taal die niet alleen woorden kent, maar ook de afstanden tussen de woorden.

3. De hoofdpersoon: UNILACT (De "Slimme Uitvoerder")

Nu hebben we die slimme code. UNILACT is de robot die deze code gaat gebruiken.

  • De training: Tijdens het leren gebruikt UNILACT de "twee-ogen" informatie (kleur + diepte) om die geheime code te begrijpen. Hij leert: "Als ik dit commando krijg, moet ik rekening houden met de diepte."
  • De truc (Het magische moment): Zodra de robot klaar is met leren, haal je de "diepte-bril" eraf!
    • Bij het leren (de training) gebruikt hij diepte om de wereld te begrijpen.
    • Bij het werken (de uitvoering) kijkt hij alleen nog maar met zijn gewone camera (kleuren).
    • Waarom werkt dit? Omdat hij tijdens het leren zo goed heeft gekeken naar de diepte, heeft hij die kennis in zijn hoofd opgeslagen. Hij hoeft de diepte niet meer te meten; hij weet hoe het eruit ziet. Het is alsof je een kaart van een stad leert lezen met een 3D-model, en daarna de stad in loopt zonder het model, maar je weet nog steeds precies waar de straten liggen.

Wat levert dit op?

De onderzoekers hebben dit getest in een virtuele wereld (simulatie) en in het echt met een robotarm.

  • In de simulatie: De robot met UNILACT was 29% beter dan robots die alleen naar kleuren keken. Hij kon langere reeksen taken doen zonder vast te lopen.
  • In het echt:
    • Taak 1: Een wortel in een kom leggen. De oude robot botste tegen de kom aan. UNILACT zag de diepte (in zijn hoofd) en legde de wortel perfect erin.
    • Taak 2: Een aubergine vastpakken en naar een banaan brengen. De oude robot botste tegen het tafelblad. UNILACT greep precies en bewoog veilig.

Samenvatting in één zin

UNILACT is een robot die tijdens zijn opleiding een 3D-bril opzet om de wereld in de diepte te begrijpen, zodat hij daarna, zonder die bril, toch slimme en precieze bewegingen kan maken die geen andere robot kan.

Het is een beetje alsof je een piloot traint in een dure simulator met perfecte 3D-visuals, zodat hij later, zelfs als zijn instrumenten uitvallen, nog steeds precies weet waar de grond is.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →