Universal Pose Pretraining for Generalizable Vision-Language-Action Policies

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt leren om een kopje thee te zetten. De huidige robots zijn als slimme studenten die alles over de theorie van koffie en theepotten weten, maar als ze de theepot moeten vastpakken, raken ze in de war. Ze zien het object wel, maar ze snappen niet precies hoe het in de ruimte ligt of hoe ze hun 'hand' moeten bewegen om het veilig vast te houden.

Dit artikel introduceert Pose-VLA, een nieuwe manier om robots te trainen die dit probleem oplost. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Theoreticus" vs. De "Praktijk"

Huidige robot-hersenen (zogenaamde VLA-modellen) zijn getraind op internet-afbeeldingen en vragen als "Wat zie je op deze foto?". Ze zijn experts in het herkennen van dingen (een kopje, een lepel), maar ze zijn slecht in het begrijpen van diepte en 3D-ruimte.

De analogie: Het is alsof je iemand leert autorijden door alleen foto's van auto's te tonen en vragen te stellen over de kleur van de auto. Die persoon weet wat een auto is, maar als hij echt achter het stuur moet zitten, weet hij niet hoe ver de voorruit van de weg af is.

2. De Oplossing: Twee Stappen in plaats van Alles Tegelijk

De auteurs zeggen: "Laten we de robot niet direct laten proberen te koken of te bouwen. Laten we eerst een sterke basis leggen." Ze splitsen het leren op in twee duidelijke fases:

Fase 1: De "Ruimtelijke Oefening" (Pre-training)
Voordat de robot ooit een echte robotarm aanraakt, laten we hem eerst kijken naar miljoenen foto's van 3D-objecten (zoals meubels, borden, speelgoed) en leren hoe deze eruitzien in de ruimte.

De creatieve analogie: Stel je voor dat je een danser wilt leren. In plaats van hem direct te laten dansen op een drukke dansvloer, laat je hem eerst urenlang naar dansvideo's kijken en de bewegingen analyseren in zijn hoofd. Hij leert de "gevoelens" van de ruimte: hoe ver is iets? Hoe staat het?
De sleutel: Ze gebruiken een nieuw soort "taal" voor de robot: Pose Tokens. In plaats van cijfers en getallen, leert de robot met speciale woorden (tokens) te denken over posities en hoeken. Het is alsof je de robot een universeel woordenboek geeft waarin "links", "rechts", "boven" en "diep" allemaal exact dezelfde betekenis hebben, ongeacht welke camera of robotarm hij gebruikt.

Fase 2: De "Specifieke Dans" (Post-training)
Pas nadat de robot een sterk gevoel voor 3D-ruimte heeft, laten we hem oefenen met de echte robotarm. Omdat hij al weet hoe de ruimte eruitziet, heeft hij maar heel weinig voorbeelden nodig (slechts 100 keer een taak zien doen) om het te leren.

De analogie: Omdat de danser al de basisbewegingen uit zijn hoofd kent, hoeft hij niet meer 1000 uur te oefenen om een nieuwe dans te leren. Hij kan het in één avond oppakken.

3. Waarom werkt dit zo goed?

De grootste uitvinding is dat ze de robot dwingen om te denken in camera-ruimte (wat de camera ziet) in plaats van in robot-ruimte (wat de motor moet draaien).

De analogie: Stel je voor dat je een kaart leest. De oude robots probeerden de kaart te vertalen naar hun eigen benen ("ik moet mijn linkervoet 30 graden draaien"). De nieuwe robot kijkt gewoon naar de kaart en zegt: "Het doel is daar, rechts van die boom." Omdat hij de kaart (de camera-beelden) direct begrijpt, kan hij die kennis overdragen op elke nieuwe situatie, of het nu een nieuwe kamer is of een nieuw type robotarm.

4. De Resultaten: Een Super-Robot

De tests tonen aan dat deze robot:

Beter is in 3D: Hij kan objecten veel nauwkeuriger lokaliseren dan andere robots.
Sneller leert: Hij heeft veel minder training nodig om nieuwe taken te leren.
Robuuster is: Als de belichting verandert of de kamer anders eruitziet, raakt hij niet in paniek. Hij blijft zijn "ruimtelijk gevoel" behouden.

Kort samengevat:
Pose-VLA is als het geven van een robot een 3D-bril en een universeel woordenboek voor beweging. In plaats van te proberen alles in één keer te leren (zien + denken + doen), leren ze eerst de wereld in 3D te begrijpen, en pas daarna hoe ze die wereld moeten aanraken. Hierdoor worden robots niet alleen slimmer, maar ook veel sneller en flexibeler in het echte leven.

Each language version is independently generated for its own context, not a direct translation.

Titel: Universele Positie-Pretraining voor Generaliseerbare Vision-Language-Action (VLA) Policy's

1. Het Probleem

Bestaande Vision-Language-Action (VLA) modellen, zoals $\pi_0$ en de GR00T-serie, kampen met fundamentele beperkingen bij het vertalen van semantisch inzicht naar robuuste fysieke actie. De auteurs identificeren drie hoofdoorzaken voor dit falen:

Granulariteitsmismatch: VLM's (Vision-Language Models) worden voornamelijk getraind op Visual Question Answering (VQA) en beeldtekst-uitlijning. Dit leert het model wat een object is, maar niet hoe de fysieke toestand (3D-positie, oriëntatie, contactgeometrie) verandert. Robotmanipulatie vereist echter fijne, 3D-gevoelige variaties om succesvolle acties te genereren.
Data-heterogeniteit: Er is een groot gat tussen internet-schaal visuele data (die fysiek niet-gegrond is) en schaarse, dure robot-demonstraties. Bestaande VLA-modellen worstelen om deze twee bronnen effectief te combineren zonder dat het model "feature collapse" ondergaat (waarbij het de fijne ruimtelijke details verliest).
Coördinaat-misalignement: Veel modellen proberen acties te voorspellen in het robot-basisframe, terwijl de waarneming (camera) in een ander frame plaatsvindt. Dit creëert een complexe vertaalslag die generalisatie bemoeilijkt.

2. Methodologie: Pose-VLA

De auteurs stellen Pose-VLA voor, een decouplend paradigma dat het leren van beleidsstrategieën splitst in twee fasen, met discrete pose-tokens als universele representatie.

Universele Representatie (Pose Tokens):
- In plaats van alleen tekst of 2D-bounding boxes, worden objecten en robotgrepen gerepresenteerd als 3D-poses ($SE(3)$) binnen een camera-centric frame.
- De output is een gestructureerde sequentie van tuples: $\tau_t = \{c_t, b_t, p_t\}$ , waarbij $c_t$ de categorie is, $b_t$ het 2D-kadercentrum, en $p_t$ de 3D-positie en oriëntatie.
- Dit vereist een uitbreiding van de vocabulaire van het taalmodel met speciale tokens voor rotatie (<rot>) en translatie (<trans_xy>, <trans_z>), waarbij de diepte-as ( $z$ ) apart wordt behandeld vanwege perspectiefprojectie.
Twee-staps Training Pipeline:
1. Pre-training (Ruimtelijke Gronding): Het model wordt getraind op grote schaal met diverse 3D-datasets (niet-robotisch, zoals Omni3D en Omni6DPose). Het doel is het leren van universele 3D-ruimtelijke priors. Het model leert om 3D-poses te voorspellen op basis van RGB-beelden, dieptekaarten en camera-intrinsieken (raymaps).
  - Input: RGB, dieptekaarten en raymaps (afgeleid van camera-intrinsieken).
  - Techniek: Modale masking wordt gebruikt om robuustheid te garanderen als alleen RGB beschikbaar is tijdens inferentie.
2. Post-training (Embodiment Alignment): Een lichtgewicht "Action Expert" (gebaseerd op flow matching) wordt toegevoegd om de voorgeprogrammeerde ruimtelijke representaties om te zetten in specifieke robotcommando's. Dit stadium vereist slechts weinig demonstraties (few-shot) omdat de zware ruimtelijke kennis al is opgebouwd.
Architectuur:
- Gebaseerd op PaliGemma (SigLIP als visuele encoder).
- Integratie van 3D-priors via additieve fusie van raymaps en dieptekaarten met de RGB-embeddings, analoog aan positionele encoding.

3. Belangrijkste Bijdragen

Decouplend Paradigma: Een nieuwe aanpak die perceptie en actiespecifieke training scheidt, waardoor het model eerst robuuste 3D-ruimtelijke priors leert voordat het wordt aangepast aan een specifieke robot.
Universele Pose Tokens: Een gemeenschappelijke interface die heterogene 3D-datasets (van objectdetectie tot robotdemonstraties) in één consistent camera-centric frame kan integreren.
Uitgebreide Pre-training Corpus: Een dataset van 1,4 miljoen afbeeldingen met 6,5 miljoen 3D-annotaties voor ruimtelijke gronding, aangevuld met 1,55 miljoen robottrajecten voor bewegingsuitlijning.
Efficiëntie: Het model bereikt state-of-the-art resultaten met slechts 100 demonstraties per taak in de echte wereld, wat de data-efficiëntie aanzienlijk verbetert.

4. Resultaten

Pose-VLA presteert superieur op zowel simulatie- als real-world benchmarks:

3D Grounding (Omni3D):
- Op de Objectron dataset bereikt Pose-VLA een AP@0.15 van 87,3, wat een verbetering is van 16,1% ten opzichte van de sterke open-source baseline Qwen3-VL.
- Op SUN RGB-D scoort het 45,5, wat beter is dan alle open-source baselines en vergelijkbaar met gespecialiseerde gesloten modellen.
Simulatie (RoboTwin 2.0 & LIBERO):
- RoboTwin 2.0: In de moeilijke "Hard" setting (met veel visuele ruis) bereikt Pose-VLA een gemiddelde succesratio van 79,1%, een verbetering van 14% ten opzichte van $\pi_0$ .
- LIBERO: Het model behaalt een gemiddelde succesratio van 96,0% over vier taak suites, wat het tweede beste resultaat is (na $\pi_0.5$ ) en aanzienlijk beter dan OpenVLA en andere baselines.
Real-world Experimenten:
- Getest op een dual-arm Xtrainer platform met taken zoals stapelen, hangen, langdurige interactie (lades openen/sluiten) en het vouwen van textiel.
- Met slechts 100 demonstraties per taak bereikt Pose-VLA een gemiddelde succesratio van 83,75%, significantly beter dan PaliGemma (28,75%) en $\pi_0.5$ (73,75%).
- Ablatie-studies tonen aan dat dieptedata (depth) en camera-centric representaties cruciaal zijn; zonder diepte daalt de prestatie bij complexe taken met 25%.

5. Betekenis en Conclusie

Pose-VLA bewijst dat het integreren van 3D-ruimtelijke priors via pre-training op grote schaal een fundamentele oplossing biedt voor de "domain gap" tussen visuele taalmodellen en robotcontrole.

Verschuiving in Focus: Het paper pleit voor een verschuiving van VQA-gebaseerde foundations naar modellen die inherent fysiek zijn geworteld (embodied-aware).
Data-efficiëntie: Door gebruik te maken van niet-robotische 3D-data voor pre-training, kan het model robuustere ruimtelijke redenering leren zonder afhankelijk te zijn van enorme hoeveelheden dure robotdemonstraties.
Generalisatie: De aanpak toont aan dat een enkel model kan generaliseren over verschillende robotlichamen, objecttypes (stijf, gearticuleerd, vervormbaar) en omgevingen, wat een belangrijke stap is naar algemeen toepasbare robotica.

Universal Pose Pretraining for Generalizable Vision-Language-Action Policies

1. Het Probleem: De "Theoreticus" vs. De "Praktijk"

2. De Oplossing: Twee Stappen in plaats van Alles Tegelijk

3. Waarom werkt dit zo goed?

4. De Resultaten: Een Super-Robot

Titel: Universele Positie-Pretraining voor Generaliseerbare Vision-Language-Action (VLA) Policy's

1. Het Probleem

2. Methodologie: Pose-VLA

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Integrating Artificial Intelligence, Physics, and Internet of Things: A Framework for Cultural Heritage Conservation

Scaling DPPs for RAG: Density Meets Diversity

DRAFT: Task Decoupled Latent Reasoning for Agent Safety

General Explicit Network (GEN): A novel deep learning architecture for solving partial differential equations

Apparent Age Estimation: Challenges and Outcomes