RoboCurate: Harnessing Diversity with Action-Verified Neural Trajectory for Robot Learning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt leren hoe hij taken moet uitvoeren, zoals een kopje pakken of een potje openen. Normaal gesproken moet je de robot duizenden keren laten oefenen in de echte wereld. Dat is echter extreem duur, tijdrovend en soms zelfs gevaarlijk als de robot iets breekt.

De onderzoekers van dit paper, RoboCurate, hebben een slimme oplossing bedacht. Ze gebruiken in plaats van echte oefeningen kunstmatige data gegenereerd door AI, maar dan op een manier die veel betrouwbaarder is dan wat we eerder deden.

Hier is hoe het werkt, vertaald naar alledaagse termen:

1. Het Probleem: De "Slechte Film"

Stel je voor dat je een film wilt maken van een robot die een taak uitvoert, maar je gebruikt een AI die films kan genereren.

Het oude probleem: Soms maakt die AI een film waarin de robot een kopje vastpakt, maar in de film glijdt het kopje door de tafel heen of verdwijnt het in de lucht. Als je een robot leert op basis van zo'n film, zal hij in de echte wereld ook proberen door de tafel te grijpen. Dat werkt niet.
De huidige oplossing (te simpel): Mensen (of andere AI's) kijken naar de film en zeggen: "Ja, dit ziet er logisch uit." Maar ze kunnen niet altijd zien of de bewegingen echt fysiek mogelijk zijn.

2. De Oplossing: RoboCurate (De "Dubbelspel"-Check)

RoboCurate is als een slimme regisseur die niet alleen kijkt naar de film, maar ook een simulatie draait om te controleren of de film klopt.

Het proces verloopt in drie stappen:

Stap A: Het Maken van Diverse Films (De "Kleurenpot")

Eerst zorgen ze voor veel variatie. Stel je voor dat je een set LEGO hebt.

I2I (Image-to-Image): Ze nemen de startfoto van een scène en veranderen de omgeving. De tafel wordt van hout naar glas, het licht wordt warmer, en het object verandert van een rode appel naar een blauwe mok. Dit zorgt dat de robot leert dat de taak in elke situatie werkt, niet alleen in één specifieke kamer.
V2V (Video-to-Video): Ze nemen een geslaagde video en veranderen de "kleding" van de robot of de textuur van de objecten, maar houden de beweging exact hetzelfde.

Stap B: De "Dubbelspel"-Check (De "Simulator-Test")

Dit is het hart van hun uitvinding.

De AI genereert een video van een robot die een taak doet.
De AI voorspelt welke bewegingen de robot moet maken om die video te bereiken.
De Magische Stap: Ze sturen die voorspelde bewegingen naar een virtuele simulator (een digitale zandbak). De simulator laat een digitale robot die bewegingen uitvoeren.
De Vergelijking: Ze vergelijken de originele gegenereerde video met de video die de simulator heeft gemaakt.
- Analogie: Stel je voor dat je een dansvideo maakt. Dan laat je een robot in een virtuele wereld precies die dans doen. Als de robot in de virtuele wereld struikelt of zijn armen niet op de juiste plek zet, terwijl de originele video het perfect lijkt te doen, dan is de originele video vals. RoboCurate gooit zo'n video direct weg.

Stap C: De "Best-of-N" Selectie (De "Kwaliteitskeuze")

Soms maakt de AI 10 verschillende versies van een video voor dezelfde taak. RoboCurate gebruikt de simulator om te kijken welke van die 10 versies het meest logisch is. Ze kiezen alleen de beste versie om de robot mee te trainen. Dit is als een jury die uit 10 kandidaten alleen de winnaar kiest die het beste dansen kan.

Waarom is dit zo belangrijk?

In de echte wereld hebben ze getest of robots die getraind zijn met deze "gecurateerde" kunstmatige data, beter presteren dan robots die alleen met echte data of met slechtere kunstmatige data zijn getraind.

Resultaat: De robots werden 70% tot 180% beter in het uitvoeren van taken.
Het grote voordeel: Ze kunnen robots leren op taken waar ze nog nooit eerder mee hebben geoefend (bijvoorbeeld een nieuw object oppakken), omdat ze door de enorme variatie in de kunstmatige data hebben geleerd hoe de fysica werkt, in plaats van alleen maar te memoriseren.

Samenvattend

RoboCurate is als een super-veiligheidscontrole voor robot-training. In plaats van dat we duizenden robots in de echte wereld laten crashen, laten we ze eerst "dromen" in een virtuele wereld. Maar voordat we die dromen gebruiken, controleren we ze met een simulator om zeker te weten dat ze fysiek mogelijk zijn. Alleen de beste, meest realistische dromen worden gebruikt om de echte robot slimmer te maken.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Robotics foundation models (RFMs) hebben sterke prestaties geleverd, maar hun ontwikkeling wordt beperkt door het gebrek aan grote, diverse datasets. Het verzamelen van echte robotdata is duur en arbeidsintensief.

Synthetische data uit simulatie: Lijdt vaak aan de "sim-to-real gap" (visuele discrepanties) en vereist veel engineering voor diverse omgevingen.
Neurale trajecten (Video Generative Models): Deze genereren visueel realistische video's die op echte data lijken, maar hebben twee grote tekortkomingen:
1. Inconsistent actie-kwaliteit: De gegenereerde video's kunnen fysiek onwaarschijnlijk zijn (bijv. objecten die door elkaar heen bewegen), wat leidt tot foutieve actie-labels.
2. Beperkte validatie: Bestaande methoden gebruiken Vision-Language Models (VLMs) om video-kwaliteit te beoordelen, maar deze kunnen fysieke nauwkeurigheid vaak niet onderscheiden en evalueren de gegenereerde acties niet direct. Dit resulteert in ruis in de trainingsdata en suboptimale beleidsprestaties.

Methodologie: RoboCurate

RoboCurate is een nieuw raamwerk voor het genereren en filteren van synthetische robotdata. Het combineert gecontroleerde diversiteit met een unieke validatiestap via simulatie.

1. Generatie van Diverse Neuraal Trajecten (Stage 1)

Om de beperkingen van bestaande methoden (zoals DreamGen) te overwinnen, introduceert RoboCurate een pijplijn voor visuele diversiteit:

Image-to-Image (I2I) Editing: De initiële frame van een video wordt bewerkt om de scène te variëren (tafeltextuur, objectidentiteit, belichting, achtergrond) terwijl de onderliggende manipulatiestructuur behouden blijft.
Video-to-Video (V2V) Transfer: De gegenereerde video's worden getransformeerd om de uiterlijke verschijning (textuur, kleur) te diversifiëren zonder de bewegingsdynamiek te veranderen. Hierdoor kunnen de originele actie-labels behouden blijven.
Taak-instructies: Een VLM genereert plausibele nieuwe taakinstructies op basis van de initiële scène, wat zorgt voor variatie in gedrag, doelobjecten en plaatsing.

2. Actie-gebaseerd Filteren via Simulator-herhaling (Stage 2)

Dit is de kerninnovatie van RoboCurate. In plaats van alleen te vertrouwen op visuele plausibiliteit, verifieert het systeem of de gegenereerde acties fysiek consistent zijn met de video.

Simulator Rollout: De door het Inverse Dynamics Model (IDM) voorspelde acties worden herhaald in een fysieke simulator. Dit genereert een "rollout video" ( $w_{sim}$ ) waarin de robotbeweging exact overeenkomt met de voorspelde acties.
Consistentie-check: Er wordt een vergelijking gemaakt tussen de gegenereerde video ( $w_{gen}$ ) en de simulator-rollout ( $w_{sim}$ ).
Attentive Probe: Een lichtgewicht model (gebaseerd op een bevooroordeelde video-encoder en een cross-attention laag) wordt getraind om te classificeren of twee video-paren (real vs. simulator) een consistent bewegingspatroon vertonen.
- Positieve paren: Realistische video en de bijbehorende simulator-rollout.
- Negatieve paren: Video's die temporair verschuiven of uit verschillende episodes komen.
Selectie: Alleen de neurale trajecten waarbij de "attentive probe" een hoge waarschijnlijkheid van bewegingsconsistentie aangeeft, worden behouden voor training.

3. Best-of-N Sampling

Tijdens de generatiefase kan het filter als criticus fungeren. Er worden $N$ kandidaat-video's gegenereerd, en alleen het paar met de hoogste consistentiescore wordt geselecteerd. Dit verbetert de kwaliteit zonder data weg te gooien.

Belangrijkste Bijdragen

RoboCurate Framework: Een unificatie van visuele diversificatie (I2I/V2V) en actie-gebaseerde validatie via simulatie.
Actie-Verificatie: Een nieuwe methode om de kwaliteit van synthetische data te garanderen door de overeenkomst tussen gegenereerde video en simulator-rollout te meten, wat superieur is aan puur visuele of VLM-gebaseerde validatie.
Diversiteitspijplijn: Het gebruik van I2I en V2V om de observationele diversiteit drastisch te vergroten, wat essentieel is voor generalisatie.
Uitgebreide Evaluatie: Validatie op meerdere benchmarks, inclusief simulatie en echte robotplatforms.

Resultaten

RoboCurate werd getest op Vision-Language-Action (VLA) modellen (zoals GR00T N1.5) in twee settings: pre-training en co-finetuning.

Pre-training (GR-1 Tabletop):
- T.o.v. alleen echte data: +70,1% verbetering in succesratio.
- T.o.v. een baseline zonder filtering/diversiteit (DreamGen): +26,6% extra verbetering.
Pre-training (DexMimicGen):
- +16,1% verbetering t.o.v. alleen echte data.
Co-finetuning (Real-World ALLEX Humanoid):
- Dit is de meest uitdagende setting (echte robot, dexterous manipulation).
- RoboCurate behaalde een +179,9% relatieve verbetering in succesratio t.o.v. alleen echte data.
- Voor nieuwe objecten (Out-of-Distribution) en nieuwe gedragingen (bijv. "blik inschenken" zonder echte data) toonde het model emergent succes (van 0% naar 25% succes).
Ablatie Studies:
- Filtering op basis van bewegingsconsistentie (Attentive Probe) presteerde aanzienlijk beter dan filtering op basis van simpele cosine-similariteit of VLM-gebaseerde fysica-checks.
- Visuele diversiteit (I2I/V2V) bleek cruciaal; zonder dit was de verbetering marginaal.

Betekenis en Impact

RoboCurate lost een fundamenteel probleem op in robot learning: de kwaliteit van synthetische data. Door te bewijzen dat actie-gebaseerde validatie via simulatie essentieel is, biedt het een pad naar schaalbare, hoogwaardige datasets zonder de kosten van massale datacollectie.

Het maakt het mogelijk om modellen te trainen op data die fysiek plausibel is, wat leidt tot betere generalisatie in de echte wereld.
De methode werkt effectief over verschillende robotlichamen (embodiments), wat de overdraagbaarheid van kennis vergroot.
Het stelt de gemeenschap in staat om synthetische data niet alleen te genereren, maar ook te "cureren" (filteren), wat de basis legt voor betrouwbaardere robotfoundation modellen.