ManiTwin: Scaling Data-Generation-Ready Digital Object Dataset to 100K

Dit paper introduceert ManiTwin, een geautomatiseerde pipeline die een enkele afbeelding omzet in een gesimuleerbaar, semantisch geannoteerd 3D-object, en hiermee het ManiTwin-100K-dataset creëert met 100.000 hoogwaardige assets om robuuste robotmanipulatie en simulatie-data-generatie op schaal mogelijk te maken.

Kaixuan Wang, Tianxing Chen, Jiawei Liu, Honghao Su, Shaolong Zhu, Minxuan Wang, Zixuan Li, Yue Chen, Huan-ang Gao, Yusen Qin, Jiawei Wang, Qixuan Zhang, Lan Xu, Jingyi Yu, Yao Mu, Ping Luo

Gepubliceerd 2026-03-18
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt leren om de huishoudelijke klusjes te doen: koffie zetten, de was ophangen of een hamer vasthouden. Je kunt die robot niet zomaar in een echte keuken zetten om te oefenen; dat is te gevaarlijk en te duur. Dus laten we hem eerst in een virtuele wereld laten oefenen.

Maar hier zit het probleem: de meeste virtuele werelden zijn vol met mooie 3D-figuurtjes die eruitzien als echte voorwerpen, maar die niet echt werken. Ze zijn als papieren poppen: je kunt ze niet vastpakken, ze vallen niet uit elkaar als je ze duwt, en ze hebben geen "handvatten" waar een robotarm zich aan kan vastklampen.

ManiTwin is de oplossing voor dit probleem. Het is een slimme, geautomatiseerde machine die duizenden van deze "papieren poppen" omtovert in echte, werkende digitale tweeling.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De Magische Fabriek (De Pipeline)

Stel je een fabriek voor waar je één foto van een voorwerp (bijvoorbeeld een koffiekan) in gooit.

  • Stap 1: Het Bouwen. De fabriek pakt die foto en bouwt er direct een perfect 3D-model van. Maar niet zomaar een model; het is een model dat zwaar is, rolt, en botst zoals een echte koffiekan.
  • Stap 2: De Leraar (De AI). Vervolgens komt een slimme computer (een "Vision-Language Model") langs. Deze kijkt naar het model en zegt: "Ah, dit is een koffiekan. Het heeft een handvat om vast te houden, een tuit om te gieten, en hij weegt ongeveer 600 gram." De AI plakt deze informatie als een label op het model.
  • Stap 3: De Test. De robot probeert het model vast te grijpen in een virtuele testruimte. Als de koffiekan uit elkaar valt of door de robotarm heen zakt, wordt het model weggegooid. Alleen de modellen die de test halen, krijgen een "keurmerk" en gaan de collectie in.

2. ManiTwin-100K: De Grote Bibliotheek

Het resultaat van deze fabriek is ManiTwin-100K.
Stel je een enorme bibliotheek voor met 100.000 boeken. Maar in plaats van verhalen, zitten er in elk boek een perfect werkend 3D-voorwerp.

  • Je hebt er een hamer, een blikje, een telefoon, een tandenborstel en zelfs een banaan.
  • Elk voorwerp heeft een handleiding: "Pak me hier vast," "Dit is het handvat," "Ik weeg dit," en "Ik kan hiermee water gieten."
  • Alles is getest om te voorkomen dat het in de simulatie vastloopt.

3. Waarom is dit zo belangrijk? (De Analogie)

Vroeger was het trainen van robots als het leren van een kind om te fietsen door alleen maar theorieboeken te lezen. Je wist hoe een fiets eruitzag, maar je wist niet hoe hij aanvoelde als je trapt. Je moest zelf duizenden fietsen bouwen en testen, wat maanden duurde.

Met ManiTwin is het alsof je ineens een massale, perfect ingerichte fietsbaan hebt, met 100.000 verschillende fietsen die allemaal al zijn getest op stabiliteit. De robot kan nu in een seconde duizenden keren oefenen hoe hij een fiets moet vasthouden, hoe hij moet trappen en hoe hij een bocht neemt.

Wat kun je ermee doen?

  • Robottraining: Robots kunnen nu sneller en slimmer leren omdat ze op deze perfecte digitale voorwerpen kunnen oefenen.
  • Vraag en Antwoord: Je kunt de robot vragen: "Welk voorwerp kan ik gebruiken om een spijker in te slaan?" en hij weet het antwoord omdat hij de "functie" van elk voorwerp kent.
  • Nieuwe Werelden: Je kunt automatisch hele kamers vullen met voorwerpen die logisch op elkaar passen, zodat robots kunnen oefenen in chaotische situaties (zoals een rommelige tafel).

Samenvattend

ManiTwin is de brug tussen de digitale wereld en de echte wereld. Het maakt het mogelijk om robots te trainen op een schaal die voorheen onmogelijk was, door duizenden "digitale tweelingen" te maken die niet alleen mooi zijn om naar te kijken, maar die ook echt werken zoals de echte wereld. Het is alsof je een magische machine hebt die de "werkende ziel" van voorwerpen uit de echte wereld haalt en in de computer stopt, zodat robots daar veilig en snel van kunnen leren.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →