D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping

Each language version is independently generated for its own context, not a direct translation.

D-REX: De Slimme Robot die "Zwaarte" Kan Voelen (Zonder Het Te Weegschalen)

Stel je voor dat je een robot wilt leren om een blikje soep, een Lego-blokje en een zware fles ketchup te grijpen. Het probleem? Robots zijn vaak als kinderen die nog nooit iets hebben vastgehouden. Als je ze in een virtuele wereld (een videogame) traint, denken ze dat alles even licht is als een veertje. Maar als je ze dan in de echte wereld zet, laten ze de zware ketchupfles vallen omdat ze niet genoeg kracht gebruiken.

Dit artikel introduceert D-REX, een slim systeem dat dit probleem oplost. Het is als een "vertaler" tussen de virtuele wereld en de echte wereld, met een speciaal talent: het kan het gewicht van een object raden door alleen maar naar een video te kijken en de robot te laten duwen.

Hier is hoe het werkt, in drie simpele stappen:

1. De Digitale Spiegel (Real-to-Sim)

Eerst moet de robot de wereld begrijpen. D-REX neemt een video van een object (bijvoorbeeld een koekje) en bouwt er een digitale spiegelbeeld van.

De Analogie: Stel je voor dat je een foto van een koekje maakt en die in een computer zet. Maar D-REX doet meer dan alleen een foto maken; het bouwt een 3D-model dat eruitziet als het echte koekje, maar ook voelt als het echte koekje. Het gebruikt een nieuwe technologie (Gaussian Splatting) die het object niet als een ruwe blok ziet, maar als een wolk van duizenden kleine, glinsterende deeltjes die samen het vorm en de kleur vormen.

2. Het Gokspel over het Gewicht (Mass Identification)

Nu komt het magische deel. De computer weet nog niet hoe zwaar het koekje is. In de echte wereld duwt de robot het koekje een beetje.

De Analogie: Stel je voor dat je een doos met een raam erin hebt. Je duwt de doos. Als hij heel licht is, vliegt hij weg. Als hij zwaar is, beweegt hij traag.
D-REX doet dit in de computer: het duwt het virtuele koekje. Als het virtuele koekje te snel weg vliegt, denkt de computer: "Oh, ik heb het te licht ingesteld!" Het past het gewicht aan en duwt opnieuw.
Het herhaalt dit duizenden keren per seconde. Het is alsof de computer een gokker is die steeds beter raadt hoe zwaar het object is, tot de beweging in de computer precies hetzelfde is als de beweging in de echte wereld. Nu weet de robot precies hoe zwaar het koekje is, zonder het ooit op een weegschaal te hebben gelegd.

3. De Krachtige Greep (Force-Aware Learning)

Nu de robot het gewicht kent, kan hij leren hoe hij moet grijpen.

De Analogie: Stel je voor dat je een baby vasthoudt. Je gebruikt heel zachte kracht. Als je een zware steen vasthoudt, gebruik je veel meer kracht. Als je de steen vasthoudt met de kracht van een baby, laat je hem vallen.
Veel robots gebruiken een "standaard" greep: ze knijpen altijd even hard. Dat werkt goed voor lichte dingen, maar niet voor zware.
D-REX kijkt naar video's van mensen die dingen vastpakken. Het vertaalt die menselijke bewegingen naar de robot. Maar dan voegt het de gewichtsinformatie toe die het in stap 2 heeft geleerd.
De robot leert: "Ah, dit is een zware ketchupfles. Ik moet harder knijpen dan toen ik dit lichte Lego-blokje vastpakte."

Waarom is dit zo belangrijk?

Vroeger moesten robot-experts alles handmatig instellen. Ze moesten weten hoe zwaar elk object was en hoe het eruitzag, en dat in de computer invoeren. Dat was duur, tijdrovend en vaak foutgevoelig.

D-REX verandert dit in een automatische cyclus:

Kijken: De robot kijkt naar een video.
Raden: De robot raadt het gewicht door te "spelen" in de computer.
Leren: De robot leert hoe hij moet grijpen op basis van dat gewicht.
Doen: De robot pakt het echte object vast en slaagt, zelfs als het zwaarder is dan verwacht.

Kortom: D-REX geeft robots een gevoel voor "zwaarte" en "kracht" dat ze normaal gesproken missen. Het maakt robots minder als stijve poppen die alles laten vallen, en meer als handige helpers die weten hoe zwaar een object is en zich daarop aanpassen. Dit is een grote stap naar robots die echt veilig en slim kunnen werken in onze huizen en fabrieken.

Each language version is independently generated for its own context, not a direct translation.

Titel: D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping

Auteurs: Haozhe Lou, Mingtong Zhang, et al. (USC, UC Berkeley)
Publicatie: ICLR 2026

1. Het Probleem

Robotica vertrouwt sterk op simulatie voor het genereren van data en het trainen van beleidsstrategieën (policy learning) vanwege de kosten- en tijdsbesparing. Een fundamentele uitdaging blijft echter de "sim-to-real" kloof: het verschil tussen de fysieke dynamica in een simulatie en de realiteit.

Fouten in parameters: Simulaties vereisen nauwkeurige fysieke parameters (zoals massa, wrijving, traagheid). Deze worden vaak geschat op basis van visuele waarnemingen, wat leidt tot onnauwkeurigheden.
Beperkingen van bestaande methoden: Bestaande technieken zoals domain randomization (willekeurige variatie van parameters) of handmatige kalibratie zijn vaak inefficiënt of leiden tot onstabiele prestaties bij complexe taken zoals dexterous grasping (gevoelig grijpen).
Niet-differentieerbaarheid: Veel fysieke simulators zijn niet differentieerbaar, wat het moeilijk maakt om fysieke parameters (zoals massa) direct te optimaliseren op basis van visuele feedback of robotbewegingen.

2. Methodologie: D-REX Framework

D-REX is een differentiable Real-to-Sim-to-Real engine die een gesloten lus creëert tussen visuele waarneming, fysieke simulatie en robotbesturing. Het framework bestaat uit vier hoofdstappen:

A. Visuele en Geometrische Reconstructie (Real-to-Sim)

Input: RGB-video's van de scène, het object en menselijke demonstraties.
Techniek: Het gebruikt Gaussian Splatting (3DGS en 2DGS) om hoge-fideliteit visuele en geometrische modellen te reconstrueren.
- 3D Gaussian Splats: Voor fotorealistisch rendering.
- 2D Gaussian Splats met oppervlaktenormaal-schatting: Voor het genereren van nauwkeurige collision meshes (botsingsgeometrie) voor de simulatie.
Output: Een digitaal tweeling (digital twin) in MJCF-formaat (MuJoCo) met collision meshes ( $K$ ) en initiële fysieke parameters ( $\theta$ ).

B. Identificatie van Fysieke Parameters (Massa)

Doel: Het automatisch bepalen van de exacte massa van het object door interactie tussen robot en object.
Proces:
1. De robot voert een actie uit (bijv. duwen) in zowel de echte wereld als in de simulatie.
2. De werkelijke trajecten ( $s^{real}_t$ ) worden gemeten via FoundationPose (6-DoF pose schatting).
3. De gesimuleerde trajecten ( $s^{sim}_t(m)$ ) worden gegenereerd met een differentiable physics engine (Brax/MJX en GradSim).
4. Optimalisatie: De massa $m$ wordt geoptimaliseerd om de fout tussen de gesimuleerde en werkelijke trajecten te minimaliseren via een differentiable loss functie:
  $\min_{m>0} \mathcal{L}_{traj}(m) = \sum ||s^{sim}_t(m) - s^{real}_t||^2_2$
5. Door backpropagation door de simulatie heen wordt de massa nauwkeurig geïdentificeerd zonder grondwaarheid (ground truth) te hoeven kennen.

C. Transfer van Menselijke Demonstraties

Menselijke video's worden verwerkt met modellen zoals HaMeR en MCC-HO om hand- en objectposities te reconstrueren.
Deze posities worden via Dex-Retargeting omgezet naar robotacties ( $A_t$ ) binnen de gesimuleerde omgeving.

D. Beleidsleer met Krachtbewustzijn (Force-Aware Policy Learning)

Input: De geïdentificeerde massa $m$ en de collision mesh $K$ .
Architectuur: Een neurale netwerk (GraspMLP) voorspelt drie dingen:
1. Joint posities voor het grijpen.
2. Contact-rewards (stabiliteit).
3. Grijpkracht ( $\hat{f}$ ), die direct gekoppeld is aan de geschatte massa ( $\hat{f} \propto m \cdot g$ ).
Training: Twee-fasen training: eerst supervisie op menselijke data, daarna verfijning in simulatie met krachtbeperkingen om robuustheid te garanderen.

3. Belangrijkste Bijdragen

Differentiable Real-to-Sim-to-Real Framework: Een end-to-end systeem dat objectmassa identificeert puur op basis van visuele observaties en robotcontrolesignalen, waardoor hoogwaardige digitale tweelingen worden gebouwd.
Krachtbewust Beleidsleer: Een nieuwe aanpak om grijppolitieken te trainen die afhankelijk zijn van de geschatte massa. Dit combineert positie- en krachtsbesturing om de sim-to-real kloof te verkleinen.
Gebruik van Gaussian Splatting: Integratie van 4D Gaussian Splatting voor zowel visuele rendering als het genereren van fysiek plausibele collision meshes voor differentiable simulatie.

4. Resultaten

De auteurs hebben uitgebreide experimenten uitgevoerd met diverse objecten (van Lego-blokken tot zware ketchupflessen):

Massa-identificatie: Het systeem identificeerde de massa met een foutmarge van 4,8% tot 12,0% over verschillende objecten en dichtheden. Zelfs bij objecten met identieke geometrie maar verschillende interne dichtheden kon het systeem de massa nauwkeurig onderscheiden.
Grijpprestaties:
- Beleidsstrategieën getraind met de geïdentificeerde massa presteerden even goed als die getraind met de exacte grondwaarheid (ground truth).
- Beleidsstrategieën die geen rekening hielden met de massa (of een verkeerde massa gebruikten) faalden bij zware objecten (gleed uit) of lichte objecten (veerden af).
Vergelijking met Baselines: D-REX overtrof bestaande methoden zoals DexGraspNet 2.0 en Human2Sim2Robot significant, vooral bij zware objecten waar de baselines faalden door gebrek aan krachtsadaptatie. De succesratio voor D-REX bleef hoog (bijv. 90%+) over een breed scala aan massa's, terwijl de baselines sterk afnamen bij zwaardere objecten.

5. Betekenis en Impact

D-REX vertegenwoordigt een significante stap in de ontwikkeling van robuuste robotsystemen voor de echte wereld:

Overbrugking van de Sim-to-Real kloof: Door fysieke parameters (massa) automatisch en nauwkeurig te leren, elimineert het de noodzaak voor handmatige kalibratie of uitgebreide domain randomization.
Data-efficiëntie: Het maakt gebruik van menselijke video's en vereist geen duizenden robot-demonstraties om te leren.
Toepasbaarheid: Het systeem is specifiek ontworpen voor dexterous grasping, waar krachtsregeling cruciaal is. Het bewijst dat het begrijpen van de fysica van een object (massa) direct leidt tot betere en veiligere grijpacties.
Open Source: De code en projectpagina zijn beschikbaar, wat de reproduceerbaarheid en verdere ontwikkeling in de gemeenschap stimuleert.

Kortom, D-REX combineert geavanceerde computer vision (Gaussian Splatting) met differentiable physics om robots in staat te stellen zichzelf "fysiek bewust" te maken van hun omgeving, wat essentieel is voor het uitvoeren van complexe manipulatietaken in onvoorspelbare real-world scenario's.