InterReal: A Unified Physics-Based Imitation Framework for Learning Human-Object Interaction Skills

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt leren om een zware doos te tillen en ergens neer te zetten, of om die doos voor zich uit te duwen. Voor een mens is dit makkelijk, maar voor een robot is het een enorme uitdaging. De robot moet niet alleen zijn eigen benen en armen coördineren, maar ook precies voelen hoe de doos aanvoelt, waar hij staat en hoe hij beweegt.

Dit artikel introduceert InterReal, een slimme nieuwe manier om robots te leren om deze taken uit te voeren. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: Robots die "blind" zijn in interactie

Tot nu toe waren robots goed in lopen of dansen (alleen hun eigen lichaam bewegen). Maar zodra ze iets aanraken, zoals een doos, raken ze vaak in de war.

De oude manier: Robots kregen vaak een vaste lijst met regels (een "recept") van mensen. Als de doos net iets anders lag dan verwacht, faalde de robot.
Het nieuwe probleem: In de echte wereld zijn dingen nooit perfect. De doos kan verschuiven, de sensor kan een beetje ruis hebben, of de robot kan een seconde te laat reageren. De oude robots vielen dan snel of konden de taak niet afmaken.

2. De Oplossing: InterReal (De "Super-Leraar")

InterReal is een systeem dat robots leert om te "voelen" en te "reageren" in plaats van alleen maar een script af te spelen. Het heeft twee magische trucs:

Truc 1: De "Dromerige" Oefening (Data Augmentatie)

Stel je voor dat je een danser traint voor een optreden. Als je hem alleen maar laat oefenen op exact hetzelfde podium, met exact dezelfde muziek en exact dezelfde positie van de andere danser, zal hij falen zodra er een luidspreker op het podium staat die er niet had moeten zijn.

InterReal doet iets slims:

Het neemt een perfecte beweging (bijvoorbeeld: "til de doos op").
Het verandert de omstandigheden in de simulatie. Het doet alsof de doos een stukje naar links staat, of alsof hij iets zwaarder is.
De robot moet dan telkens opnieuw bedenken: "Oké, de doos staat nu hier, hoe til ik hem dan toch op zonder te vallen?"
Het resultaat: De robot leert niet één specifieke beweging, maar het principe van hoe je omgaat met een doos, ongeacht waar hij precies staat. Het is alsof je een atleet traint in regen, zon, wind en op verschillende ondergronden, zodat hij op elk moment kan presteren.

Truc 2: De Slimme Coach (Automatische Beloning)

Dit is misschien wel het coolste deel. Bij het trainen van een robot moet je hem belonen als hij het goed doet en straffen als hij het fout doet.

Het oude probleem: Mensen moesten handmatig beslissen: "Is het belangrijker dat de robot niet valt, of dat hij de doos precies op de juiste plek zet?" Dit is als een coach die de hele wedstrijd schreeuwt: "Loop harder!" of "Draai links!", maar nooit weet wat de prioriteit is op dat specifieke moment.
De InterReal-methode: Ze hebben een tweede, slimme AI-coach (een "meta-policy") ingebouwd.
- Deze coach kijkt naar de prestaties van de robot.
- Als de robot dreigt te vallen, schreeuwt de coach: "Geef nu 100% aandacht aan evenwicht!"
- Als de robot stabiel staat, zegt de coach: "Oké, nu focussen we 100% op het precies neerzetten van de doos."
- De coach past de "beloningsscore" dus live aan, afhankelijk van wat er op dat moment het belangrijkst is. Hierdoor leert de robot veel sneller en slimmer.

3. De Test: Van Simulatie naar de Echte Wereld

De onderzoekers hebben dit getest met twee taken:

Een doos tillen en neerzetten.
Een doos voor zich uit duwen.

Ze hebben hun robot (een Unitree G1, die eruitziet als een mens) getraind in een virtuele wereld en daarna in de echte wereld losgelaten.

Resultaat: InterReal was veel succesvoller dan de vorige methoden. De robot viel zelden, en hij kon de doos zelfs vasthouden als de doos een beetje verschuilde of als de robot een beetje uit balans was.
De "Waarheid": In de echte wereld kon de robot de positie van de doos zien (met een camera) en zijn bewegingen direct aanpassen. Als de doos een beetje scheef stond, boog de robot zijn arm net iets anders om het toch goed te doen.

Samenvatting in één zin

InterReal is als een robot die niet alleen een dansroutine uit het hoofd heeft geleerd, maar die ook een slimme coach heeft die hem in real-time vertelt wat hij moet doen als de omstandigheden veranderen, waardoor hij zelfs in de chaotische echte wereld veilig en soepel kan werken.

Dit is een grote stap voorwaarts om robots echt nuttig te maken in fabrieken, huizen of ziekenhuizen, waar dingen nooit precies zoals gepland verlopen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "InterReal: A Unified Physics-Based Imitation Framework for Learning Human–Object Interaction Skills", geschreven in het Nederlands.

1. Het Probleem

Hoewel deep reinforcement learning (DRL) met bewegingsimitatie aanzienlijke vooruitgang heeft geboekt bij het besturen van humanoïde robots voor taken zoals lopen en springen, blijven deze systemen beperkt in hun vermogen tot mens-object interactie (HOI). Bestaande frameworks focussen vaak op niet-interactieve whole-body controle of vereisen teleoperatie (menselijke besturing), wat de autonomie van de robot beperkt.

De specifieke uitdagingen bij het overbrengen van HOI-taken naar de echte wereld zijn:

Sensordrukte en perturbaties: In de realiteit veroorzaken sensorruis en veranderingen in de relatieve positie tussen mens en object (bijvoorbeeld een doos) dat geleerde beleidsstrategieën uit hun trainingsdistributie raken, wat leidt tot falen.
Beloningsschaling (Reward Shaping): Het ontwerpen van een effectieve beloningsfunctie voor complexe interacties is een bottleneck. Het handmatig afwegen van meerdere, heterogene beloningssignalen (zoals balans, contact en positie) is tijdrovend en vaak suboptimaal.
Fysieke realisme: Veel bestaande methoden (vaak uit de animatiewereld) negeren volledige fysieke beperkingen of contactmechanismen, waardoor ze niet direct inzetbaar zijn op echte robotsystemen.

2. Methodologie: InterReal Framework

InterReal is een unified, physics-based imitatieleerframework dat is ontworpen om humanoïde robots in staat te stellen nauwkeurige HOI-taken uit te voeren. Het framework bestaat uit drie hoofdcomponenten:

A. Motion Data Augmentation (Bewegingsverrijking)

Om robuustheid tegen objectperturbaties te vergroten, introduceert InterReal een augmentatiemethode:

Inversie Kinematica (IK): Er wordt een offset ( $\Delta p_{xy}$ ) toegepast op de positie van het object in de wereldcoördinaten.
Contactbehoud: Via IK worden de nieuwe gewrichtsposities van de armen berekend terwijl de contactdetails tussen de hand en het object (gebaseerd op de "anchor motion") behouden blijven.
Resultaat: Dit genereert meerdere trainingsbewegingen voor dezelfde taak met verschillende objectposities, wat de generalisatie van het beleid verbetert zonder de fysieke contacteisen te schenden.

B. Inner-Loop: HOI Taakleren (PPO)

Het kernbeleid ( $\pi_{hoi}$ ) wordt getraind met Proximal Policy Optimization (PPO) om referentiebewegingen na te bootsen.

Asymmetrische Actor-Critic: De criticus heeft toegang tot "perfecte" toestanden (inclusief objectsnelheid, rotatie en interactiegrafieken), terwijl de actor alleen "imperfecte" toestanden ontvangt (zoals objectpositie via FoundationPose, maar zonder snelheid/rotatie). Dit verkleint de sim-to-real gap.
Interactiebewuste Beloning: Er wordt een specifieke beloning gebruikt op basis van een interactiegrafiek om nauwkeurige contacten tussen robot en object te garanderen.

C. Outer-Loop: Automatische Beloningsleraar (Meta-Learning)

Om het probleem van handmatige beloningsschaling op te lossen, introduceert het paper een meta-leraar die de gewichten van de beloningsfunctie dynamisch aanpast.

Meta-Policy ( $\mu_{meta}$ ): Een tweede agent (gebaseerd op Soft Actor-Critic, SAC) leert hoe de gewichten ( $\Theta$ ) van de onderliggende PPO-beloningsfunctie moeten worden ingesteld.
Sturing door Foutmetrieken: De meta-leraar wordt geleid door kritieke trackingfouten (gewrichtspositie, objectpositie, linkpositie). Als de fouten veranderen, past de meta-leraar de gewichten aan om de onderliggende policy te optimaliseren.
Doel: Dit elimineert de noodzaak voor handmatige tuning en zorgt ervoor dat de beloning zich aanpast aan de verschillende fasen van de interactie (bijv. meer focus op balans in het begin, meer focus op contact later).

3. Belangrijkste Bijdragen

Unified Framework: InterReal is het eerste framework dat motion-imitatie, fysiek realisme en real-time feedback combineert voor HOI op humanoïde robots.
Robuuste Augmentatie: Een nieuwe methode voor bewegingsaugmentatie die contactdetails behoudt terwijl objectposities variëren, wat de stabiliteit in de realiteit verbetert.
Automatische Reward Learning: Een innovatieve meta-learning aanpak die de complexe afweging van beloningssignalen automatiseert, wat leidt tot effectievere leerprocessen dan statische, handgemaakte beloningen.
Real-World Validatie: Succesvolle implementatie en validatie op de Unitree G1 humanoïde robot in de echte wereld, inclusief real-time objectpositie-feedback.

4. Resultaten

De prestaties van InterReal werden getest op twee uitdagende taken: doos-pakken (box-picking) en doos-duwen (box-pushing), vergeleken met baselines zoals ASAP* en InterMimic*.

Trackingnauwkeurigheid: InterReal behaalde de laagste trackingfouten op bijna alle metrieken (zoals gewrichtshoeken, objectpositie en interactiegrafieken) in zowel simulatie als realiteit.
Taalsucces:
- Doos-pakken: 96,41% succesrate (vs. 84,72% voor InterMimic* en 77,38% voor ASAP*).
- Doos-duwen: 87,45% succesrate (vs. 79,10% voor InterMimic* en 70,63% voor ASAP*).
Ablatiestudies: Deze toonden aan dat zowel de bewegingsaugmentatie als de automatische beloningsleraar essentieel zijn voor de hoge prestaties. Zonder de automatische beloning (d.w.z. met statische gewichten) daalde de prestatie aanzienlijk.
Real-World Deploy: De robot kon succesvol omgaan met onzekerheden zoals vertragingen en positieveranderingen van het object, en paste zijn bewegingen in real-time aan.

5. Betekenis en Conclusie

InterReal vertegenwoordigt een significante stap voorwaarts in de autonomie van humanoïde robots. Door de afhankelijkheid van teleoperatie te doorbreken en robuuste, fysiek gebaseerde interactie mogelijk te maken, opent dit onderzoek de deur voor de toepassing van humanoïde robots in complexe industriële en logistieke omgevingen waar interactie met objecten vereist is.

Het paper benadrukt dat hoewel de huidige resultaten veelbelovend zijn, uitdagingen zoals passieve objecttracking en hoge latentie in objectdetectie in de echte wereld nog verder moeten worden aangepakt om de robuustheid volledig te maximaliseren. Desondanks bewijst InterReal dat geautomatiseerde beloningsoptimalisatie en bewegingsaugmentatie cruciale componenten zijn voor het succesvol overbruggen van de kloof tussen simulatie en de realiteit in HOI-taken.