Preference-Conditioned Multi-Objective RL for Integrated Command Tracking and Force Compliance in Humanoid Locomotion

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot hebt die eruit ziet als een mens en die je kunt helpen met klusjes in huis. Tot nu toe waren deze robots vaak als stijve poppen: ze konden heel goed lopen als je ze een opdracht gaf ("loop naar de keuken"), maar als je ze zachtjes duwde of trok om hen te helpen, werden ze stijf en weigerden ze mee te bewegen. Ze voelden zich bedreigd door je duw en probeerden er met alle macht tegenin te duwen. Dat is niet handig als je met een robot wilt samenwerken.

Dit onderzoek van een team van de Tsinghua Universiteit lost dit probleem op. Ze hebben een slimme manier bedacht om een robot te leren die twee dingen tegelijk kan:

Gehoorzaam zijn: Precies doen wat je zegt (bijvoorbeeld: "loop 1 meter naar voren").
Meegaand zijn: Zachtjes meegeven als iemand hen zachtjes duwt of trekt (bijvoorbeeld: "kom hier, ik help je").

Hier is hoe ze dat gedaan hebben, vertaald in alledaagse taal:

1. Het dilemma: Hard of Zacht?

Vroeger moesten robotontwikkelaars kiezen: maak de robot sterk en onverzettelijk (zodat hij niet omvalt als hij wordt geduwd), of maak hem zacht en meegaand.

Als je de robot te stijf maakt, is hij veilig, maar hij voelt als een betonnen blok als je hem wilt leiden.
Als je de robot te zacht maakt, is hij makkelijk te leiden, maar hij loopt misschien niet goed als je hem een opdracht geeft.

Deze onderzoekers zeggen: "Waarom kiezen? Laten we een robot maken die beide kan, en waar jij zelf kunt kiezen hoe hij zich gedraagt."

2. De "Draaiknop" voor de robot

Ze hebben een systeem bedacht met een virtuele draaiknop (in de paper een "voorkeursinstelling").

Draai je de knop naar 100% Gehoorzaamheid? De robot loopt als een militair: strakke pas, negeert zachte duwtjes, en volgt je commando's tot in de puntjes.
Draai je de knop naar 100% Meegaandheid? De robot wordt als een drukkend zeepje: als je hem zachtjes duwt, beweegt hij mee alsof hij aan een touwtje hangt. Hij laat zich door jou leiden.
Draai je de knop ergens in het midden? Dan is hij een perfecte mix: hij probeert je opdracht te volgen, maar als je hem hard duwt, geeft hij net genoeg toe om niet om te vallen, zonder je te weerstaan.

Het mooie is: ze hoeven niet elke keer een nieuwe robot te bouwen of te herprogrammeren. Het is één en dezelfde robot die zich aanpast aan de knopstand.

3. Hoe leren ze dit? (De "Spiegel" methode)

Het lastige is: een robot heeft geen huid om te voelen of iemand hem duwt. Hij heeft alleen sensoren in zijn gewrichten.
De onderzoekers gebruikten een slimme truc tijdens het trainen in de computerwereld:

Ze lieten de robot eerst oefenen met een "super-zintuig" (in de computer weet hij precies hoeveel kracht er op hem wordt uitgeoefend).
Vervolgens bouwden ze een spiegel (een encoder-decoder). Deze spiegel probeerde, puur op basis van hoe de robot bewoog, te raden hoeveel kracht erop werd uitgeoefend.
Zodra de spiegel goed genoeg was, haalden ze het "super-zintuig" weg. De robot leerde nu zelf te "voelen" door te kijken naar zijn eigen bewegingen.

Dit is alsof je iemand leert fietsen in de wind. Eerst met een trainer die de wind voelt, en dan haal je de trainer weg. De fietser leert nu zelf de wind voelen door hoe het stuur trilt.

4. De proef op de som

Ze testten dit op een echte menselijke robot (de Booster T1).

In de simulator: Ze zagen dat ze de robot konden laten lopen van "stijf als een boom" tot "zacht als een veer", en dat hij op elk punt stabiel bleef.
In de echte wereld: Ze lieten mensen de robot zachtjes trekken aan zijn armen.
- De oude robots (de "stijve" versie) moesten met veel kracht worden getrokken om te bewegen, en deden soms zelfs tegenstribbelen.
- De nieuwe robot (met de "meegaande" instelling) liet zich met heel weinig kracht (ongeveer 10 Newton, alsof je een lichte tas vasthoudt) overal naartoe leiden. Hij liep zelfs over gras en oneffen grond terwijl iemand hem zachtjes leidde.

Waarom is dit belangrijk?

Stel je voor dat je een robot hebt die je helpt in een ziekenhuis of in een drukke fabriek.

Als de robot te stijf is, kan hij een patiënt pijn doen als hij per ongeluk tegen hen aan loopt.
Met deze nieuwe techniek kun je de robot instellen op "Veilig en Meegaand". Als iemand hem vastpakt om te helpen, doet hij mee. Als niemand hem vasthoudt, doet hij precies wat je vraagt.

Kort samengevat:
Deze onderzoekers hebben een robot gemaakt die niet meer hoeft te kiezen tussen "stijf en sterk" of "zacht en zwak". Met één knop kunnen we hem instellen op precies de juiste balans, zodat hij een veilige en natuurlijke partner wordt voor mensen in onze wereld. Het is alsof ze de robot een sociale intelligentie hebben gegeven: hij weet wanneer hij moet vasthouden en wanneer hij moet meegaan.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Humanoid robots die in mensgerichte omgevingen opereren, moeten twee fundamenteel tegenstrijdige vaardigheden balanceren:

Accuraat commando-tracking: Het volgen van snelheidscommando's voor navigatie.
Krachtcompliance: Het reageren op externe krachten (bijvoorbeeld van een menselijke gids) op een soepele en veilige manier.

Bestaande Reinforcement Learning (RL) benaderingen focussen vaak op robuustheid door robots te trainen om externe verstoringen te weerstaan. Dit leidt echter tot stijve polen die externe krachten tegenwerken in plaats van erop te reageren. Dit maakt fysieke interactie en menselijke begeleiding onnatuurlijk en soms onveilig. Er is een gebrek aan methoden die expliciet de afweging (trade-off) tussen het volgen van commando's en het toestaan van externe krachten binnen één enkel beleid (policy) modelleren.

Methodologie

De auteurs stellen een voorkeursgeconditioneerde Multi-Objective Reinforcement Learning (MORL) framework voor dat deze tegenstrijdige doelen integreert.

1. Velocity-Resistance Modeling (Snelheid-Weerstand Modellering)
Om commando's (snelheid) en externe krachten in één reward-functie te kunnen vergelijken, wordt een fysiek onderbouwd model gebruikt. Externe krachten ( $F_{ext}$ ) worden gemappt naar equivalente snelheden ( $v_{ext}$ ) via een lineaire dempingsrelatie:
$v_{ext} = k \cdot F_{ext}$
Hierdoor kunnen zowel het volgen van een snelheidscommando als het meegaan met een externe kracht worden uitgedrukt als het minimaliseren van de afwijking van een "doel-snelheid".

2. Multi-Objective Formulering
Het probleem wordt geformuleerd als een MORP met twee hoofdobjectieven:

Commando-tracking ( $r_c$ ): Minimaliseer de fout tussen de huidige snelheid en het commando.
Krachtcompliance ( $r_f$ ): Minimaliseer de fout tussen de huidige snelheid en de door de externe kracht geïnduceerde snelheid.
Een voorkeursvector ( $w$ ) (waarbij $w_c + w_f = 2$ ) bepaalt de weging van deze doelen. Dit stelt het systeem in staat om continu te interpoleren tussen rigide tracking en hoge compliance.

3. Trainingsframework met Privileged Reconstruction
Omdat externe krachten tijdens de deploy niet direct meetbaar zijn (geen tactiele sensoren), gebruiken de auteurs een asymmetrische actor-critic architectuur met een encoder-decoder structuur:

Critic: Heeft toegang tot "geprivilegieerde" informatie (waaronder externe krachten en torque) die alleen in simulatie beschikbaar is.
Actor: Krijgt alleen deploybare observaties (proprioceptie, commando's, etc.).
Encoder-Decoder: De encoder leert een latente representatie uit historische observaties. Een decoder probeert de geprivilegieerde informatie (zoals de externe kracht) te reconstrueren uit deze latent features. Dit dwingt de actor om kracht-gevoelige features te infereren zonder directe sensoren.

4. Training en Deployment
Het beleid wordt getraind met PPO (Proximal Policy Optimization) in een parallelle simulatieomgeving (Isaac Gym). Tijdens training worden willekeurige voorkeursvectoren gesampled om het hele spectrum van gedrag te leren. Bij deployatie wordt alleen de encoder en de actor gebruikt, waarbij de gebruiker de voorkeursvector dynamisch kan aanpassen.

Belangrijkste Bijdragen

Unificatie van Doelen: Formulering van humanoid locomotie als een multi-objectief probleem waarbij een snelheid-weerstand model commando's en externe krachten unifyert voor een consistente reward-ontwerp.
Single-Policy Flexibiliteit: Introductie van een MORL-framework dat één enkel beleid traint dat een continu spectrum van tracking-compliance trade-offs dekt, zonder hiërarchische controllers of meervoudige trainingsfasen.
Validatie in Simulatie en Hardware: Uitgebreide validatie op de Booster T1 humanoid robot, wat aantoont dat het beleid stabiel is en direct inzetbaar (deployable) in de echte wereld.

Resultaten

De resultaten worden getoond in zowel simulatie als op de fysieke Booster T1 robot:

Trade-off Gedrag: Het MORL-beleid toont een duidelijke, monotoon dalende curve tussen tracking-accuraatheid en krachtcompliance. Bij een hoge weging voor tracking ( $w_c=2.0$ ) gedraagt het zich als een standaard RL-beleid; bij een hoge weging voor compliance ( $w_f=2.0$ ) volgt het soepel menselijke gidskrachten.
Online Adaptatie: Het beleid kan naadloos schakelen tussen verschillende gedragingen door de voorkeursvector tijdens het lopen aan te passen, zonder instabiliteit.
Robuustheid: In vergelijking met een single-objective baseline (SORL) toont het MORL-beleid betere robuustheid tegen onverwachte impulsen (tot 50N). Het vermijdt valpartijen waar de baseline faalt, en reduceert de piek-torque in de gewrichten.
Real-World Experimenten:
- De robot kan soepel worden geleid door een mens met slechts ~10 N kracht, terwijl de baseline meer dan 25 N vereist en vaak onstabiel wordt.
- De robot slaagt erin om diagonaal te lopen (combinatie van commando en externe kracht) en traverseert diverse terreinen (gras, oneffen grond) onder menselijke begeleiding zonder ondersteuning.
- Het weerstaat impacten van een 5 kg bal zonder te vallen.

Betekenis

Dit werk is significant omdat het een praktische oplossing biedt voor een van de grootste uitdagingen in de interactie tussen mens en robot: het balanceren van autonomie en compliantie. Door een enkel beleid te gebruiken dat zowel robuust als compliant kan zijn, afhankelijk van de context, elimineert de methode de noodzaak voor complexe hiërarchische systemen. Het maakt humanoid robots veiliger en natuurlijker voor toepassingen waar fysieke interactie en menselijke begeleiding essentieel zijn, zoals in zorg, revalidatie of logistiek. De gebruikte encoder-decoder architectuur maakt bovendien de deployatie op hardware mogelijk zonder dure of kwetsbare kracht-sensoren.

Preference-Conditioned Multi-Objective RL for Integrated Command Tracking and Force Compliance in Humanoid Locomotion

1. Het dilemma: Hard of Zacht?

2. De "Draaiknop" voor de robot

3. Hoe leren ze dit? (De "Spiegel" methode)

4. De proef op de som

Waarom is dit belangrijk?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis

Meer zoals dit

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers