Preference-Conditioned Multi-Objective RL for Integrated Command Tracking and Force Compliance in Humanoid Locomotion

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un robot umanoide, un "cugino" robotico di noi umani, che deve imparare a camminare. Fino a poco tempo fa, i robot erano come testarde mule: se qualcuno cercava di spingerli o guidarli con la mano, loro resistevano con tutta la forza, cercando di mantenere la loro direzione a tutti i costi. Questo era utile per non cadere, ma rendeva impossibile guidarli delicatamente come si farebbe con un bambino o un cane.

Questo articolo parla di un nuovo modo per insegnare ai robot a camminare, rendendoli intelligenti, flessibili e collaborativi. Ecco la spiegazione semplice, divisa per concetti chiave:

1. Il Problema: La "Mule" vs. Il "Danzatore"

Fino ad ora, l'Intelligenza Artificiale (RL) insegnava ai robot a camminare concentrandosi solo sulla resistenza. Era come addestrare un soldato a non cadere mai, anche se qualcuno lo spingeva. Il risultato? Robot che camminavano bene, ma se un umano cercava di guidarli prendendoli per il braccio, il robot si irrigidiva e resisteva, come se dicesse: "No, io so dove andare, non toccarmi!".

Il problema è che in un mondo dove umani e robot lavorano insieme, il robot deve saper fare due cose opposte:

Seguire gli ordini: Andare dove gli diciamo noi (es. "vai avanti").
Essere malleabile: Se un umano lo spinge o lo guida, deve cedere e seguire quella spinta, come un ballerino che segue il partner.

2. La Soluzione: Il "Volantino" dei Desideri

Gli autori hanno creato un sistema speciale chiamato RL Multi-Obiettivo con Preferenze.
Immagina di avere un volantino (o un manubrio) con due manopole:

Manopola "Obbedisci agli ordini": Se la giri al massimo, il robot è un soldato perfetto che ignora le spinte e va dritto dove gli dici.
Manopola "Ascolta la gente": Se la giri al massimo, il robot diventa un "cagnolino" che segue la mano che lo accarezza, ignorando quasi gli ordini precedenti.

La magia di questo lavoro è che non serve addestrare due robot diversi. C'è un unico robot che può cambiare comportamento istantaneamente girando questa manopola. Se vuoi che vada veloce, lo imposti su "Obbedisci". Se vuoi che ti segua mentre lo guidi con la mano, lo imposti su "Ascolta la gente". E può stare anche a metà strada, facendo un po' di entrambe le cose.

3. Come Funziona la Magia: Il "Trucco del Finto"

C'è un problema: i robot non hanno sempre sensori per sentire la forza che esercita un umano (come una mano che li spinge). È come se dovessero guidare al buio.
Per risolvere questo, gli scienziati hanno usato un trucco intelligente, simile a un allenatore segreto:

Durante l'addestramento (in simulazione): Il robot ha un "super-potere". Può vedere tutto, inclusa la forza che lo spinge. L'allenatore gli dice: "Ehi, stai venendo spinto da sinistra, quindi gira a destra per compensare!".
Il Trucco: Invece di dargli solo la soluzione, l'allenatore gli chiede di indovinare da dove viene la spinta basandosi solo su ciò che sente il suo corpo (come se fosse un detective che indovina il crimine dalle impronte).
Nella realtà: Quando il robot esce dal laboratorio, perde il "super-potere" (non vede più la forza), ma ha imparato a indovinare la spinta guardando come il suo corpo si muove. È come un musicista che, dopo aver suonato con gli occhi aperti, impara a suonare a orecchio chiudendo gli occhi.

4. Il Risultato: Un Robot che "Sente"

Hanno testato questo robot (chiamato Booster T1) sia in simulazione che nel mondo reale.

In laboratorio: Hanno spinto il robot con forze diverse. Quando la manopola era su "Ascolta la gente", il robot si muoveva dolcemente verso la spinta, come se fosse un elastico. Quando era su "Obbedisci", resisteva come una roccia.
All'aperto: Hanno portato il robot in un campo da calcio e su terreni irregolari. Una persona lo ha preso per il braccio e lo ha guidato. Il robot ha camminato dolcemente, adattandosi al terreno e alla spinta umana, senza cadere e senza opporre resistenza rigida.

In Sintesi

Questo lavoro è come aver insegnato a un robot a ballare.
Prima, il robot era come un muro: se lo spingevi, restava fermo o cadeva.
Ora, con questo nuovo metodo, il robot è come un partner di danza:

Se gli dai un ordine preciso, lo esegue con precisione.
Se un umano lo guida con la mano, lui si flette e segue il movimento, mantenendo l'equilibrio.
Tutto questo lo fa un solo robot, cambiando "umore" in base a cosa gli chiedi, senza bisogno di riaddestrarlo ogni volta.

È un passo enorme per rendere i robot non solo forti, ma anche gentili e collaborativi con gli esseri umani.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

Il movimento dei robot umanoidi in ambienti centrati sull'uomo richiede due capacità fondamentali ma spesso in conflitto:

Tracciamento preciso dei comandi: La capacità di seguire accuratamente le velocità e le direzioni richieste dall'utente per la navigazione.
Compliance alla forza (Force Compliance): La capacità di rispondere in modo naturale e sicuro alle forze esterne applicate dall'interazione umana (es. guida fisica, spinta), senza opporre una resistenza rigida e pericolosa.

Le approcci di Reinforcement Learning (RL) esistenti si concentrano principalmente sulla robustezza, addestrando i policy a resistere a perturbazioni esterne. Questo porta a comportamenti eccessivamente rigidi che, sebbene stabili, rendono difficile la guida fisica da parte dell'uomo e compromettono la sicurezza. Esiste quindi un "gap" tra il tracciamento robusto dei comandi e la camminata interattiva e compliant. La sfida principale è bilanciare questi due obiettivi conflittuali all'interno di un'unica policy senza ricorrere a architetture gerarchiche complesse o fasi di addestramento separate.

2. Metodologia

Gli autori propongono un framework di Reinforcement Learning Multi-Obiettivo (MORL) condizionato dalle preferenze.

A. Modellazione della Resistenza alla Velocità

Per unificare il tracciamento della velocità e la compliance alla forza, il lavoro introduce un modello di resistenza alla velocità. Invece di trattare le forze esterne come semplici perturbazioni, vengono mappate in velocità equivalenti tramite una relazione lineare (simile allo smorzamento viscoso):
$v_{ext} = k \cdot F_{ext}$
Dove $F_{ext}$ è la forza esterna e $k$ è un coefficiente di mappatura. Questo permette di esprimere sia l'obiettivo di seguire un comando di velocità ( $v_c$ ) sia quello di seguire una forza esterna ( $F_{ext}$ ) nello stesso spazio fisico, rendendo possibile un design della funzione di ricompensa coerente.

B. Formulazione MORL e Condizionamento

Il problema è formulato come un processo decisionale di Markov parzialmente osservabile (POMDP) con una vettore di ricompensa multi-obiettivo:
$r(s, a) = [r_c, r_f, r_r]$
Dove:

$r_c$ : Ricompensa per il tracciamento del comando di velocità.
$r_f$ : Ricompensa per la compliance alla forza esterna (basata sul modello di resistenza).
$r_r$ : Termini di regolarizzazione (stabilità, consumo energetico, altezza).

Viene introdotta una policy condizionata dalle preferenze $\pi(a|o, w)$ , dove $w$ è un vettore di pesi (preferenze) specificato dall'utente. Variando $w$ , la policy può interpolare liscamente tra un comportamento di tracciamento rigido e uno altamente compliant.

C. Architettura di Addestramento e Deployment

Per gestire il fatto che i robot reali non possiedono sensori di forza/tatto diretti, viene utilizzata un'architettura Asimmetrica Attore-Critico con un modulo Encoder-Decoder:

Durante l'addestramento (Simulazione): Il Critico ha accesso a informazioni privilegiate (forze esterne, velocità lineari reali). L'Encoder mappa le osservazioni storiche (propriocezione, comandi, ecc.) in un embedding latente $z_t$ . Il Decoder tenta di ricostruire le informazioni privilegiate (inclusa la forza esterna) da $z_t$ , costringendo l'Encoder a estrarre caratteristiche rilevanti per la forza.
Durante il deployment (Realtà): Viene utilizzato solo l'Encoder e l'Attore. La policy inferisce le caratteristiche relative alla forza dalle osservazioni disponibili a bordo, rendendo il sistema deployabile senza sensori di forza aggiuntivi.

3. Contributi Chiave

Formulazione Multi-Obiettivo Unificata: Trasformazione del problema di locomozione in un problema di ottimizzazione multi-obiettivo, utilizzando un modello di resistenza alla velocità per rappresentare in modo coerente comandi e forze esterne.
Framework MORL Condizionato alle Preferenze: Sviluppo di una singola policy che copre uno spettro continuo di compromessi tra tracciamento e compliance, senza bisogno di controller gerarchici o addestramento a più stadi.
Validazione Sperimentale Completa: Dimostrazione del successo sia in simulazione (Isaac Gym, MuJoCo) che su hardware reale (robot umanoide Booster T1), confermando la capacità di adattamento a diverse preferenze utente e la robustezza in scenari reali.

4. Risultati Sperimentali

In Simulazione

Curva di Trade-off: La policy dimostra una curva di compromesso monotona e liscia: aumentando il peso sulla compliance, la resistenza alla forza aumenta mentre la precisione del tracciamento diminuisce, e viceversa.
Switching Online: La policy può cambiare comportamento in tempo reale modificando i pesi di preferenza durante l'esecuzione, passando fluidamente da un modo all'altro senza instabilità.
Robustezza: Rispetto a una policy RL a singolo obiettivo (SORL), l'approccio MORL mostra un addestramento più stabile e una maggiore resilienza a perturbazioni impulsive (fino a 50N), mantenendo tassi di successo superiori anche con forze elevate.

Nel Mondo Reale (Robot Booster T1)

Adattabilità: Il robot ha dimostrato di poter essere guidato manualmente con diverse intensità. Con alta compliance, il robot si muove con poco sforzo umano; con alta priorità al comando, esegue movimenti precisi resistendo alle spinte.
Camminata Oloidirezionale: Il robot è riuscito a combinare comandi di velocità e forze esterne ortogonali per produrre una camminata diagonale naturale.
Misurazioni Quantitative: Utilizzando un dinamometro, è stato misurato che la policy proposta richiede circa 10 N per muovere il robot in modo fluido, contro oltre 25 N richiesti dalla policy baseline (che spesso superava il limite di misura di 30 N).
Robustezza agli Impatti: Il robot ha resistito a impatti di palle sospese fino a 5 kg senza cadere, adattandosi con passi indietro e movimenti compliant.

5. Significato e Impatto

Questo lavoro rappresenta un passo significativo verso l'interazione fisica sicura e naturale tra umani e robot umanoidi.

Superamento del Dilemma Robustezza vs. Compliance: Dimostra che non è necessario scegliere tra un robot rigido e sicuro o uno morbido e interattivo; un'unica policy può gestire entrambi gli estremi.
Semplicità e Deployabilità: L'approccio non richiede sensori di forza costosi o architetture di controllo complesse, rendendo la soluzione scalabile e pronta per l'uso su hardware reale.
Flessibilità Operativa: La capacità di adattare il comportamento in base alle preferenze dell'utente apre nuove possibilità per scenari di assistenza, riabilitazione e collaborazione uomo-robot in ambienti dinamici.

In sintesi, il paper presenta un metodo efficace per rendere i robot umanoidi non solo robusti, ma anche interattivi e compliant, fondamentali per il loro dispiegamento in ambienti domestici e pubblici.