SCDP: Learning Humanoid Locomotion from Partial Observations via Mixed-Observation Distillation

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover insegnare a un robot umanoide (come un piccolo umano fatto di metallo) a camminare, correre e saltare. Il problema è che, nella vita reale, il robot non può "vedere" il mondo come noi. Non sa esattamente dove si trova nello spazio, non sa quanto velocemente sta correndo e non ha un GPS interno. Ha solo i suoi "seni" interni: sensori che gli dicono come sono piegate le sue articolazioni e come sta girando il suo corpo.

È come se dovessi imparare a guidare un'auto con gli occhi bendati, basandoti solo sulla sensazione del volante e del motore.

Ecco come gli autori di questo paper (SCDP) hanno risolto il problema, spiegato in modo semplice:

1. Il Problema: L'allenamento "truccato"

Fino a poco tempo fa, per addestrare questi robot, gli scienziati usavano un trucco: durante l'allenamento (in un simulatore al computer), davano al robot informazioni "privilegiate". Gli dicevano: "Ehi, stai correndo a 2 metri al secondo verso nord".
Il robot imparava a muoversi benissimo, ma quando lo mettevano nel mondo reale, senza quel GPS interno, cadeva immediatamente perché non sapeva più come orientarsi. Era come un atleta che si allena sempre con un allenatore che gli urla la strategia, ma quando scende in campo da solo, non sa cosa fare.

2. La Soluzione: L'allenamento "misto" (Mixed-Observation)

Gli autori hanno inventato un metodo geniale chiamato SCDP. Immagina di addestrare un cuoco:

L'input (Cosa vede il robot): Gli dai solo gli ingredienti grezzi e il rumore della cucina (i sensori interni).
La supervisione (Cosa deve imparare): Gli chiedi di preparare un piatto perfetto, ma gli mostri la ricetta completa con le quantità esatte (le informazioni privilegiate che il robot non ha).

Il robot deve imparare a collegare il rumore della cucina (i sensori) con il risultato perfetto (la ricetta). Col tempo, il cervello del robot impara a indovinare la velocità e la posizione basandosi solo sulle sensazioni interne, senza bisogno che qualcuno glielo dica. È come se il robot sviluppasse un "sesto senso" per capire dove si trova.

3. I Trucchi del Mago (Le tecniche chiave)

Per far funzionare questo trucco, hanno usato tre accorgimenti magici:

Il "Denoising" Restretto (Cancellare le scorciatoie):
Immagina che il robot, durante l'allenamento, provi a "barare" guardando la velocità nel suo campo visivo. Gli autori hanno detto: "No, non puoi guardare la velocità! Devi indovinarla!". Hanno nascosto l'informazione sulla velocità durante l'allenamento, costringendo il robot a imparare a dedurla dal contesto (ad esempio, se sente che le gambe si muovono in un certo modo, deve capire che sta correndo).
L'Attenzione Contestuale (La memoria):
Il robot ha una memoria a breve termine. Invece di guardare solo l'ultimo istante, il sistema permette al robot di guardare indietro e in avanti nel suo breve passato (come guardare un video a ritroso e in avanti per capire cosa sta succedendo). Questo aiuta a capire la dinamica del movimento anche se i dati sono incompleti.
Allineamento della Realtà:
Assicurano che quello che il robot vede durante l'allenamento sia esattamente uguale a quello che vedrà quando sarà sul campo reale. Niente sorprese.

4. Il Risultato: Il Robot G1

Hanno testato tutto questo su un robot reale chiamato Unitree G1.

In simulazione: Il robot camminava e cambiava direzione con un successo del 99-100%, quasi perfetto.
Nel mondo reale: Hanno caricato il cervello del robot sul G1. Il robot camminava a 50 volte al secondo (velocissimo per un computer), senza bisogno di telecamere esterne, senza laser, senza GPS. Solo con i suoi sensori interni.
- Se lo spingevano, si riprendeva.
- Se gli dicevano di correre, correva.
- Se gli chiedevano di imitare una danza umana, la faceva.

In sintesi

Hanno creato un sistema che insegna a un robot a camminare come un umano, senza dargli mai la risposta giusta durante l'allenamento, ma facendogli indovinare la risposta basandosi solo sulle sue sensazioni. È come insegnare a un bambino a stare in equilibrio su una bicicletta senza tenergli la mano: all'inizio sembra impossibile, ma col giusto metodo (SCDP), il robot impara a "sentire" l'equilibrio e a muoversi da solo, anche nel mondo reale.

È un passo enorme perché rende i robot umani più sicuri e facili da usare ovunque, non solo nei laboratori di ricerca pieni di sensori costosi.

Each language version is independently generated for its own context, not a direct translation.

Ecco una sintesi tecnica dettagliata del paper "SCDP: Learning Humanoid Locomotion from Partial Observations via Mixed-Observation Distillation" in italiano.

1. Il Problema

Il controllo dei robot umanoidi ha fatto grandi passi avanti grazie all'apprendimento per rinforzo (RL) e ai modelli di diffusione. Tuttavia, le attuali politiche di controllo basate su diffusione (diffusion policies) per la locomozione dipendono fondamentalmente da informazioni privilegiate (stato completo del corpo, posizione globale, velocità della base, orientamento) che sono disponibili in simulazione ma difficili o inaffidabili da ottenere su robot reali senza sistemi di cattura del movimento esterni (es. motion capture).

La rimozione di questi input privilegiati degrada drasticamente le prestazioni, portando a fallimenti catastrofici anche in compiti semplici. Questo crea un Processo Decisionale di Markov Parzialmente Osservabile (POMDP), dove il policy deve inferire stati globali nascosti basandosi solo su osservazioni parziali (sensori di bordo/propriocezione). I metodi esistenti non sono progettati per operare efficacemente in queste condizioni di parziale osservabilità.

2. Metodologia: SCDP

Gli autori propongono SCDP (Sensor-Conditioned Diffusion Policies), un framework di distillazione basato su modelli di diffusione che permette il controllo della locomozione umanoida utilizzando esclusivamente i sensori di bordo, eliminando la necessità di una stima esplicita dello stato.

Il cuore della metodologia risiede nella Distillazione a Osservazioni Miste (Mixed-Observation Distillation) e in diverse tecniche di regolarizzazione:

Distillazione a Osservazioni Miste: Durante l'addestramento, il modello di diffusione viene condizionato solo sulla storia delle osservazioni dei sensori di bordo ( $o_t$ ), ma viene supervisionato per prevedere le traiettorie future degli stati privilegiati ( $s_t$ ) e delle azioni. Questa asimmetria forza il modello a imparare una rappresentazione interna (implicata) della dinamica globale del corpo, inferendo lo stato completo dai dati parziali senza bisogno di un modulo di stima dello stato esplicito al momento del deployment.
Denoising Restretto (Restricted Denoising): Per evitare che il modello utilizzi la velocità della pelvi ( $v_{pelvis}$ ) come "scorciatoia" durante l'addestramento, questa viene esclusa dagli input di denoising, ma mantenuta come target di supervisione. Questo costringe il modello a inferire la velocità dal contesto storico, abilitando il controllo senza feedback diretto della velocità.
Allineamento della Distribuzione del Contesto: Per evitare lo shift di distribuzione tra addestramento e inferenza, il contesto di addestramento viene generato utilizzando coppie (stato rumoroso, azione rumorosa) che rispecchiano le condizioni di deployment, mantenendo la relazione causale corretta.
Mascheratura dell'Attenzione Consapevole del Contesto: A differenza dei metodi precedenti che usano maschere causali rigide, SCDP abilita un'attenzione bidirezionale all'interno della finestra del contesto storico. Questo facilita l'aggregazione delle informazioni passate per inferire la dinamica latente dalle osservazioni parziali.
Architettura: Il modello utilizza un Transformer a 6 livelli che processa osservazioni, azioni, comandi e stati privilegiati (durante l'addestramento), prevedendo traiettorie future di 16 passi.

3. Contributi Chiave

Training a Osservazioni Miste: Permette l'inferenza implicita della dinamica globale del corpo partendo solo da sensori di bordo, eliminando la dipendenza da stati privilegiati al deployment.
Denoising Restretto: Abilita il controllo della velocità senza feedback diretto, costringendo il modello a stimare la velocità dal contesto.
Validazione Sim-to-Real: Implementazione e validazione su un robot umanoide fisico Unitree G1 a 50 Hz, dimostrando locomozione robusta senza sensori esterni.
Analisi Ablativa Sistematica: Identificazione delle componenti critiche (come l'allineamento della distribuzione del contesto e la lunghezza del contesto) che determinano il successo in scenari di parziale osservabilità.

4. Risultati

Il framework è stato valutato sia in simulazione (IsaacLab) che su hardware reale (Unitree G1):

Controllo della Velocità: In simulazione, SCDP raggiunge un tasso di successo del 99-100% nel controllo della velocità, performance paragonabile ai metodi basati su stati privilegiati, ma utilizzando solo sensori di bordo.
Tracking di Movimento (AMASS): Nel test set AMASS, SCDP ottiene un successo del 93% nel tracciamento di movimenti di riferimento, superando significativamente le baseline di Behavior Cloning (BC) e altri metodi di distillazione che falliscono senza stati privilegiati.
Robustezza: Il modello dimostra capacità di recupero da perturbazioni (spinte casuali) e navigazione verso waypoint con successo quasi perfetto.
Deployment Reale: Il policy è stato eseguito su un Unitree G1 a 50 Hz (con throughput di 105 Hz su workstation remota), mostrando locomozione robusta senza motion capture esterno.
Ablazioni:
- Senza osservazioni miste, il modello fallisce completamente (1.4% di successo).
- L'uso di rumore nelle azioni e forze di spinta durante la raccolta dati è cruciale per la robustezza.
- Una lunghezza del contesto di 4-8 passi è ottimale; contesti più lunghi (16 passi) degradano le prestazioni a causa di errori cumulativi.

5. Significato e Impatto

Questo lavoro rappresenta un passo fondamentale verso l'uso pratico dei robot umanoidi in ambienti reali. Risolve il collo di bottiglia principale che impedisce il deployment di controller basati su apprendimento profondo: la dipendenza da informazioni di stato non disponibili su robot autonomi.

Indipendenza dai Sensori Esterni: SCDP dimostra che è possibile apprendere dinamiche complesse e controllare robot umanoidi usando solo la propriocezione, rendendo i sistemi più economici, portatili e adatti a scenari non controllati.
Generalizzazione: Il metodo funziona sia per il controllo di velocità (locomozione generica) che per il tracciamento di movimenti complessi (imitazione), offrendo una soluzione versatile.
Futuro: Apre la strada a ricerche su fine-tuning sim-to-real senza stati privilegiati, correzione della deriva (drift) per compiti a lungo termine e applicazioni in scenari di manipolazione complessa e terreni irregolari.

In sintesi, SCDP trasforma il problema della locomozione umanoida da un compito dipendente da sensori esterni a uno risolvibile autonomamente dal robot, mantenendo prestazioni di livello "privileged" attraverso un'ingegnosa formulazione di addestramento ibrido.

SCDP: Learning Humanoid Locomotion from Partial Observations via Mixed-Observation Distillation

1. Il Problema: L'allenamento "truccato"

2. La Soluzione: L'allenamento "misto" (Mixed-Observation)

3. I Trucchi del Mago (Le tecniche chiave)

4. Il Risultato: Il Robot G1

In sintesi

1. Il Problema

2. Metodologia: SCDP

3. Contributi Chiave

4. Risultati

5. Significato e Impatto

Articoli simili

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models