Ego-Vision World Model for Humanoid Contact Planning

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover insegnare a un robot umanoide (un robot che ha la forma di un essere umano) come muoversi in un mondo caotico e pieno di ostacoli, come una stanza piena di mobili o un cantiere edile.

Il Problema: Il Robot "Timido"

Fino a poco tempo fa, i robot erano come bambini molto timidi: il loro unico obiettivo era non toccare nulla. Se vedevano un muro, si fermavano. Se vedevano una palla che arrivava, cercavano di schivarla.
Ma nella vita reale, a volte toccare le cose è necessario per sopravvivere. Se spingi un robot e sta per cadere, deve potersi appoggiare al muro per bilanciarsi. Se una palla gli vola contro, deve bloccarla con la mano per proteggersi.
I metodi vecchi per insegnare queste cose erano lenti e complicati, come cercare di risolvere un'equazione matematica complessa ogni volta che il robot deve muovere un braccio.

La Soluzione: Il "Cervello Sognante" del Robot

Gli autori di questo studio hanno creato un sistema intelligente che possiamo chiamare "Il Cervello Sognante". Ecco come funziona, passo dopo passo:

1. Non serve un insegnante (Dati Offline)

Di solito, per insegnare a un robot, devi fargli fare milioni di tentativi ed errori in tempo reale (come un cane che impara i comandi con premi e punizioni). Questo richiede anni di tempo.
Invece, qui hanno usato un dataset offline. Immagina di aver filmato il robot mentre faceva milioni di movimenti casuali in una simulazione al computer, senza diregli cosa fare, ma solo registrando cosa è successo.
Il robot ha studiato queste registrazioni "a casa sua" (offline), senza dover interagire con il mondo reale. È come se avesse letto un milione di libri di storia invece di dover vivere ogni singola storia.

2. Il "Modello del Mondo" (Il Sognatore)

Il cuore del sistema è un Modello del Mondo.
Immagina che il robot abbia un piccolo "sognatore" nella sua testa. Quando il robot vede qualcosa con le sue telecamere (un muro, una palla, un arco basso), il "sognatore" non guarda solo l'immagine.
Invece, crea una versione compressa e astratta della realtà (come un riassunto veloce).
Poi, il sognatore si chiede: "Se faccio questo movimento, cosa succederà tra un secondo? Tra due secondi?".

Se il robot prova a toccare il muro, il sognatore "sogna" che il robot si stabilizza.
Se il robot prova a saltare un ostacolo troppo alto, il sognatore "sogna" che il robot sbatte la testa e cade.

Questo permette al robot di prevedere il futuro senza doverlo sperimentare fisicamente ogni volta.

3. La "Bussola del Valore" (Guida per le decisioni)

Il problema è che il sognatore a volte sbaglia o è confuso dal rumore dei sensori (come quando hai la vista offuscata).
Per risolvere questo, hanno aggiunto una Bussola del Valore.
Invece di chiedersi solo "Cosa succederà?", il robot si chiede: "Quanto è buono quello che succederà?".

Se il sognatore prevede che il robot cadrà, la bussola segna un valore basso (pericolo!).
Se prevede che il robot si appoggerà al muro e rimarrà in piedi, la bussola segna un valore alto (ottimo!).

Questa bussola guida il robot a scegliere la strada migliore, anche se la previsione non è perfetta. È come avere un navigatore GPS che ti dice: "Ehi, quella strada potrebbe essere un po' sconnessa, ma è l'unica che ti porta a destinazione senza incidenti".

4. Il Piano in Tempo Reale (MPC)

Ogni frazione di secondo, il robot fa questo ciclo:

Guarda il mondo (con telecamere e sensori).
Il "Sognatore" immagina 1000 scenari possibili diversi (es. "alzo la mano", "abbasso il corpo", "mi sposto a sinistra").
La "Bussola" valuta quale di questi 1000 sogni è il migliore.
Il robot esegue solo il primo movimento del piano migliore.
Ripete tutto subito dopo, aggiornandosi con la realtà.

Questo rende il robot agile e reattivo. Se qualcuno lo spinge, non ci pensa due volte: il suo "sognatore" calcola istantaneamente che appoggiarsi al muro è la soluzione migliore e lo fa.

Cosa ha imparato il robot?

Hanno testato questo sistema su un robot umanoide reale (Unitree G1) e ha fatto cose incredibili:

Supporto al muro: Se lo spingono, si appoggia al muro per non cadere (invece di cercare di stare in equilibrio da solo).
Blocco oggetti: Se una palla gli vola contro, la blocca con la mano.
Attraversamento: Se c'è un arco basso, si accovaccia per passarci sotto senza sbattere la testa.

Perché è speciale?

Efficienza: Ha imparato tutto da solo studiando dati vecchi, senza bisogno di un insegnante umano che gli mostri cosa fare (niente "demonstrations").
Multitasking: Lo stesso "cervello" sa fare tutte e tre le cose contemporaneamente. Non serve un cervello diverso per ogni compito.
Robustezza: Funziona anche se i sensori sono rumorosi o se il mondo cambia in modo imprevisto.

In sintesi

Immagina di avere un robot che non è solo un esecutore di comandi, ma un visionario. Prima di muoversi, "sogna" il futuro, valuta le conseguenze come farebbe un esperto, e sceglie l'azione che lo porta al successo, anche se deve toccare le cose per farlo. È un passo enorme verso robot che possono vivere e lavorare con noi in ambienti reali e disordinati.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

I robot umanoidi devono evolvere dalla semplice locomozione dinamica all'interazione intelligente in ambienti non strutturati. Per raggiungere un'autonomia reale, è fondamentale che i robot sappiano sfruttare il contatto fisico (es. appoggiarsi a un muro per mantenere l'equilibrio, bloccare oggetti in arrivo, scivolare sotto ostacoli) invece di limitarsi a evitarlo.

Le sfide principali identificate sono:

Complessità del contatto: I metodi di pianificazione basati sull'ottimizzazione tradizionale faticano a gestire la complessità della pianificazione dei contatti in tempo reale e sono sensibili alle imprecisioni del modello.
Inefficienza dei dati: L'Apprendimento per Rinforzo (RL) on-policy (come PPO) è estremamente inefficiente dal punto di vista dei campioni, specialmente con input visivi, e ha difficoltà nell'apprendimento multi-task.
Osservabilità parziale e rumore: I dati sensoriali reali (immagini di profondità e propriocezione) sono rumorosi e parziali, rendendo difficile inferire lo stato di contatto completo e prevedere le ricompense sparse tipiche di questi compiti.

2. Metodologia

Il framework proposto combina un Modello del Mondo Appreso (World Model) con un Controllo Predittivo basato su Campionamento (MPC) guidato da una funzione valore appresa. L'approccio è completamente offline e non richiede dimostrazioni umane.

A. Raccolta Dati Offline

Viene generato un dataset offline in simulazione utilizzando un controller a basso livello (addestrato con PPO) che esegue azioni ad alto livello casuali (posizione dell'effettore finale e altezza del corpo).
Il dataset include interazioni con tre tipi di oggetti: una palla, un muro e un arco.
Non vengono utilizzate dimostrazioni umane; le azioni sono campionate in modo casuale ma con vincoli di fluidità per evitare comportamenti inutili.

B. Modello del Mondo Visivo (Ego-Vision World Model)

Il modello opera in uno spazio latente compresso per evitare gli errori cumulativi della predizione diretta dei pixel.

Architettura: Utilizza una rete neurale ricorrente (RNN) per mantenere uno stato dinamico deterministico ( $h_t$ ) e uno stato latente stocastico ( $z_t$ ) estratto dall'osservazione corrente (immagine di profondità + propriocezione).
Componenti di Predizione: Oltre a ricostruire l'osservazione futura ( $\hat{o}_t$ $\overset{o}{^}_{t}$ ), il modello prevede:
1. Probabilità di terminazione ( $\hat{d}_t$ ): stima la probabilità di fallimento (es. caduta).
2. Funzione Valore Surrogata ( $\hat{Q}_t$ ): Una funzione che stima il ritorno cumulativo atteso per una data azione nello stato latente. Questo è cruciale per guidare la pianificazione in modo robusto nonostante il rumore e la scarsità di ricompense.
Addestramento: Il modello è ottimizzato minimizzando una perdita totale composta da: perdita di ricostruzione, perdita di embedding congiunto (per stabilità dello spazio latente) e perdita Q (per addestrare la funzione valore).

C. Pianificazione MPC Guidata dal Valore

Approccio: Invece di massimizzare direttamente una funzione valore imperfetta, il sistema utilizza il modello del mondo per simulare traiettorie future in uno spazio latente.
Funzione Obiettivo: Utilizza una funzione obiettivo surrogata ( $\hat{J}_N$ ) che media i valori $\hat{Q}$ previsti su un orizzonte di pianificazione $N$ (default $N=4$ ).
Campionamento: Vengono campionate migliaia di sequenze di azioni candidate (es. $M=1024$ ). Il modello valuta queste traiettorie prevedendo stati futuri e valori $\hat{Q}$ . Se la probabilità di fallimento supera una soglia (0.9), la traiettoria viene penalizzata.
Ottimizzazione: Viene utilizzato il metodo Cross-Entropy (CEM) per selezionare la sequenza di azioni ottimale. Solo la prima azione viene eseguita, e il processo si ripete ad ogni passo temporale (receding horizon), permettendo reazioni in tempo reale a disturbi e imprecisioni del modello.

3. Contributi Chiave

Modello del Mondo Visivo Scalabile: Un modello che cattura la dinamica di compiti complessi di contatto addestrato interamente su un dataset offline privo di dimostrazioni.
Pianificazione da Pixel con Guida di Valore: Introduzione di un framework MPC che utilizza una funzione valore surrogata appresa per guidare efficientemente la ricerca di sequenze di azioni ottimali, superando i limiti della pianificazione basata solo sulla ricompensa.
Pianificazione di Contatto Agile e Robusta nel Mondo Reale: Validazione su un robot umanoide fisico (Unitree G1) che dimostra capacità di pianificazione visiva robusta basata su immagini di profondità egocentriche e feedback propriocezionale, senza bisogno di modelli fisici espliciti complessi.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti in simulazione e validati su un robot fisico Unitree G1.

Efficienza dei Campioni: Il metodo proposto supera significativamente l'RL on-policy (PPO) in termini di efficienza dei dati. Mentre PPO richiede milioni di passi di interazione continua, il metodo proposto raggiunge prestazioni superiori utilizzando un dataset offline di circa 0.5M di passi, senza alcuna interazione con l'ambiente durante l'addestramento.
Capacità Multi-Task: Un singolo modello addestrato su un dataset misto (muro, palla, arco) riesce a generalizzare su tutti i compiti, dimostrando prestazioni comparabili o superiori ai modelli specializzati per singolo task.
Task Validati:
- Supporto al Muro: Il robot mantiene l'equilibrio appoggiandosi al muro quando spinto.
- Blocco della Palla: Il robot intercetta oggetti in volo usando le mani.
- Attraversamento dell'Arco: Il robot passa sotto un arco basso evitando collisioni con la testa.
Generalizzazione OOD: Il sistema è stato testato con oggetti non visti durante l'addestramento (es. bloccare una scatola invece di una palla) e ha dimostrato capacità di adattamento.
Analisi dei Design: L'uso di un orizzonte di pianificazione di 4 passi ( $N=4$ ) ha dimostrato di essere il compromesso ottimale tra bias e varianza. L'uso di una funzione valore surrogata ha superato metodi basati su ricompensa diretta (Rew-MPC) o TD-error (TD-MPC), che risultavano instabili o subottimali.

5. Significato e Impatto

Questo lavoro rappresenta un passo avanti significativo verso l'autonomia dei robot umanoidi in ambienti reali.

Superamento delle limitazioni dell'RL on-policy: Dimostra che è possibile apprendere comportamenti complessi di contatto ricchi di dati visivi senza la necessità di costose interazioni in tempo reale o dimostrazioni umane.
Robustezza alla realtà: L'integrazione di un modello del mondo latente con un MPC guidato dal valore permette di gestire il rumore sensoriale e l'osservabilità parziale, problemi che spesso falliscono i metodi di ottimizzazione classica.
Versatilità: La capacità di un singolo modello di gestire compiti eterogenei (stabilità, manipolazione, navigazione) apre la strada a robot più adattabili e intelligenti, capaci di interagire fisicamente con l'ambiente in modo sicuro ed efficace.

Il codice e il dataset sono disponibili pubblicamente, favorendo la riproducibilità e l'ulteriore ricerca nel campo della pianificazione di contatto visiva.