LEGS-POMDP: Language and Gesture-Guided Object Search in Partially Observable Environments

Each language version is independently generated for its own context, not a direct translation.

Immagina di essere in una stanza enorme e buia, piena di oggetti sparsi ovunque. Un amico ti dice: "Cerca la tazza!". Ma c'è un problema: la stanza è così grande che non vedi tutto, e la tua voce potrebbe non essere chiara. Forse intendeva la tazza rossa sul tavolo, o quella blu sul pavimento? E se invece di parlare, il tuo amico ti indicasse qualcosa con la mano, ma il suo gesto fosse un po' tremolante o impreciso?

Questo è esattamente il problema che affrontano Ivy Xiao He, Stefanie Tellex e Jason Xinyu Liu nel loro nuovo lavoro chiamato LEGS-POMDP.

Ecco una spiegazione semplice di come funziona, usando qualche analogia divertente.

1. Il Problema: Il Robot Confuso

I robot che devono aiutare gli umani nel mondo reale (come in una casa disordinata o in un magazzino) devono trovare oggetti specifici basandosi su istruzioni che spesso sono ambigue.

La voce: "Prendi quella cosa lì" (quale cosa? Quale "lì"?).
Il gesto: Un dito puntato che indica un'area generica.
Gli occhi: La telecamera del robot vede solo una parte della stanza e a volte sbaglia a riconoscere gli oggetti.

Se il robot agisce come un umano che indovina alla cieca, potrebbe cercare per ore o prendere l'oggetto sbagliato.

2. La Soluzione: Il "Detective" con la Mappa Mentale

Gli autori hanno creato un sistema che tratta il robot come un investigatore molto metodico. Invece di indovinare, il robot mantiene una "mappa mentale" (chiamata credenza o belief) che aggiorna costantemente.

Immagina che il robot abbia una lavagna magica con tanti puntini luminosi. Ogni puntino rappresenta una possibilità: "Forse la tazza è qui", "Forse è lì".

All'inizio, tutti i puntini sono accesi (il robot non sa nulla).
Quando l'umano parla o indica qualcosa, il robot non cambia solo un puntino, ma ridisegna l'intera mappa basandosi su tre fonti di informazione contemporaneamente.

3. I Tre Sensi che Lavorano Insieme (Fusione Multimodale)

Il cuore del sistema è che il robot non usa un solo senso, ma combina tre "indizi" come se fossero pezzi di un puzzle:

🗣️ La Voce (Linguaggio): È come leggere un indizio in un gioco di detective. Se l'umano dice "tazza rossa", il robot scurisce i puntini vicini agli oggetti rossi e illumina quelli vicini alle tazze. Ma se la voce è confusa, il puntino rimane un po' sfocato.
👆 Il Gesto (Indicazione): È come se l'umano disegnasse un cerchio sulla mappa. Il robot sa che l'oggetto è probabilmente dentro quel cerchio, ma non esattamente al centro. Usano una forma a "cono" (come un fascio di luce) per capire dove l'umano sta puntando, anche se la mano trema un po'.
👁️ La Vista (Telecamera): È la conferma visiva. Se il robot guarda in una direzione e vede una tazza rossa, quel puntino sulla mappa diventa luminosissimo.

La Magia: Il sistema LEGS-POMDP unisce questi tre indizi in un unico calcolo matematico. Se la voce dice "rosso" e il gesto punta a sinistra, il robot sa che l'oggetto è probabilmente una tazza rossa a sinistra. Se i due indizi si contraddicono (es. voce dice "blu", gesto punta su un "rosso"), il sistema diventa cauto e continua a cercare, invece di sbagliare subito.

4. Come Funziona nella Pratica: Il Pianificatore

Il robot non si muove a caso. Usa un algoritmo chiamato PO-UCT (un po' come un giocatore di scacchi che pensa molti mosse avanti).

Il robot si chiede: "Se mi muovo qui, cosa potrei vedere? Se chiedo conferma, guadagnerò tempo?"
Decide il percorso migliore per ridurre l'incertezza il più velocemente possibile. È come se il detective decidesse di ispezionare prima l'angolo dove c'è più probabilità di trovare l'indizio, invece di girare a caso per la stanza.

5. I Risultati: Dalla Teoria alla Realtà

Gli autori hanno testato il sistema in due modi:

In Simulazione: Hanno creato stanze virtuali piene di trappole e oggetti simili. Il sistema ha avuto successo nel 89% dei casi, molto meglio dei robot che usano solo la voce o solo il gesto.
Nel Mondo Reale: Hanno messo il sistema su un robot quadrupede (un "cane robot" come Spot di Boston Dynamics). Hanno visto che il robot riusciva a capire istruzioni confuse, a correggere i propri errori quando la telecamera sbagliava, e a trovare l'oggetto giusto anche in stanze grandi e disordinate.

In Sintesi

Immagina di dover trovare le chiavi in casa con un amico che è un po' distratto.

Se ti limiti a dire "sono sul tavolo", potresti cercare per ore.
Se il tuo amico ti indica il tavolo ma guarda verso la finestra, potresti confonderti.
Con LEGS-POMDP, il robot è come un amico super-attento che ascolta la tua voce, guarda dove punti, controlla cosa vede con i suoi occhi, e mette tutto insieme per dirti: "Aspetta, la voce dice 'chiavi', il gesto punta al tavolo, ma la telecamera vede solo un libro... quindi andiamo a controllare il tavolo, ma con cautela!".

È un sistema che rende i robot meno "stupidi" e più capaci di capire il mondo caotico e ambiguo in cui viviamo, trasformando l'incertezza in un piano d'azione chiaro.

Each language version is independently generated for its own context, not a direct translation.

Ecco un riassunto tecnico dettagliato del paper "LEGS-POMDP: Language and Gesture-Guided Object Search in Partially Observable Environments", redatto in italiano.

1. Il Problema

In ambienti aperti e non strutturati, i robot devono assistere gli umani interpretando istruzioni ambigue per localizzare oggetti specifici. La sfida principale risiede nella parziale osservabilità e nell'incertezza derivante da tre fonti:

Linguaggio: Istruzioni verbali vaghe o imprecise (es. "la tazza" quando ce ne sono molte).
Gesti: Indicazioni spaziali (puntamento) che possono coprire regioni con più candidati o essere soggette a rumore sensoriale.
Percezione: Rumore dei sensori e campi visivi limitati.

Le approcci esistenti basati su Foundation Models eccellono nel grounding multimodale ma spesso mancano di una modellazione esplicita dell'incertezza per compiti a lungo raggio. Al contrario, i processi decisionali di Markov parzialmente osservabili (POMDP) gestiscono bene l'incertezza ma sono spesso limitati a scenari semplificati (es. tavoli) o basati esclusivamente sul linguaggio, senza integrare efficacemente i gesti.

2. Metodologia: LEGS-POMDP

Gli autori propongono LEGS-POMDP, un framework modulare che integra linguaggio, gesti e osservazioni visive all'interno di un processo decisionale POMDP.

Formulazione POMDP

Il problema è modellato come una tupla $(S, A, T, O, Z, R, \gamma)$ con due fonti chiave di incertezza:

Stato ( $S$ ): Definito come la coppia $(s_r, s_o)$ , dove $s_r$ è la posa del robot e $s_o$ è la posizione latente dell'oggetto target. Lo stato è indipendente dalla categoria dell'oggetto, focalizzandosi sull'identità e la posizione.
Azione ( $A$ ): Include movimenti deterministici, azioni di osservazione ( $a_{look}$ ) e azioni di terminazione ( $a_{find}$ ).
Modello di Osservazione Multimodale: Il cuore del sistema è un modello di osservazione che fonde tre modalità in uno spazio logaritmico:
$\log Z(o|s) = w_v \log P_v(o_v|s) + w_g \log P_g(o_g|s) + w_l \log P_l(o_l|s)$
Dove $P_v, P_g, P_l$ sono le verosimiglianze (likelihood) per visione, gesto e linguaggio, pesate da $w$ .

Componenti del Modello di Osservazione

Visione: Modellata come un sensore a ventaglio decrescente. La probabilità di rilevamento decade in base alla deviazione angolare e alla distanza dall'oggetto.
Linguaggio: Le istruzioni vengono mappate in una funzione di similarità $\kappa$ che valuta quanto bene un candidato corrisponde all'istruzione. La verosimiglianza è interpolata tra tassi di falsi positivi e veri positivi.
Gesti: Per gestire la variabilità umana, il puntamento non è un vettore singolo ma un cono probabilistico. La direzione è calcolata come media vettoriale di punti anatomici (occhio-polso, spalla-polso, gomito-polso). La verosimiglianza decresce esponenzialmente con la deviazione angolare dal vettore centrale del cono.

Pianificazione

Per la risoluzione del POMDP, il sistema utilizza PO-UCT (Partially Observable Upper Confidence Bound applied to Trees), un algoritmo di ricerca ad albero Monte Carlo che bilancia esplorazione e sfruttamento, permettendo al robot di pianificare sequenze di azioni sotto incertezza.

3. Contributi Chiave

Modellazione dell'Incertezza: Prima formulazione di un POMDP per la ricerca di oggetti che modella esplicitamente due livelli di incertezza: l'intento umano (identità dell'oggetto) e lo stato ambientale (posizione).
Modello di Osservazione Modulare Multimodale: Un approccio che integra linguaggio, gesti e visione come verosimiglianze probabilistiche all'interno di un aggiornamento bayesiano, permettendo la sostituzione flessibile dei moduli di percezione senza perdere l'interpretabilità.
Validazione Sperimentale: Una valutazione completa che include benchmark di grounding modulare, simulazioni su griglie di complessità variabile e test su un robot reale (quadrupede mobile manipolatore Boston Dynamics Spot).

4. Risultati Sperimentali

Gli esperimenti sono stati condotti in tre fasi:

Valutazione Modulare:
- Gesti: La rappresentazione a "cono gestuale" (che fonde multipli punti anatomici) ha superato i vettori singoli, ottenendo un errore angolare di 14.4° e una copertura del 89%, dimostrando maggiore robustezza al rumore.
- Visione/Linguaggio: L'approccio Set-of-Marks (SoM) che combina segmentazione (SAM2) e ragionamento LLM (GPT-4o) ha mostrato una maggiore accuratezza di grounding (91.4% vs 62.4% per i detector tradizionali) in condizioni linguistiche ambigue o sparse, sebbene con un costo computazionale superiore.
Valutazione del Sistema (Simulazione):
- Confronto Solutori: PO-UCT ha ottenuto il 96% di successo con rappresentazioni di credenza a istogramma, superando significativamente approcci euristici (Greedy) e altri solutori POMDP (POMCP).
- Fusione Multimodale: L'uso combinato di linguaggio e gesto ha portato a un tasso di successo medio dell'89% (±7%) e ha ridotto il numero di passi e il tempo di completamento rispetto all'uso di singole modalità.
- Robustezza: In ambienti complessi e ambigui, le istruzioni multimodali hanno mantenuto alte performance, mentre le istruzioni singole o errate hanno causato un crollo delle performance. La fusione multimodale ha accelerato la convergenza della credenza verso l'oggetto target.
Test su Robot Reale:
- Il sistema è stato implementato su un quadrupede mobile. Gli esperimenti hanno mostrato una riduzione dell'entropia della credenza del 60.8% con input multimodali, contro il 30-34% delle modalità singole, confermando la capacità del sistema di ridurre l'incertezza in scenari reali.

5. Significato e Conclusioni

Il lavoro LEGS-POMDP dimostra che l'integrazione di gesti e linguaggio in un framework POMDP modulare è essenziale per la ricerca di oggetti in ambienti aperti.

Robustezza: La fusione multimodale compensa le ambiguità di una singola modalità (es. un gesto vago chiarito dal linguaggio, o viceversa).
Interpretabilità: A differenza degli approcci end-to-end, il sistema offre aggiornamenti bayesiani espliciti, permettendo di tracciare come l'incertezza viene ridotta passo dopo passo.
Scalabilità: L'architettura modulare permette di aggiornare i componenti di percezione (es. nuovi modelli di visione) senza riaddestrare l'intero sistema di pianificazione.

Il paper conclude che, sebbene esistano limitazioni (come l'assunzione di indipendenza condizionale tra modalità e la dipendenza dalla qualità della segmentazione visiva), LEGS-POMDP rappresenta un passo significativo verso robot capaci di collaborare con gli umani in scenari complessi e ambigui, superando i limiti degli approcci basati puramente su dati o puramente su modelli simbolici.