Compose by Focus: Scene Graph-based Atomic Skills

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover insegnare a un robot a cucinare una cena complessa. Il problema non è che il robot non sappia cosa fare (tagliare, friggere, impastare), ma che si perda facilmente quando la cucina è disordinata o quando deve fare tutto insieme.

Questo paper propone una soluzione intelligente: insegnare al robot a guardare solo ciò che conta, ignorando il caos.

Ecco come funziona, passo dopo passo, con qualche analogia divertente:

1. Il Problema: Il Robot "Distraibile"

Immagina di aver addestrato un robot a prendere una mela da un tavolo pulito e vuoto. Funziona benissimo!
Ora, metti 50 oggetti diversi sul tavolo: mele, banane, libri, tazze, giocattoli. Se chiedi al robot di prendere solo la mela, spesso fallisce. Perché? Perché il suo "cervello" (la sua intelligenza artificiale) guarda l'intera immagine, si confonde con tutti gli oggetti inutili e non sa più dove mettere le mani. È come se dovessi guidare l'auto in un parcheggio affollato, ma il tuo navigatore ti mostrasse ogni singolo cartellone pubblicitario della città invece della strada.

2. La Soluzione: La "Mappa del Tesoro" (Grafo della Scena)

Gli autori dicono: "Basta guardare tutto! Concentriamoci solo sui pezzi importanti".
Invece di dare al robot una foto grezza e caotica, trasformano la scena in una mappa del tesoro semplificata, che chiamano Scene Graph (Grafo della Scena).

Come funziona: Immagina di prendere la foto della cucina e di cancellare digitalmente tutto ciò che non serve. Rimangono solo:
- I nodi (i puntini): La mela (l'oggetto da prendere), il cesto (la destinazione) e la mano del robot.
- Le frecce (le connessioni): "La mela è vicino al cesto", "La mano deve afferrare la mela".
L'analogia: È come se, invece di darti un'intera pagina di un libro piena di testo, il robot ti desse solo una lista di parole chiave e frecce che collegano le idee principali. Il robot non deve più "indovinare" cosa è importante; la mappa glielo dice esplicitamente.

3. Il "Filtro Magico" (Focus)

Il segreto di questo metodo è il Focus.
Quando il robot deve imparare a prendere una mela, la sua mappa del tesoro include solo la mela e il cesto. Se poi deve prendere una banana, la mappa cambia: ora include solo la banana e il cesto.

Il trucco: Il robot impara a essere un "super-focalizzato". Non si preoccupa se c'è un'auto giocattolo o un libro sullo sfondo. Per lui, quegli oggetti non esistono finché non sono rilevanti per il compito attuale.

4. Il Team: Il Pianificatore e l'Esecutore

Per fare compiti lunghi (come "metti tutte le verdure nel cesto"), il sistema usa due "colleghi":

Il Pianificatore (un'intelligenza artificiale linguistica, tipo ChatGPT): È come il capo cuoco. Legge la ricetta ("Prendi la carota, poi l'insalata") e la spezza in piccoli passi.
L'Esecutore (il robot con la mappa): Per ogni singolo passo, il Pianificatore dice: "Ok, ora prendi la carota". L'Esecutore guarda la sua mappa del tesoro aggiornata (che mostra solo la carota e il cesto), ignora tutto il resto, e esegue il movimento con precisione.

5. I Risultati: Robustezza e Generalizzazione

Gli autori hanno provato questo metodo sia in simulazione che nel mondo reale (con robot che prendono verdure vere!).

I vecchi robot: Quando il tavolo era pieno di oggetti, fallivano miseramente. Se cambiavi un po' la disposizione, si bloccavano.
Il nuovo robot (con la mappa): Funzionava quasi perfettamente, anche con il tavolo pieno di "distrazioni". Perché? Perché la sua mappa gli diceva esattamente cosa guardare, ignorando il rumore di fondo.

In sintesi

Questo paper ci insegna che per rendere i robot più intelligenti e capaci di fare cose complesse, non serve necessariamente dargli più dati o renderli più "forti". Serve insegnar loro a filtrare il mondo.

È come insegnare a un bambino a leggere: prima gli mostri una pagina piena di parole (e si confonde), poi gli mostri solo la parola chiave da leggere (e ci riesce). Con questo metodo, i robot imparano a "leggere" la scena ignorando il caos, diventando molto più bravi a combinare piccoli gesti semplici in compiti complessi e lunghi.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Generalizzazione Compositiva e Robustezza Visiva

Il lavoro affronta una sfida fondamentale nella robotica generale: la generalizzazione compositiva, ovvero la capacità di un robot di combinare abilità atomiche (primitivi di manipolazione) per risolvere compiti complessi a lungo raggio (long-horizon tasks).

Sebbene la ricerca precedente si sia concentrata sulla sintesi di pianificatori di alto livello (es. modelli Linguaggio-Visione o VLM) per sequenziare abilità pre-apprese, l'esecuzione robusta delle singole abilità stesse rimane problematica.

Il limite attuale: Le politiche visuomotori addestrate su ambienti semplici (es. un oggetto su un tavolo pulito) falliscono spesso quando vengono applicate in scene disordinate o con oggetti distrattori. Questo è dovuto a uno spostamento di distribuzione (distribution shift) nella percezione visiva.
L'ipotesi: Per essere componibili, le abilità devono essere focalizzate (focused): devono prestare attenzione solo agli elementi della scena rilevanti per il compito specifico, ignorando il "rumore" visivo irrilevante.

2. Metodologia: Rappresentazione basata su Grafi di Scena

L'approccio proposto trasforma l'input visivo grezzo (immagini RGB o nuvole di punti 3D) in una rappresentazione strutturata basata su grafi di scena (Scene Graphs). Questo permette al policy di concentrarsi sui contesti rilevanti.

A. Costruzione del Grafo di Scena

Il sistema converte le osservazioni in grafi dinamici e semantici:

Segmentazione e Estrazione: Utilizzando modelli fondazionali visivi (es. Grounded-SAM), il sistema segmenta gli oggetti rilevanti per il compito dall'immagine RGB e ne estrae le corrispondenti nuvole di punti 3D.
Codifica dei Nodi: Ogni oggetto rilevante (es. robot, oggetto target, ostacoli) viene codificato in un vettore compatto utilizzando un encoder leggero (DP3 Encoder). Questi vettori costituiscono i nodi del grafo.
Relazioni (Bordi): Le relazioni dinamiche tra gli oggetti (es. "afferrare", "vicino a", "dentro", "evitare") vengono inferite da modelli Linguaggio-Visione (VLM, es. ChatGPT) e rappresentano i bordi del grafo.
Filtraggio: Il grafo risultante è un "sotto-grafo" che include solo le entità pertinenti al sottocompito corrente, filtrando attivamente il rumore visivo.

B. Apprendimento della Politica (Policy Learning)

Il framework integra questi grafi con l'apprendimento per imitazione basato su diffusione:

GNN (Graph Neural Networks): Un'architettura Graph Attention Network (GAT) elabora il grafo di scena per estrarre feature globali, catturando le relazioni spaziali e semantiche tra gli oggetti.
Diffusion Policy: La politica visuomotoria è un modello di denoising diffusion condizionato da:
1. Le feature del grafo di scena ( $F$ ).
2. La descrizione linguistica del compito ( $P$ , codificata con CLIP).
3. La posa del robot ( $Q$ ).
Il modello impara a denoizzare il rumore gaussiano in azioni ( $A_t$ ) specifiche per il sottocompito.

C. Composizione delle Abilità al Test

Durante l'esecuzione di un compito a lungo raggio:

Un pianificatore di alto livello (VLM) scompone il compito globale in sottobiettivi atomici.
Per ogni sottobiettivo, viene costruito dinamicamente un grafo di scena focalizzato sugli oggetti pertinenti.
La politica addestrata esegue l'azione basandosi su questo grafo specifico, permettendo una composizione robusta senza bisogno di addestramento su tutte le possibili combinazioni di scene.

3. Contributi Chiave

Input Strutturati e Interpretativi: Propone l'uso di grafi di scena strutturati come input generalizzabili per l'apprendimento di politiche basate sulla visione, costruiti con l'aiuto di VLM e modelli fondazionali.
Integrazione Diffusione-Grafo: Integra questa rappresentazione con l'apprendimento per imitazione basato su diffusione, dimostrando miglioramenti sostanziali rispetto agli stati dell'arte.
Robustezza alla Variazione Visiva: Il metodo mostra una forte resilienza agli spostamenti di distribuzione e alle perturbazioni visive, sia in simulazione che nel mondo reale, superando i limiti delle politiche basate su immagini grezze.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti sia in ambienti simulati (ManiSkill2) che nel mondo reale (manipolazione di verdure e uso di strumenti).

Simulazione:
- Su compiti di singola abilità, tutti i metodi performano bene.
- Su compiti di composizione (es. impilare blocchi, evitare ostacoli mentre si usa uno strumento), le baseline (Diffusion Policy 2D/3D, $\pi_0$ ) crollano drasticamente (successo < 50% o 0% in alcuni casi) a causa della sensibilità agli oggetti distrattori.
- Il metodo proposto mantiene tassi di successo elevati (0.78 - 0.93) anche in scenari complessi.
Mondo Reale (Picking di Verdure e Uso di Strumenti):
- Picking: In uno scenario disordinato con verdure e distrattori, il metodo proposto ha raggiunto un successo del 97% nella composizione di abilità, contro lo 0% o valori molto bassi delle baseline.
- Uso di Strumenti: Il robot è riuscito a compiere compiti complessi (es. "tira il blocco verde con il bastone verde evitando il bastone bianco") con un successo del 90%, adattandosi a ostacoli non visti durante l'addestramento (es. mattoni invece di bastoncini).
Ablazione: Gli studi di ablazione confermano che la combinazione di rappresentazione 3D, struttura a grafo e GNN è essenziale; l'uso di solo immagini 2D o di feature concatenate senza grafi porta a un fallimento nella generalizzazione compositiva.

5. Significato e Impatto

Questo lavoro sposta il paradigma dall'addestramento su tutte le possibili permutazioni di scene (che richiederebbe dati esponenziali) verso un approccio modulare e focalizzato.

Efficienza dei Dati: Riduce la necessità di dimostrazioni a lungo raggio, permettendo di comporre abilità apprese in isolamento.
Interfaccia Unificata: Fornisce un ponte naturale tra la pianificazione simbolica di alto livello (VLM/LLM) e l'esecuzione visuomotoria di basso livello, risolvendo il problema della "fragilità" delle politiche visive in ambienti complessi.
Generalizzazione: Dimostra che una rappresentazione strutturata e semantica della scena è cruciale per la generalizzazione compositiva, un passo fondamentale verso robot generalisti capaci di operare in ambienti reali non strutturati.

In sintesi, il paper propone che per comporre abilità robotiche in modo robusto, non basta avere un buon pianificatore; è necessario che le singole abilità siano "cieche" al rumore e "cieche" agli oggetti irrilevanti, grazie a una rappresentazione basata su grafi di scena.