Symskill: Symbol and Skill Co-Invention for Data-Efficient and Reactive Long-Horizon Manipulation

Each language version is independently generated for its own context, not a direct translation.

Immagina di voler insegnare a un robot a cucinare una cena complessa, come preparare un'insalata, aprire un barattolo di sottaceti e mettere tutto in un contenitore. Se provi a insegnargli tutto come un unico, gigantesco "film" da copiare, il robot diventa confuso: se sposti il barattolo di due centimetri, non sa più cosa fare. Se invece gli dai solo istruzioni scritte ("apri il barattolo", "prendi il cetriolo"), il robot impiega ore a calcolare ogni movimento e si blocca se qualcosa va storto.

Il paper "SymSkill" propone una soluzione intelligente che combina il meglio di due mondi, come se insegnassimo al robot non solo cosa fare, ma anche come pensare.

Ecco come funziona, spiegato con un'analogia semplice:

1. Il Problema: Il Robot "Cecchino" vs. Il Robot "Architetto"

L'approccio vecchio (Imitazione): È come dare al robot un video di te che apri una porta. Il robot impara a muovere la mano esattamente come te. Ma se sposti la maniglia, il robot sbatte contro la porta perché non sa perché stava muovendo la mano, sa solo come.
L'approccio classico (Pianificazione): È come dare al robot un manuale di istruzioni scritto. Sa che deve prima afferrare, poi tirare. Ma calcolare ogni singolo movimento richiede così tanto tempo che, se la porta si muove mentre lui sta pensando, è già troppo tardi.

2. La Soluzione: SymSkill (Il "Doppio Cervello")

SymSkill insegna al robot a creare due cose contemporaneamente mentre guarda te giocare per 5 minuti:

I "Concetti" (Simboli): Il robot impara a riconoscere le situazioni. Invece di vedere "mano a 30 cm dalla maniglia", impara il concetto: "La maniglia è afferrabile".
Le "Abilità" (Skill): Il robot impara dei movimenti fluidi e stabili, come un'auto con il cruise control che si adatta automaticamente se la strada scivola.

L'Analogia del "Chef e del Cameriere"

Immagina che SymSkill sia un ristorante con due figure chiave:

Il Cameriere (Il Pianificatore Simbolico): È colui che guarda il tavolo e decide l'ordine delle cose. "Prima porto il pane, poi l'acqua, poi il vino". Non sa come versare il vino, sa solo quando farlo. Se il cliente sposta il bicchiere, il cameriere dice: "Ok, ora versa il vino qui". È veloce e si adatta al cambiamento.
Lo Chef (L'Abilità Dinamica): È colui che esegue il movimento. Una volta che il cameriere dice "Versa il vino", lo Chef non esegue un movimento rigido e pre-programmato. Usa una "forza invisibile" (un sistema dinamico) che guida la bottiglia verso il bicchiere. Se qualcuno sposta il bicchiere mentre lo Chef versa, la forza lo guida automaticamente verso il nuovo bersaglio senza che nessuno debba fermarsi a rifare i calcoli.

Come impara SymSkill? (Senza etichette!)

La cosa magica è che non serve un umano a dire: "Ora sto aprendo il cassetto".

Osservazione: Il robot guarda un video di te che giochi.
Intelligenza Visiva (VLM): Usa un'intelligenza artificiale visiva (come un occhio molto intelligente) per capire: "Ehi, quella mano sta muovendo quel oggetto verso quell'altro oggetto".
Creazione delle Regole: Il robot capisce da solo che quando l'oggetto A finisce vicino all'oggetto B, è un "successo". Crea da solo le regole: "Se la tazza è sul tavolo, allora è 'sul tavolo'".
Apprendimento dei Movimenti: Impara a muovere la mano in modo che, se viene spinta, torni sempre sulla strada giusta (come una palla che rotola sempre verso il basso, indipendentemente da dove la spingi).

Perché è rivoluzionario?

Pochi dati: Impara tutto guardandoti giocare per 5 minuti. Non servono migliaia di ore di video.
Robustezza: Se durante l'azione un umano sposta un oggetto o il robot scivola, non si blocca. Il "Cameriere" ripensa velocemente la strategia e lo "Chef" si adatta al movimento.
Generalizzazione: Se impari ad aprire un cassetto, il robot sa come aprirne un altro, anche se è in un posto diverso, perché ha imparato il concetto, non solo il movimento.

In sintesi

SymSkill è come insegnare a un robot a pensare come un umano (capire le relazioni tra gli oggetti) ma muoversi come un atleta (movimenti fluidi e adattabili). Non gli dici "fai questo movimento", gli dici "raggiungi questo obiettivo" e gli dai gli strumenti per riuscirci, anche se il mondo intorno a lui cambia. È il passo verso robot che possono davvero aiutarti in casa, senza bisogno di essere riprogrammati ogni volta che sposti un mobile.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

L'esecuzione di manipolazioni complesse a lungo orizzonte (long-horizon) in ambienti dinamici rimane una sfida significativa per la robotica. Esistono due approcci principali che presentano limiti intrinseci:

Apprendimento per Imitazione (IL): Sebbene reattivo e capace di gestire dati di alta qualità, tende a imparare politiche monolitiche che non generalizzano la composizione. Non decidono quale abilità riutilizzare quando la scena cambia.
Pianificazione di Task e Movimento (TAMP): Offre composizionalità e generalizzazione simbolica, ma soffre di un'alta latenza di pianificazione (da decine a centinaia di secondi). Questo rende impossibile il recupero in tempo reale da errori o il funzionamento in ambienti dinamici con oggetti in movimento.

L'obiettivo è colmare questo divario creando un sistema che possa imparare simboli e abilità riutilizzabili da pochi dati (dimostrazioni non segmentate) e pianificare in tempo reale per recuperare dagli errori sia a livello simbolico che di movimento.

2. Metodologia: SymSkill

SymSkill è un framework unificato che apprende congiuntamente predicati, operatori e abilità (skill) in modo non supervisionato da dimostrazioni robotiche non etichettate e non segmentate. Il processo si divide in fasi offline e online.

A. Segmentazione e Selezione del Frame di Riferimento (Offline)

Le dimostrazioni vengono segmentate in due tipi di fasi basate sulla cinematica:

Premotion: Il movimento del gripper verso un oggetto prima del contatto.
Motion: Il movimento simultaneo del gripper e dell'oggetto manipolato.
Per identificare gli oggetti rilevanti, il sistema utilizza un Vision-Language Model (VLM) (es. Gemini-2.5-Pro) in modo leggero e offline. Il VLM analizza fotogrammi selezionati per identificare l'oggetto di riferimento statico ( $o_{ref}$ ) verso cui l'oggetto manipolato ( $o_{int}$ ) si muove (es. un coperchio che viene spostato verso una pentola). Questo permette di esprimere le traiettorie in frame relativi (es. $o_{ref}$ frame), essenziale per la generalizzazione.

B. Apprendimento dei Predicati (Symbolic Abstraction)

Invece di usare l'ultima istanza di una traiettoria (spesso inaffidabile), SymSkill apprende distribuzioni di pose relative:

Vengono adattate distribuzioni Gaussiane (normali) sulle pose relative osservate (traslazione e orientamento) durante le fasi di movimento.
I predicati sono definiti come classificatori di pose relative basati sulla distanza di Mahalanobis rispetto a queste distribuzioni (es. "il gripper è vicino all'oggetto", "l'oggetto è nella pentola").
Questo approccio evita la necessità di ottimizzazioni complesse di selezione dei predicati.

C. Apprendimento degli Operatori e delle Abilità (Skill)

Operatori: Vengono derivati tracciando le transizioni tra gli stati simbolici (insiemi di predicati veri) nelle dimostrazioni. Ogni operatore include precondizioni, effetti (aggiunta/rimozione di predicati), condizioni di mantenimento e un'abilità associata.
Abilità (Skill): Per ogni operatore, viene appresa una politica di movimento stabile basata su Sistemi Dinamici (DS), specificamente SE(3) LPV-DS (Linear Parameter Varying Dynamical Systems).
- Queste politiche sono robuste alle incertezze spaziali e temporali.
- Sono controllate da un controllore di impedenza passivo per garantire sicurezza e stabilità.
- A differenza delle reti neurali monolitiche, i DS forniscono un campo vettoriale convergente che guida il robot verso l'obiettivo anche sotto perturbazioni.

D. Esecuzione Online e Recupero

Durante l'esecuzione, SymSkill utilizza un pianificatore simbolico (A*) per comporre una sequenza di operatori per raggiungere un obiettivo simbolico.

Monitoraggio: Il sistema monitora continuamente se le condizioni di mantenimento sono soddisfatte e se gli effetti attesi si realizzano alla fine di ogni abilità.
Recupero in Tempo Reale:
- Se un fallimento viene rilevato (es. perdita della presa, ostacolo), il sistema può ripianificare a livello simbolico.
- Resampling: Se un'abilità fallisce, il sistema può campionare una nuova configurazione target (attractor) dalle distribuzioni apprese degli effetti e trasformare la politica di movimento online, permettendo un recupero autonomo senza ripianificazione completa.
- Evitamento Ostacoli: Vengono applicate modulazioni locali alle traiettorie DS per evitare ostacoli dinamici.

3. Contributi Chiave

Framework di Co-Invenzione: Un metodo unificato per scoprire simboli (predicati di pose relative) e abilità (politiche DS) da dimostrazioni non segmentate, richiedendo solo 5-10 dimostrazioni per task.
Esecuzione Reattiva e Recupero: Capacità di recupero in tempo reale sia a livello di movimento (grazie alla stabilità dei DS e al resampling) che a livello simbolico (ripianificazione), superando i limiti di latenza del TAMP classico.
Implementazione Open Source: Un'implementazione pronta all'uso su RoboCasa e su robot reali (Franka Panda), che dimostra l'apprendimento da "gioco" (play data) non strutturato.

4. Risultati Sperimentali

Simulazione (RoboCasa):
- SymSkill ha eseguito 12 task a singolo passo con un tasso di successo medio dell'85%.
- Ha composto questi task in piani multi-step senza dati aggiuntivi.
- Confronto con baseline: Sostituirne le abilità con una Diffusion Policy (DP) ha portato a un crollo del successo (3.3% in media) a causa della scarsità di dati e della mancanza di stabilità intrinseca. NSIL (un metodo simile) ha fallito nel generare predicati semanticamente significativi con pochi dati.
Robot Reale (Franka Panda):
- Il sistema ha appreso 11 operatori da soli 5 minuti di dati di gioco (dimostrazioni non segmentate).
- Ha completato task a lungo orizzonte (es. 12 passaggi) specificati tramite obiettivi simbolici.
- Ha dimostrato capacità di recupero da disturbi esterni (es. spostamento di oggetti, chiusura di coperchi) e ha gestito interazioni non prehendili (es. aprire un cassetto).

5. Significato e Impatto

SymSkill rappresenta un passo avanti significativo verso robotica generale e adattiva. Dimostra che è possibile combinare la generalizzazione simbolica del TAMP con la reattività dell'apprendimento per imitazione, superando il collo di bottiglia della latenza di pianificazione.

Efficienza dei Dati: Riduce drasticamente il numero di dimostrazioni necessarie rispetto ai metodi precedenti.
Robustezza: La combinazione di politiche DS stabili e recupero simbolico rende il sistema resiliente a perturbazioni continue e errori di esecuzione.
Scalabilità: L'uso di VLM solo per l'identificazione offline degli oggetti di riferimento permette di scalare a nuovi ambienti senza ri-addestrare il modello linguistico online, mantenendo il controllo in tempo reale.

In sintesi, SymSkill offre una soluzione pratica per l'automazione robotica in ambienti reali dinamici, dove la capacità di imparare rapidamente da pochi esempi e di recuperare autonomamente dagli errori è fondamentale.