NovaPlan: Zero-Shot Long-Horizon Manipulation via Closed-Loop Video Language Planning

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover insegnare a un robot come costruire una torre di blocchi, aprire un cassetto nascosto o assemblare un giocattolo complesso, ma senza mai avergli mostrato prima come fare. Non hai video di esempio, non hai manuali, e il robot non ha mai visto quel compito specifico.

È qui che entra in gioco NovaPlan, un nuovo sistema intelligente descritto in questo articolo. Per capire come funziona, immagina il robot non come una macchina stupida che esegue comandi, ma come un regista cinematografico che ha anche un copione e un corpo umano.

Ecco come NovaPlan risolve il problema, spiegato con parole semplici:

1. Il Regista che "Sogna" il Futuro (La Pianificazione)

La prima sfida è: "Come fa il robot a sapere cosa fare?"
Invece di calcolare numeri complessi, NovaPlan usa un'intelligenza artificiale avanzata (un modello linguistico e visivo) che agisce come un regista di film.

L'idea: Quando gli dai un compito (es. "Metti il blocco rosso sopra quello blu"), il regista non ti dà solo un ordine. Lui immagina il film intero. Genera un video finto di cosa succederebbe se il robot facesse quel movimento.
Il trucco: Il regista non ne fa uno solo, ma ne crea diversi. Poi, guarda questi video immaginari e dice: "Ok, questo video è realistico, la gravità funziona, il blocco cade dove deve. Questo invece è strano, il blocco attraversa il tavolo come un fantasma: scartiamolo!".
Il risultato: Il robot sceglie il "film" migliore da recitare nella realtà.

2. Il Corpo che Impara Guardando (L'Esecuzione)

Una volta scelto il video migliore, il robot deve eseguirlo. Ma c'è un problema: il video è fatto da un'intelligenza artificiale, non da un vero robot. Le proporzioni potrebbero essere sbagliate o il movimento potrebbe essere impossibile per le braccia meccaniche.
Qui NovaPlan usa un'astuzia geniale: guarda le mani umane nel video.

L'analogia: Immagina di dover insegnare a un bambino a fare un nodo alla cravatta. Non gli spieghi la fisica dei fili, gli dici: "Guarda come si muovono le mani di quel signore nel video e fai uguale".
Il meccanismo: NovaPlan guarda il video generato e traccia due cose:
1. Il movimento dell'oggetto: Dove va il blocco?
2. Il movimento della mano umana: Come si muove la mano che afferra il blocco?
L'interruttore magico: Se il blocco è nascosto dalla mano nel video (e quindi il robot non riesce a vederlo bene), NovaPlan smette di guardare il blocco e inizia a seguire solo la mano umana. La mano umana diventa una "bussola" sicura. Anche se il robot non vede il blocco, sa che se la mano va lì, il blocco è lì. Questo permette al robot di essere stabile anche quando le cose sono nascoste o difficili da vedere.

3. Il Controllore che Corregge gli Errori (Il Ciclo Chiuso)

Nessun film è perfetto alla prima ripresa. Nella vita reale, le cose vanno storte: il robot scivola, il blocco cade, il cassetto si inceppa.
I vecchi robot si bloccavano e si arrendevano. NovaPlan, invece, ha un controllore (un altro cervello AI) che guarda cosa sta succedendo in tempo reale.

Il confronto: Il controllore confronta il video "sogno" (quello che doveva succedere) con la realtà (cosa sta succedendo davvero).
La correzione: Se vede che il robot ha sbagliato (es. "Hai afferrato il blocco sbagliato" o "Il blocco è caduto"), non riavvia tutto da capo. Chiede al regista: "Ehi, il piano è fallito. Immagina un video di come possiamo riparare questo errore specifico".
Esempio creativo: Se un blocco è incastrato e non si può afferrare di nuovo, il regista potrebbe immaginare un video in cui una mano umana dà un piccolo "colpetto" (poking) con un dito per sbloccarlo. Il robot impara a fare quel colpetto preciso per recuperare la situazione, proprio come farebbe un umano.

Perché è così importante?

Fino a poco tempo fa, per insegnare a un robot un compito nuovo, servivano ore di video di umani che lo facevano, o anni di programmazione.
NovaPlan cambia le regole:

Zero-shot: Impara al volo, senza aver mai visto il compito prima.
Lungo respiro: Riesce a fare compiti lunghi e complessi (come costruire una torre di 4 livelli) senza perdersi a metà strada.
Resiliente: Se sbaglia, si riprende da solo, usando la logica visiva per capire come rimediare.

In sintesi, NovaPlan è come dare al robot un cervello da regista che immagina il futuro, un occhio che segue le mani umane per capire come muoversi, e un istinto di sopravvivenza che lo fa rialzare quando cade, tutto senza bisogno di un manuale di istruzioni.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

La manipolazione robotica a lungo termine (long-horizon) richiede l'integrazione di ragionamento semantico di alto livello con interazioni fisiche di basso livello. Sebbene i modelli Vision-Language (VLM) e i modelli di generazione video siano capaci di decomporre compiti e "immaginare" gli esiti, affrontano diverse sfide critiche quando applicati alla realtà:

Divario di incarnazione (Embodiment Gap): Le traiettorie generate nei video spesso non corrispondono alla morfologia del robot, portando ad azioni non eseguibili.
Inconsistenze temporali e allucinazioni: I modelli video possono generare errori fisici o temporali che si accumulano in compiti lunghi.
Mancanza di robustezza: I piani rigidi falliscono di fronte a occlusioni, imprecisioni di profondità o errori di esecuzione, senza meccanismi di recupero autonomo.
Mancanza di dati: Le soluzioni esistenti spesso richiedono dimostrazioni specifiche per il compito, limitando la generalizzazione "zero-shot" (senza training preliminare).

2. Metodologia: NovaPlan

NovaPlan è un framework gerarchico che unisce la pianificazione linguistica basata su video con un'esecuzione robotica geometricamente fondata, operando in un ciclo chiuso (closed-loop). Il sistema non tratta la generazione video come una traiettoria statica, ma come una query dinamica all'interno di un ciclo di verifica e recupero.

Il processo si articola in cinque fasi principali:

A. Pianificazione di Alto Livello (VLM Planner)

Un modello VLM agisce come arbitro di alto livello. Riceve l'istruzione del compito e l'osservazione corrente, e:

Decomposizione: Scompone il compito in sotto-obiettivi linguistici.
Rollout Video: Un modello di generazione video crea molteplici candidati visivi per ogni sotto-azione.
Valutazione e Selezione: Il VLM valuta i video candidati basandosi su quattro metriche:
- Target: L'oggetto corretto viene manipolato?
- Fisica: L'interazione rispetta le leggi fisiche (es. gravità, rigidezza)?
- Movimento: Il flusso corrisponde al comando linguistico?
- Risultato: Lo stato finale corrisponde al sotto-obiettivo?
Orizzonte di Pianificazione: Il sistema decide autonomamente se usare una modalità "greedy" (pianificazione passo-passo, $h=1$ ) o "strategica" (pianificazione a lungo termine, $h=N$ ) in base alla complessità e alle dipendenze del compito.

B. Esecuzione di Basso Livello (Low-Level Planner)

Per trasformare il video selezionato in comandi robotici, NovaPlan utilizza un meccanismo ibrido che alterna dinamicamente tra due flussi di dati:

Flusso Oggetto (Object Flow): Traccia i punti chiave 3D dell'oggetto target. È efficace quando l'oggetto è visibile.
Flusso Mano (Hand Flow): Utilizza la posa della mano umana (estratta tramite il modello HaMeR) come prior cinematico.
- Logica di Switching: Il sistema passa al flusso mano se l'oggetto è fortemente occluso o se la rotazione stimata supera una soglia ( $\theta_{max}$ ), garantendo stabilità anche quando l'oggetto non è visibile.
- Calibrazione Geometrica: Per correggere errori di scala e deriva proiettiva nei video generati, il sistema esegue una calibrazione a due ancoraggi:
  - Recupero della scala: All'istante del contatto, si calcola un fattore di scala isotropo per far coincidere la mano con l'oggetto.
  - Compensazione della deriva: Si corregge la deriva temporale vicino al rilascio per mantenere la traiettoria fisica coerente.

C. Verifica e Recupero (Closed-Loop)

Dopo ogni passo, il VLM funge da critico, confrontando lo stato iniziale, lo stato corrente reale e lo stato target del video.

Se l'esecuzione fallisce, il sistema attiva un ciclo di recupero.
Invece di ripianificare tutto, il VLM genera un video correttivo locale (es. "spingere l'oggetto con il dito indice") per riportare la scena allo stato target desiderato, permettendo al robot di "improvvisare" soluzioni senza riavviare il piano globale.

3. Contributi Chiave

Architettura di Pianificazione Video-Linguistica in Ciclo Chiuso: Unisce VLM per la verifica e generazione video per la pianificazione, permettendo recupero autonomo da errori in scenari zero-shot.
Meccanismo Ibrido di Tracking (Mano-Oggetto): Un sistema che switcha dinamicamente tra il tracciamento dell'oggetto e quello della mano umana in base all'affidabilità della generazione video e alla profondità, migliorando la stabilità sotto occlusione.
Calibrazione Geometrica: Un metodo per ancorare le "mani generate" a traiettorie robotiche fisicamente eseguibili, risolvendo problemi di scala e distorsione nei video sintetici.
Prestazioni Zero-Shot: Il sistema dimostra capacità di assemblaggio complesso e recupero da errori (inclusi metodi non prensili come il "poking") senza alcuna dimostrazione o training specifico per il compito.

4. Risultati Sperimentali

Il sistema è stato valutato su tre compiti a lungo termine e sul Functional Manipulation Benchmark (FMB):

Task a Lungo Orizzonte:
- Impilamento di blocchi (4 livelli): NovaPlan ha raggiunto un tasso di successo del 70% (7/10), superando i baselines (come $\pi0.5$ e MOKA) che fallivano oltre i 2-3 livelli a causa di errori di spazio e instabilità del flusso oggetto.
- Ordinamento per colore: Ha gestito casi difficili con tolleranze strette, fallendo principalmente per errori di stima della profondità, ma dimostrando robustezza nel recupero.
- Ricerca oggetto nascosto: Ha dimostrato capacità di pianificazione esplorativa (aprire cassetti) e recupero.
Confronto con Baselines: NovaPlan supera modelli VLA (es. $\pi0.5$ ) e VLM-based (MOKA) e mostra miglioramenti significativi rispetto a NovaFlow (approccio basato solo su flusso oggetto), specialmente nei casi di occlusione.
FMB (Benchmark di Manipolazione Funzionale): Ha completato compiti di assemblaggio di precisione millimetrica e ha dimostrato capacità di recupero non prensile (spinta con il dito) in scenari di fallimento complessi, dove altri metodi fallivano completamente.
Efficienza: L'intera pipeline (generazione video, stima profondità, tracking, esecuzione) richiede circa 40 secondi per un video di 41 frame.

5. Significato e Impatto

NovaPlan rappresenta un passo avanti significativo verso la robotica generale (general-purpose robotics). Dimostra che è possibile colmare il divario tra la "fantasia" dei modelli generativi (video) e la realtà fisica dei robot, senza bisogno di raccogliere enormi dataset di dimostrazioni.

Flessibilità: La capacità di recuperare da errori tramite azioni non prensili (come spingere un oggetto) apre nuove possibilità per compiti di manipolazione complessi dove la presa diretta fallisce.
Scalabilità: L'approccio sfrutta modelli foundation in rapida evoluzione; man mano che i modelli video e di ragionamento migliorano, le capacità di NovaPlan aumentano automaticamente.
Sicurezza e Affidabilità: L'uso di un ciclo di verifica chiuso riduce il rischio di azioni distruttive o non eseguibili, rendendo l'uso di modelli generativi più sicuro per l'interazione fisica reale.

In sintesi, NovaPlan trasforma i modelli di generazione video da semplici simulatori visivi a componenti attivi e verificabili di un sistema di controllo robotico robusto e adattivo.

NovaPlan: Zero-Shot Long-Horizon Manipulation via Closed-Loop Video Language Planning

1. Il Regista che "Sogna" il Futuro (La Pianificazione)

2. Il Corpo che Impara Guardando (L'Esecuzione)

3. Il Controllore che Corregge gli Errori (Il Ciclo Chiuso)

Perché è così importante?

1. Il Problema

2. Metodologia: NovaPlan

A. Pianificazione di Alto Livello (VLM Planner)

B. Esecuzione di Basso Livello (Low-Level Planner)

C. Verifica e Recupero (Closed-Loop)

3. Contributi Chiave

4. Risultati Sperimentali

5. Significato e Impatto

Articoli simili

IC3-Evolve: Proof-/Witness-Gated Offline LLM-Driven Heuristic Evolution for IC3 Hardware Model Checking

Structural Segmentation of the Minimum Set Cover Problem: Exploiting Universe Decomposability for Metaheuristic Optimization

To Throw a Stone with Six Birds: On Agents and Agenthood

Position: Science of AI Evaluation Requires Item-level Benchmark Data

Toward Full Autonomous Laboratory Instrumentation Control with Large Language Models