VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model

Il paper introduce VLA-JEPA, un nuovo framework di preaddestramento che utilizza la previsione di stati latenti per migliorare la robustezza e la generalizzazione dei modelli Vision-Language-Action, evitando i bias visivi tipici degli approcci precedenti.

Jingwen Sun, Wenyao Zhang, Zekun Qi, Shaojie Ren, Zezhi Liu, Hanxin Zhu, Guangzhong Sun, Xin Jin, Zhibo Chen

Pubblicato 2026-02-17
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di voler insegnare a un robot come cucinare una torta. Hai due modi per farlo:

  1. Il metodo vecchio: Dai al robot un manuale di istruzioni scritto da un cuoco professionista, passo dopo passo, con foto precise. È costoso, lento e se il robot vede una torta diversa da quella nel manuale, si blocca.
  2. Il metodo VLA-JEPA (quello di questo paper): Fai guardare al robot migliaia di video di persone che cucinano, senza dirgli mai "ora prendi la farina" o "ora mescola". Il robot deve imparare da solo cosa succede dopo guardando i video.

Il problema con il metodo vecchio (usato da molti robot oggi) è che spesso il robot impara le cose sbagliate. Se guardi un video di qualcuno che cucina, il robot potrebbe concentrarsi su cose inutili: "Oh, la luce della cucina cambia", "Oh, il grembiule dell'uomo si muove", "Oh, lo sfondo è diverso". Il robot impara a prevedere questi cambiamenti visivi, ma non impara davvero come muovere le mani per fare la torta. È come se un apprendista cuoco studiasse solo come cambia la luce nella stanza invece di imparare a impastare.

La soluzione: VLA-JEPA

Gli autori di questo paper hanno creato un nuovo metodo chiamato VLA-JEPA. Ecco come funziona, usando una metafora semplice:

Immagina che il robot abbia due "cervelli" che lavorano insieme:

  1. Il "Professore" (Target Encoder): Guarda il video futuro (cosa succederà tra un secondo). Ma il Professore è un po' misterioso: non mostra il video al robot, ma lo trasforma in un "riassunto segreto" (un'idea astratta di cosa sta succedendo).
  2. Lo "Studente" (Student Pathway): Guarda solo il video adesso (cosa sta succedendo in questo momento). Il suo compito è indovinare il "riassunto segreto" del Professore.

La magia sta nel divieto di "trucco":
Nei metodi precedenti, lo studente poteva sbirciare il futuro per indovinare. Qui, lo studente non può vedere il futuro. Deve capire la logica del movimento basandosi solo su ciò che vede ora e sulla sua esperienza passata.

Se il robot vede una tazza che si muove, deve capire che è stato il braccio del robot a muoverla, non che la tazza ha deciso di spostarsi da sola o che la luce è cambiata.

Perché è così speciale?

Ecco tre vantaggi principali, spiegati in modo semplice:

  • Non si distrae con lo sfondo: Se guardi un video e la telecamera trema o lo sfondo cambia, il vecchio robot si confonde. VLA-JEPA è come un pilota esperto: ignora le nuvole che passano (lo sfondo) e si concentra solo sul motore e sulla rotta (il movimento reale).
  • Impara dai video umani (senza istruzioni): Può guardare video di persone che fanno cose (come su YouTube) e imparare il "senso" del movimento, anche se non sa esattamente quali tasti premere. È come se un bambino guardasse suo padre guidare e imparasse il concetto di "sterzare", anche se non ha ancora la patente.
  • È più semplice e robusto: Invece di avere un percorso di addestramento complicato con tre o quattro fasi diverse, VLA-JEPA fa tutto in due passaggi semplici: prima impara il "mondo" dai video, poi si allena un po' per muovere le braccia reali.

I risultati nella vita reale

Gli autori hanno testato il loro robot in simulazioni e nel mondo reale (con un braccio robotico vero).

  • Nei test di laboratorio: Il robot ha vinto o ha fatto molto meglio dei suoi rivali, anche quando cambiavano le luci, lo sfondo o il linguaggio delle istruzioni.
  • Nel mondo reale: C'è una cosa divertente. Se il robot prova ad afferrare un oggetto e fallisce, i robot vecchi si bloccano o fanno cose strane. Il robot VLA-JEPA, grazie a ciò che ha visto nei video umani, capisce: "Ops, ho fallito. Devo riaprire la pinza e riprovare". È un comportamento umano naturale che i robot faticano ad apprendere, ma che VLA-JEPA ha "ereditato" guardando i video.

In sintesi

VLA-JEPA è come insegnare a un robot a guidare non dandogli un manuale di istruzioni rigido, ma facendogli guardare milioni di video di guida. Invece di memorizzare ogni singolo pixel che cambia (come un'auto che passa o una nuvola), il robot impara la logica del movimento: "Se faccio questo, succede quello".

Risultato? Un robot che non si confonde se la luce cambia, che sa adattarsi a nuovi oggetti e che, se sbaglia, sa come riprovare, proprio come farebbe un essere umano.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →