Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

Il paper presenta Green-VLA, un framework a cinque stadi che combina preaddestramento multimodale, adattamento specifico per diverse piattaforme robotiche e allineamento tramite apprendimento per rinforzo per abilitare un'unica politica generale sicura ed efficiente su robot umanoidi e manipolatori.

I. Apanasevich, M. Artemyev, R. Babakyan, P. Fedotova, D. Grankin, E. Kupryashin, A. Misailidi, D. Nerus, A. Nutalapati, G. Sidorov, I. Efremov, M. Gerasyov, D. Pikurov, Y. Senchenko, S. Davidenko, D. Kulikov, M. Sultankin, K. Askarbek, O. Shamanin, D. Statovoy, E. Zalyaev, I. Zorin, A. Letkin, E. Rusakov, A. Silchenko, V. Vorobyov, S. Sobolnikov, A. Postnikov

Pubblicato 2026-03-10
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

Immagina di voler insegnare a un robot umanoide (chiamato Green) a fare le faccende di casa, a lavorare in un magazzino o a cucinare. Il problema è che i robot sono spesso "stupidi": se gli insegni a prendere una mela, non sanno come prendere una pera, e se cambi la posizione del tavolo, si bloccano.

Il team di Sber Robotics Center ha creato Green-VLA, un nuovo modo per addestrare i robot che assomiglia molto più a come impariamo noi umani che a come venivano addestrati in passato.

Ecco come funziona, spiegato con delle metafore:

1. Il Problema: Il Robot "Memorista" vs. Il Robot "Intelligente"

In passato, per insegnare a un robot, gli si mostravano migliaia di video di mani che facevano cose, e il robot imparava a memoria: "Se vedo una mela qui, muovo il braccio così".
Il problema? Se cambi la luce, o se la mela è un po' diversa, il robot va in tilt. È come un bambino che impara a memoria la risposta a un test senza capire la domanda.

Green-VLA cambia il gioco: non vuole solo che il robot memori i movimenti, ma che capisca il mondo, la fisica e le istruzioni.

2. La Soluzione: Il Percorso a 5 Livelli (Il "Curriculum")

Invece di buttare tutto il materiale di addestramento in una sola volta, Green-VLA usa un piano di studi a 5 livelli, come un'Università per robot:

  • Livello 0 (L0) - La Scuola dell'Infanzia: Il robot inizia con un cervello già formato (un modello linguistico e visivo gigante) che sa già cos'è una sedia, una mela o un'auto, perché ha "letto" milioni di libri e visto milioni di foto su internet. Sa parlare e vedere, ma non sa ancora muoversi.
  • Livello 1 (L1) - L'Apprendistato nel Mondo Reale: Ora il robot impara come le cose si comportano nel mondo fisico. Non solo "questa è una tazza", ma "se la spingo, cade". Impara la fisica e lo spazio guardando video di persone che fanno cose.
  • Livello R0 (R0) - La Scuola di Robotica Generica: Qui il robot guarda 3.000 ore di video di tutti i tipi di robot (bracci meccanici, robot su ruote, robot umanoidi). Impara che "afferrare" significa la stessa cosa sia che tu abbia 2 dita o 5 dita. Impara i concetti universali del movimento.
  • Livello R1 (R1) - La Specializzazione: Ora il robot si specializza per il suo corpo specifico (ad esempio, il robot umanoide Green con le sue mani complesse). Impara a usare i suoi 32 giunti (articolazioni) in modo perfetto.
  • Livello R2 (R2) - L'Allenamento con il Coach (Reinforcement Learning): Questo è il segreto. Il robot prova a fare un compito. Se sbaglia, un "coach" (un sistema di intelligenza artificiale) gli dice: "Ehi, quasi fatto, ma hai lasciato cadere l'oggetto. Riprova e fai meglio". Il robot impara dai suoi errori, non solo copiando gli altri. Questo lo rende robusto e capace di recuperare dagli sbagli.

3. I Trucchi Magici (Le Tecnologie Chiave)

Per far funzionare tutto questo, hanno inventato tre "superpoteri":

  • La "Lingua Unica" per i Robot (Unified Action Space):
    Immagina di dover insegnare a un pianista e a un batterista a suonare insieme. Se usi la notazione musicale standard, è un caos. Green-VLA crea una "lingua universale" per i movimenti. Che tu sia un braccio robotico semplice o un umanoide complesso, tutti parlano la stessa lingua di comandi. Questo permette al robot di imparare da tutti gli altri robot e trasferire quella conoscenza al proprio corpo.
    Metafora: È come se tutti i robot avessero lo stesso vocabolario, anche se hanno corpi diversi.

  • Il Controllo della Velocità (Tempo Condizionato):
    A volte il robot deve muoversi veloce (afferrare una palla che cade), a volte deve essere lentissimo e preciso (mettere un ago in un filo). Green-VLA impara a capire quanto velocemente deve agire in base al compito, senza dover essere riaddestrato ogni volta.
    Metafora: È come un'auto che sa automaticamente quando usare la prima marcia per salire una ripida collina e quando mettere la quinta per correre in autostrada.

  • Il "Sesto Senso" per gli Oggetti (Guidance Module):
    Se chiedi al robot: "Prendi quella bottiglia blu che non ho mai visto prima", il robot potrebbe andare in confusione. Green-VLA ha un modulo speciale che guarda l'immagine, capisce dove si trova l'oggetto descritto (anche se è nuovo) e "indica" al robot dove puntare.
    Metafora: È come se il robot avesse un amico che gli sussurra all'orecchio: "Guarda lì, è proprio sotto quel cartellino!".

4. I Risultati: Cosa sa fare?

Il robot Green, addestrato con questo metodo, è diventato incredibilmente bravo:

  • Zero-Shot: Se gli dai un oggetto nuovo che non ha mai visto, sa comunque come prenderlo.
  • Lunghe Catene di Azioni: Può fare compiti lunghi e complessi, come "pulisci il tavolo, poi prendi la mela e dammela", senza perdere il filo.
  • Robustezza: Se inciampa o lascia cadere qualcosa, sa come riprendersi e continuare, invece di bloccarsi.

In Sintesi

Green-VLA è come un metodo di insegnamento rivoluzionario. Invece di far memorizzare al robot milioni di movimenti a caso, gli dà una base culturale solida (internet), gli fa vedere come si muovono tutti i robot (diversità), lo specializza per il suo corpo (adattamento) e lo allena con la pratica e la correzione degli errori (RL).

Il risultato? Un robot che non è solo un esecutore di comandi, ma un collega intelligente capace di lavorare in casa, in fabbrica o in ufficio, adattandosi a situazioni nuove e impreviste.