Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

Each language version is independently generated for its own context, not a direct translation.

Immagina di voler insegnare a un robot umanoide (chiamato Green) a fare le faccende di casa, a lavorare in un magazzino o a cucinare. Il problema è che i robot sono spesso "stupidi": se gli insegni a prendere una mela, non sanno come prendere una pera, e se cambi la posizione del tavolo, si bloccano.

Il team di Sber Robotics Center ha creato Green-VLA, un nuovo modo per addestrare i robot che assomiglia molto più a come impariamo noi umani che a come venivano addestrati in passato.

Ecco come funziona, spiegato con delle metafore:

1. Il Problema: Il Robot "Memorista" vs. Il Robot "Intelligente"

In passato, per insegnare a un robot, gli si mostravano migliaia di video di mani che facevano cose, e il robot imparava a memoria: "Se vedo una mela qui, muovo il braccio così".
Il problema? Se cambi la luce, o se la mela è un po' diversa, il robot va in tilt. È come un bambino che impara a memoria la risposta a un test senza capire la domanda.

Green-VLA cambia il gioco: non vuole solo che il robot memori i movimenti, ma che capisca il mondo, la fisica e le istruzioni.

2. La Soluzione: Il Percorso a 5 Livelli (Il "Curriculum")

Invece di buttare tutto il materiale di addestramento in una sola volta, Green-VLA usa un piano di studi a 5 livelli, come un'Università per robot:

Livello 0 (L0) - La Scuola dell'Infanzia: Il robot inizia con un cervello già formato (un modello linguistico e visivo gigante) che sa già cos'è una sedia, una mela o un'auto, perché ha "letto" milioni di libri e visto milioni di foto su internet. Sa parlare e vedere, ma non sa ancora muoversi.
Livello 1 (L1) - L'Apprendistato nel Mondo Reale: Ora il robot impara come le cose si comportano nel mondo fisico. Non solo "questa è una tazza", ma "se la spingo, cade". Impara la fisica e lo spazio guardando video di persone che fanno cose.
Livello R0 (R0) - La Scuola di Robotica Generica: Qui il robot guarda 3.000 ore di video di tutti i tipi di robot (bracci meccanici, robot su ruote, robot umanoidi). Impara che "afferrare" significa la stessa cosa sia che tu abbia 2 dita o 5 dita. Impara i concetti universali del movimento.
Livello R1 (R1) - La Specializzazione: Ora il robot si specializza per il suo corpo specifico (ad esempio, il robot umanoide Green con le sue mani complesse). Impara a usare i suoi 32 giunti (articolazioni) in modo perfetto.
Livello R2 (R2) - L'Allenamento con il Coach (Reinforcement Learning): Questo è il segreto. Il robot prova a fare un compito. Se sbaglia, un "coach" (un sistema di intelligenza artificiale) gli dice: "Ehi, quasi fatto, ma hai lasciato cadere l'oggetto. Riprova e fai meglio". Il robot impara dai suoi errori, non solo copiando gli altri. Questo lo rende robusto e capace di recuperare dagli sbagli.

3. I Trucchi Magici (Le Tecnologie Chiave)

Per far funzionare tutto questo, hanno inventato tre "superpoteri":

La "Lingua Unica" per i Robot (Unified Action Space):
Immagina di dover insegnare a un pianista e a un batterista a suonare insieme. Se usi la notazione musicale standard, è un caos. Green-VLA crea una "lingua universale" per i movimenti. Che tu sia un braccio robotico semplice o un umanoide complesso, tutti parlano la stessa lingua di comandi. Questo permette al robot di imparare da tutti gli altri robot e trasferire quella conoscenza al proprio corpo.
Metafora: È come se tutti i robot avessero lo stesso vocabolario, anche se hanno corpi diversi.
Il Controllo della Velocità (Tempo Condizionato):
A volte il robot deve muoversi veloce (afferrare una palla che cade), a volte deve essere lentissimo e preciso (mettere un ago in un filo). Green-VLA impara a capire quanto velocemente deve agire in base al compito, senza dover essere riaddestrato ogni volta.
Metafora: È come un'auto che sa automaticamente quando usare la prima marcia per salire una ripida collina e quando mettere la quinta per correre in autostrada.
Il "Sesto Senso" per gli Oggetti (Guidance Module):
Se chiedi al robot: "Prendi quella bottiglia blu che non ho mai visto prima", il robot potrebbe andare in confusione. Green-VLA ha un modulo speciale che guarda l'immagine, capisce dove si trova l'oggetto descritto (anche se è nuovo) e "indica" al robot dove puntare.
Metafora: È come se il robot avesse un amico che gli sussurra all'orecchio: "Guarda lì, è proprio sotto quel cartellino!".

4. I Risultati: Cosa sa fare?

Il robot Green, addestrato con questo metodo, è diventato incredibilmente bravo:

Zero-Shot: Se gli dai un oggetto nuovo che non ha mai visto, sa comunque come prenderlo.
Lunghe Catene di Azioni: Può fare compiti lunghi e complessi, come "pulisci il tavolo, poi prendi la mela e dammela", senza perdere il filo.
Robustezza: Se inciampa o lascia cadere qualcosa, sa come riprendersi e continuare, invece di bloccarsi.

In Sintesi

Green-VLA è come un metodo di insegnamento rivoluzionario. Invece di far memorizzare al robot milioni di movimenti a caso, gli dà una base culturale solida (internet), gli fa vedere come si muovono tutti i robot (diversità), lo specializza per il suo corpo (adattamento) e lo allena con la pratica e la correzione degli errori (RL).

Il risultato? Un robot che non è solo un esecutore di comandi, ma un collega intelligente capace di lavorare in casa, in fabbrica o in ufficio, adattandosi a situazioni nuove e impreviste.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

Nonostante i recenti progressi nei modelli Vision-Language-Action (VLA) come $\pi_0$ , GR00T N1 e AgiBot GO-1, l'addestramento su larga scala da solo non risolve le sfide fondamentali del dispiegamento robotico nel mondo reale. I principali ostacoli identificati sono:

Eterogeneità dei dati: I dataset robotici variano drasticamente in termini di osservazioni, spazi di azione e frequenze di campionamento.
Qualità variabile: Le traiettorie spesso soffrono di jitter, sfocature, esecuzione incoerente e bassa diversità scenica.
Limiti dell'Imitazione Comportamentale (BC): L'addestramento standard tramite BC minimizza l'errore tra azione prevista e dimostrazione, ma satura rapidamente, fallendo nell'allineare le policy a obiettivi a lungo termine e nel gestire stati fuori distribuzione (OOD).
Efficienza e Latenza: I metodi che integrano ragionamento esplicito (es. Chain-of-Thought) spesso introducono latenze di inferenza incompatibili con il controllo robotico in tempo reale.

2. Metodologia: Green-VLA

Green-VLA è un framework a cinque stadi progettato per colmare il divario tra dati web su larga scala e il controllo robotico fisico, con un focus sulla qualità, l'unificazione delle azioni e l'allineamento tramite Reinforcement Learning (RL).

A. Pipeline dei Dati e Qualità (DataQA)

Prima dell'addestramento, viene implementata una pipeline di curazione dei dati che include:

Filtraggio e Smoothing: Utilizzo di metriche quantitative (jitter $J$ , nitidezza immagine $S$ , diversità visiva $D$ , varianza dello stato $\sigma^2$ ) per scartare episodi di bassa qualità.
Allineamento Temporale: Resampling delle traiettorie basato sulla magnitudine del flusso ottico per normalizzare la velocità di esecuzione tra diversi robot e dataset.
Espansione Sintetica: Per il dataset umanoide "Green", vengono applicate aumentazioni per simmetria bilaterale e inversione temporale (solo per task reversibili) per espandere 48 ore di dati reali a 167 ore di dati di addestramento efficaci.

B. Architettura e Spazio Azione Unificato

Modello Base: Si basa su un encoder Vision-Language (es. Qwen3-VL o PaliGemma) che fonde osservazioni RGB, stato propriocettivo e istruzioni linguistiche.
Esperto di Azione (Flow-Matching): Un modulo che predice "chunk" di azioni in uno spazio di azione unificato ( $A_u$ ) di dimensione fissa (64 slot).
Prompting Embodiment-Aware: Invece del padding ingenuo, il modello riceve un prompt strutturato che specifica il tipo di robot (braccia, mani, giunti vs cartesiane). Viene utilizzata una maschera binaria per applicare la funzione di perdita solo sulle dimensioni rilevanti, preservando la semantica condivisa tra robot diversi.
Modulazione Condizionata alla Velocità: Un fattore scalare $v$ permette al modello di operare a diverse risoluzioni temporali (movimenti lenti e precisi vs movimenti rapidi e grossolani) senza riaddestramento.

C. Il Curriculum di Addestramento a 5 Stadi

L0 (Base VLM): Utilizzo di un modello VLM preaddestrato su dati web.
L1 (Web Pretraining): Addestramento su 24M di campioni multimodali (VQA, pointing, ragionamento spaziale) per acquisire comprensione fisica e semantica generale.
R0 (Robotics Pretraining): Addestramento su >3.000 ore di dati robotici eterogenei (umanoidi, bracci mobili, manipolatori) per apprendere prior di affordanza cross-embodiment.
R1 (Embodiment SFT): Fine-tuning specifico per l'embodiment target (es. il robot umanoide Green) per massimizzare il tasso di successo immediato.
R2 (RL Alignment): Allineamento tramite Reinforcement Learning per migliorare la robustezza a lungo termine, il recupero dagli errori e l'efficienza, superando i limiti della BC.

D. Moduli di Guida e Sicurezza

Joint Prediction Module (JPM): Un modulo di guida che predice un punto di affordanza 3D per oggetti specifici (anche non visti durante l'addestramento) basandosi sull'istruzione linguistica, guidando il flusso di azione verso il target.
Rilevatore OOD: Un modello GMM (Gaussian Mixture Model) sullo stato del robot che corregge le azioni in tempo reale se il robot sta per entrare in uno stato fuori distribuzione.
Task Planner: Un VLM ad alto livello (GigaVision) che scompone gli obiettivi complessi in sottotask atomici e gestisce il ciclo di feedback e ripianificazione.

3. Contributi Chiave

Pipeline DataQA e Allineamento Temporale: Un sistema robusto per filtrare, smussare e allineare temporalmente dataset eterogenei, garantendo che la scala dei dati sia accompagnata da alta qualità.
Spazio Azione Unificato e Prompting: Una soluzione efficace per l'addestramento multi-embodiment che evita il "cattivo trasferimento" causato dal padding, permettendo a un'unica policy di controllare bracci singoli, sistemi bimanuali e umanoidi.
Curriculum di Addestramento Staged: Una ricetta chiara (L0→L1→R0→R1→R2) che dimostra come combinare prior web-scale, dati robotici e RL per ottenere generalizzazione e robustezza.
Validazione su Robot Reale: Implementazione e validazione sul robot umanoide Green (32 DoF, mani dexterose), che richiede un controllo bimanuale coordinato e movimenti del corpo intero, molto più complessi dei benchmark standard.

4. Risultati Sperimentali

Benchmark Simpler (WidowX e Google Robot): Green-VLA (fase R0) supera o è competitivo con modelli preaddestrati come $\pi_0$ , OpenVLA e RT-1X, raggiungendo performance simili a modelli fine-tuned senza richiedere dati specifici per quel robot nella fase R0.
Task di Pulizia Tavolo (ALOHA): Nella fase R0, Green-VLA ottiene un tasso di successo (SR) del 69.5% (media su vari oggetti), superando significativamente $\pi_0$ (35.6%) e AgiBot GO-1 (38.4%), nonostante sia stato addestrato su meno dati (3.000 ore vs >10.000 ore).
Allineamento RL (Fase R2): L'introduzione del RL nella fase R2 porta a guadagni sostanziali:
- Su WidowX (Simpler), il tasso di successo aumenta del 24% assoluto rispetto alla fase R1.
- Su CALVIN, migliora significativamente la lunghezza media della catena di azioni (ACL) e la capacità di recupero dagli errori.
Robot Umanoide Green: Il modello dimostra capacità zero-shot su nuovi embodiment e gestisce con successo task complessi come la selezione di oggetti su scaffali (e-commerce), il sorting di frutta e la pulizia completa del tavolo, mantenendo alta precisione anche in scenari Out-of-Distribution (OOD).
Guidance JPM: L'uso del modulo di guida migliora drasticamente il successo nella selezione di SKU specifici in scenari affollati (da 36.7% a 93.1% per task ID-SKU).

5. Significato e Impatto

Green-VLA rappresenta un passo avanti significativo verso robot generalisti affidabili. Dimostra che:

La qualità dei dati e l'allineamento temporale sono critici quanto la quantità.
Un approccio staged che integra prior semantici web, preaddestramento robotico unificato e affinamento RL è superiore all'addestramento end-to-end su un singolo dataset.
È possibile creare una policy unificata che controlla robot con morfologie molto diverse (da bracci fissi a umanoidi complessi) senza cambiare l'architettura, rendendo il sistema scalabile e adattabile.
L'integrazione di guidance basata su predizione e rilevamento OOD è essenziale per gestire oggetti nuovi e garantire la sicurezza in ambienti dinamici.

Il lavoro fornisce una "ricetta" pratica per lo sviluppo di intelligenza robotica scalabile, combinando fondamenti teorici (flow-matching, RL) con ingegneria applicata (pipeline dati, controllo in tempo reale) per il dispiegamento su robot reali.