MergeVLA: Cross-Skill Model Merging Toward a Generalist Vision-Language-Action Agent

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un robot domestico super intelligente, capace di capire il linguaggio umano e vedere il mondo come noi. Finora, però, c'era un grosso problema: se addestravi questo robot a fare una cosa specifica (come "mettere la tazza nel lavandino"), diventava bravissimo in quello, ma se gli chiedevi di fare qualcos'altro (come "aprire il forno"), si comportava come se non avesse mai visto un forno in vita sua.

Per avere un robot "generalista", capace di fare tutto, i ricercatori dovevano addestrare un modello separato per ogni compito. Ma immagina di dover avere 100 cervelli diversi in testa per fare 100 cose diverse: è inefficiente e ingombrante.

La domanda è: possiamo fondere tutti questi cervelli specializzati in un unico modello intelligente che sappia fare tutto?

Il paper che hai condiviso, intitolato "MergeVLA", risponde a questa domanda con un "Sì!", ma con un trucco ingegnoso. Ecco come funziona, spiegato in modo semplice.

Il Problema: Perché la fusione falliva?

Fino a ieri, quando i ricercatori provavano a fondere due modelli robotici (come mescolare due colori di vernice), il risultato era un disastro. Il robot diventava confuso e non riusciva a fare nulla.

Gli autori hanno scoperto due motivi principali per cui questo succedeva:

Il "Cervello" (VLM) va in conflitto: Immagina che il "cervello" del robot (la parte che capisce le immagini e le parole) abbia dei piccoli appunti (chiamati LoRA) scritti per ogni compito. Quando provi a fondere i modelli, questi appunti si scontrano. È come se un modello dicesse "spingi a sinistra" e l'altro "spingi a destra" contemporaneamente. Il risultato è che il robot si blocca.
Le "Mani" (Action Expert) sono troppo specializzate: La parte del modello che decide i movimenti fisici (le "mani") ha imparato a muoversi in modo così specifico per un compito che, se provi a mescolarla con un'altra, si rompe. È come se un pianista e un calciatore provassero a fondere i loro muscoli: il pianista non potrebbe più suonare e il calciatore non potrebbe più correre.

La Soluzione: MergeVLA (Il Robot "Camaleonte")

Gli autori hanno creato un nuovo tipo di robot, MergeVLA, progettato fin dall'inizio per essere "fudibile". Ecco i tre trucchi magici che usano:

1. I "Filtri Magici" (Task Masks) per il Cervello

Invece di mescolare tutti gli appunti del cervello insieme, MergeVLA usa dei filtri intelligenti.

L'analogia: Immagina di avere un libro di ricette con 100 pagine. Se vuoi fare la pasta, non leggi tutte le pagine insieme (sarebbe confuso!). Invece, metti un segnalibro che ti fa vedere solo la pagina della pasta, nascondendo le altre.
Come funziona: Quando il robot deve fare un compito, attiva solo i "pezzi" del cervello necessari per quel compito e spegne quelli che potrebbero disturbare. Questo evita che le istruzioni si scontrino.

2. Le "Mani" Semplici e Modulari

Hanno ridisegnato la parte che comanda i movimenti.

L'analogia: Invece di avere un unico muscolo gigante che ricorda tutto, hanno creato un sistema dove le mani ascoltano il cervello (che è robusto e generale) e fanno solo piccoli aggiustamenti locali.
Il trucco: Hanno rimosso una parte complessa che faceva confusione (l'attenzione "self-attention") e l'hanno sostituita con un sistema più pulito. Inoltre, hanno lasciato che l'ultima parte delle "mani" (la punta delle dita) rimanga separata per ogni compito, perché è lì che serve la massima precisione specifica.

3. Il "Portiere" (Task Router)

Cosa succede se non sai quale compito il robot deve fare?

L'analogia: Immagina di entrare in una stanza buia e dire "Fai qualcosa!". Un robot normale andrebbe in panico. MergeVLA ha un portiere che guarda la stanza (l'immagine e la frase che gli dai) e indovina subito quale "porta" aprire.
Come funziona: Il portiere analizza l'immagine e la frase, e dice: "Ah, vedo una tazza e dici 'mettila nel lavandino', quindi attiviamo il filtro 'lavandino' e le mani 'lavandino'". Tutto questo avviene in un istante, senza bisogno di ri-addestrare il robot.

I Risultati: Funziona davvero?

Hanno testato MergeVLA su robot veri e simulati:

In simulazione: Ha imparato a fare compiti complessi come impilare oggetti, spostare piatti e aprire forni, ottenendo risultati quasi perfetti (fino al 90% di successo), anche quando i compiti erano mescolati insieme.
Nel mondo reale: Hanno usato un braccio robotico vero (SO101) per prendere, spingere e impilare cubi. Anche qui, il robot fuso ha funzionato benissimo, dimostrando che non è solo teoria, ma funziona nella realtà.

In sintesi

MergeVLA è come un chef generalista che non ha bisogno di 100 libri di ricette diversi. Ha un unico libro enorme, ma sa esattamente quale pagina aprire in base a ciò che gli chiedi, senza mai confondere gli ingredienti.

Grazie a questo metodo, possiamo finalmente creare robot "generalisti" che imparano nuove abilità velocemente, mescolando le conoscenze passate senza dimenticare nulla, rendendo l'assistenza robotica in casa molto più vicina alla realtà.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: La Sfida del Merging nei Modelli VLA

I modelli Vision-Language-Action (VLA) hanno recentemente permesso agli agenti robotici di eseguire compiti complessi di manipolazione affinando grandi modelli visione-linguaggio (VLM) con milioni di dimostrazioni robotiche. Sebbene questi modelli eccellano in scenari monocompito o monosistema, estenderli a contesti multi-abilità rimane una sfida fondamentale.

Il problema centrale identificato dagli autori è che il tentativo di fondere (merge) direttamente esperti VLA addestrati su compiti diversi porta a un tasso di successo vicino allo zero. Le tecniche di merging standard, efficaci per i modelli linguistici o visivi puri, falliscono nei VLA a causa di due fonti principali di incompatibilità:

Interferenza Distruttiva dei Parametri LoRA: L'adattamento fine (fine-tuning) spinge gli adattatori LoRA nel backbone VLM verso direzioni divergenti e specifiche per il compito. Quando si tenta di mediare questi parametri, si riattivano informazioni irrilevanti o contraddittorie, corrompendo lo spazio semantico condiviso.
Incompatibilità Architetturale degli "Action Expert": Gli decoder di azione (Action Experts), spesso addestrati da zero, sviluppano forti dipendenze inter-blocco attraverso meccanismi di self-attention. Questo fa sì che le informazioni del compito si diffondano globalmente attraverso i layer, rendendo impossibile una ricomposizione modulare, anche con architetture identiche.

Inoltre, la valutazione in scenari misti (dove l'identità del compito è sconosciuta al momento dell'inferenza) richiede un meccanismo di routing che non esista nelle attuali soluzioni.

2. Metodologia: MergeVLA

Gli autori propongono MergeVLA, un'architettura VLA progettata specificamente per preservare la "fusibilità" (mergeability) fin dalla sua concezione. La soluzione si articola in tre componenti chiave:

A. Mascheramento Specifico per il Compito (Task Masking) nel VLM

Per risolvere il conflitto dei parametri LoRA, MergeVLA non utilizza un aggiornamento globale unico. Invece, applica maschere binarie specifiche per il compito ( $S_m$ ) agli adattatori LoRA fusi.

Meccanismo: Una maschera viene costruita tramite un test di consistenza a livello di parametro. Un parametro viene mantenuto attivo per un compito $m$ solo se il suo aggiornamento specifico è significativo e dominante rispetto alla differenza residua con il vettore di fusione globale.
Effetto: Questo attiva sparsamente solo i parametri rilevanti per il compito corrente, sopprimendo quelli che causerebbero interferenze, preservando così le rappresentazioni visivo-linguistiche pre-addestrate.

B. Riprogettazione dell'Action Expert

Per risolvere l'incompatibilità architetturale, MergeVLA modifica radicalmente l'Action Expert:

Rimozione della Self-Attention: Vengono eliminati i layer di self-attention, sostituendoli con blocchi basati esclusivamente su cross-attention. Poiché l'expert è addestrato da zero, la self-attention accumula bias specifici per il compito che sono irrimediabili; la cross-attention costringe l'expert a fare affidamento sulle robuste e condivise feature del VLM.
Sostituzione del Gate: Il gate di attivazione originale (tanh) viene sostituito con un gate sigmoid, garantendo che le informazioni del VLM siano sempre preservate e bilanciate, evitando che l'expert si basi su parametri addestrati da zero specifici per il compito.
Gerarchia di Specializzazione: Mentre i layer superficiali dell'expert possono essere fusi tramite semplice media dei pesi, i layer più profondi (chiamati Expert Head, tipicamente l'ultimo blocco $L$ ) rimangono non fusi. Ogni compito mantiene il proprio "capo" esperto per gestire le sottili differenze nelle distribuzioni delle azioni.

C. Routing del Compito al Momento dell'Inferenza (Test-time Task Router)

Per gestire scenari in cui il compito non è noto a priori, MergeVLA introduce un router senza addestramento aggiuntivo (training-free):

Funzionamento: Il router analizza gli stati nascosti del VLM (mascherato) proiettandoli sugli spazi principali (principal components) delle matrici di valore ( $V$ ) dell'Action Expert fuso.
Selezione: Calcola un punteggio di rilevanza per ciascun compito candidato e seleziona dinamicamente la maschera del compito e l'Expert Head corrispondente. Questo permette all'agente di attivare la componente di abilità corretta basandosi solo sull'osservazione iniziale.

3. Risultati Sperimentali

Gli esperimenti sono stati condotti su tre benchmark di simulazione (LIBERO, LIBERO-Plus, RoboTwin) e su un braccio robotico reale (SO101).

Benchmark LIBERO: MergeVLA raggiunge un tasso di successo medio del 90.2% in setting di compiti misti, superando di gran lunga le baseline di merging (che spesso falliscono al 0%) e avvicinandosi alle prestazioni degli esperti affinati singolarmente (98.5%).
Robustezza (LIBERO-Plus): In presenza di perturbazioni visive e linguistiche, MergeVLA mostra una robustezza superiore (+13.4% rispetto a VLA-Adapter), dimostrando che la sua architettura preserva meglio le capacità di generalizzazione del VLM pre-addestrato.
Cross-Embodiment (RoboTwin): Il modello riesce a fondere competenze tra diversi robot (Aloha, ARX, Piper) e compiti, raggiungendo un successo del 70.7% in setting incrociati, superando le limitazioni delle architetture dual-system accoppiate.
Realtà (SO101): Sperimentazioni su un robot fisico reale con compiti di manipolazione di cubi (presa, spinta, impilamento) confermano l'efficacia, con un tasso di successo medio del 90.0% per il modello fuso, paragonabile agli esperti singoli.

4. Contributi Chiave

Diagnosi delle Cause di Fallimento: Identificazione empirica che l'incompatibilità nei VLA deriva sia dall'interferenza dei parametri LoRA nel backbone che dalla dipendenza strutturale nei decoder di azione.
Architettura Merge-Oriented: Progettazione di un'architettura VLA che rimuove la self-attention dall'Action Expert e utilizza maschere sparsamente attivate, rendendo il modello intrinsecamente fusibile.
Routing Senza Supervisione: Sviluppo di un meccanismo di inferenza che seleziona dinamicamente le competenze necessarie senza richiedere etichette di compito o addestramento aggiuntivo.
Validazione su Scala Reale: Dimostrazione che il merging di modelli VLA è fattibile non solo in simulazione, ma anche su hardware robotico reale, aprendo la strada ad agenti generalisti scalabili.

5. Significato e Impatto

Questo lavoro rappresenta un passo cruciale verso la realizzazione di agenti embodied generalisti. Dimostra che non è necessario addestrare un unico modello massiccio su tutti i compiti (che è inefficiente e costoso), ma è possibile combinare efficientemente esperti specializzati tramite merging.
MergeVLA risolve il problema della "catastrofica dimenticanza" e dell'incompatibilità strutturale, fornendo un percorso scalabile per creare robot capaci di apprendere nuove abilità e combinarle in tempo reale, adattandosi a diversi ambienti, compiti e forme corporee (embodiments) senza bisogno di ri-addestramento completo.