MergeVLA: Cross-Skill Model Merging Toward a Generalist Vision-Language-Action Agent

Il paper presenta MergeVLA, un'architettura VLA progettata per il merging di modelli che risolve le sfide dell'addestramento multi-abilità attraverso l'uso di adapter LoRA attivati sparsamente e blocchi di attenzione incrociata, consentendo a un agente generalista di superare le prestazioni dei singoli esperti finetunati su diverse piattaforme robotiche.

Yuxia Fu, Zhizhen Zhang, Yuqi Zhang, Zijian Wang, Zi Huang, Yadan Luo

Pubblicato 2026-03-12
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un robot domestico super intelligente, capace di capire il linguaggio umano e vedere il mondo come noi. Finora, però, c'era un grosso problema: se addestravi questo robot a fare una cosa specifica (come "mettere la tazza nel lavandino"), diventava bravissimo in quello, ma se gli chiedevi di fare qualcos'altro (come "aprire il forno"), si comportava come se non avesse mai visto un forno in vita sua.

Per avere un robot "generalista", capace di fare tutto, i ricercatori dovevano addestrare un modello separato per ogni compito. Ma immagina di dover avere 100 cervelli diversi in testa per fare 100 cose diverse: è inefficiente e ingombrante.

La domanda è: possiamo fondere tutti questi cervelli specializzati in un unico modello intelligente che sappia fare tutto?

Il paper che hai condiviso, intitolato "MergeVLA", risponde a questa domanda con un "Sì!", ma con un trucco ingegnoso. Ecco come funziona, spiegato in modo semplice.

Il Problema: Perché la fusione falliva?

Fino a ieri, quando i ricercatori provavano a fondere due modelli robotici (come mescolare due colori di vernice), il risultato era un disastro. Il robot diventava confuso e non riusciva a fare nulla.

Gli autori hanno scoperto due motivi principali per cui questo succedeva:

  1. Il "Cervello" (VLM) va in conflitto: Immagina che il "cervello" del robot (la parte che capisce le immagini e le parole) abbia dei piccoli appunti (chiamati LoRA) scritti per ogni compito. Quando provi a fondere i modelli, questi appunti si scontrano. È come se un modello dicesse "spingi a sinistra" e l'altro "spingi a destra" contemporaneamente. Il risultato è che il robot si blocca.
  2. Le "Mani" (Action Expert) sono troppo specializzate: La parte del modello che decide i movimenti fisici (le "mani") ha imparato a muoversi in modo così specifico per un compito che, se provi a mescolarla con un'altra, si rompe. È come se un pianista e un calciatore provassero a fondere i loro muscoli: il pianista non potrebbe più suonare e il calciatore non potrebbe più correre.

La Soluzione: MergeVLA (Il Robot "Camaleonte")

Gli autori hanno creato un nuovo tipo di robot, MergeVLA, progettato fin dall'inizio per essere "fudibile". Ecco i tre trucchi magici che usano:

1. I "Filtri Magici" (Task Masks) per il Cervello

Invece di mescolare tutti gli appunti del cervello insieme, MergeVLA usa dei filtri intelligenti.

  • L'analogia: Immagina di avere un libro di ricette con 100 pagine. Se vuoi fare la pasta, non leggi tutte le pagine insieme (sarebbe confuso!). Invece, metti un segnalibro che ti fa vedere solo la pagina della pasta, nascondendo le altre.
  • Come funziona: Quando il robot deve fare un compito, attiva solo i "pezzi" del cervello necessari per quel compito e spegne quelli che potrebbero disturbare. Questo evita che le istruzioni si scontrino.

2. Le "Mani" Semplici e Modulari

Hanno ridisegnato la parte che comanda i movimenti.

  • L'analogia: Invece di avere un unico muscolo gigante che ricorda tutto, hanno creato un sistema dove le mani ascoltano il cervello (che è robusto e generale) e fanno solo piccoli aggiustamenti locali.
  • Il trucco: Hanno rimosso una parte complessa che faceva confusione (l'attenzione "self-attention") e l'hanno sostituita con un sistema più pulito. Inoltre, hanno lasciato che l'ultima parte delle "mani" (la punta delle dita) rimanga separata per ogni compito, perché è lì che serve la massima precisione specifica.

3. Il "Portiere" (Task Router)

Cosa succede se non sai quale compito il robot deve fare?

  • L'analogia: Immagina di entrare in una stanza buia e dire "Fai qualcosa!". Un robot normale andrebbe in panico. MergeVLA ha un portiere che guarda la stanza (l'immagine e la frase che gli dai) e indovina subito quale "porta" aprire.
  • Come funziona: Il portiere analizza l'immagine e la frase, e dice: "Ah, vedo una tazza e dici 'mettila nel lavandino', quindi attiviamo il filtro 'lavandino' e le mani 'lavandino'". Tutto questo avviene in un istante, senza bisogno di ri-addestrare il robot.

I Risultati: Funziona davvero?

Hanno testato MergeVLA su robot veri e simulati:

  • In simulazione: Ha imparato a fare compiti complessi come impilare oggetti, spostare piatti e aprire forni, ottenendo risultati quasi perfetti (fino al 90% di successo), anche quando i compiti erano mescolati insieme.
  • Nel mondo reale: Hanno usato un braccio robotico vero (SO101) per prendere, spingere e impilare cubi. Anche qui, il robot fuso ha funzionato benissimo, dimostrando che non è solo teoria, ma funziona nella realtà.

In sintesi

MergeVLA è come un chef generalista che non ha bisogno di 100 libri di ricette diversi. Ha un unico libro enorme, ma sa esattamente quale pagina aprire in base a ciò che gli chiedi, senza mai confondere gli ingredienti.

Grazie a questo metodo, possiamo finalmente creare robot "generalisti" che imparano nuove abilità velocemente, mescolando le conoscenze passate senza dimenticare nulla, rendendo l'assistenza robotica in casa molto più vicina alla realtà.