MergeVLA: Cross-Skill Model Merging Toward a Generalist Vision-Language-Action Agent

Each language version is independently generated for its own context, not a direct translation.

🤖 Le Dilemme du Robot "Tout-Puissant"

Imaginez que vous voulez créer un robot domestique capable de tout faire : ranger la chambre, cuisiner, et réparer une fuite d'eau.

Aujourd'hui, les chercheurs créent des robots très intelligents en leur donnant un "cerveau" (un modèle de langage et de vision) et en les entraînant sur des millions d'exemples de tâches spécifiques.

Le Robot A est un chef étoilé : il sait couper des légumes, mais il ne sait pas faire son lit.
Le Robot B est un majordome : il sait ranger, mais il brûlerait votre soupe.

Le problème ? Si vous essayez de fusionner le cerveau du Chef et celui du Majordome pour en faire un seul "Super-Robot", ça ne marche pas. Le résultat est un robot confus qui ne sait rien faire du tout. C'est comme si vous essayiez de mélanger deux recettes de gâteaux différentes dans un seul bol : vous obtenez une bouillie immangeable au lieu d'un dessert.

🔍 Pourquoi ça échoue ? (Le diagnostic)

Les auteurs de ce papier, de l'Université du Queensland, ont fait une autopsie numérique de ces modèles pour comprendre pourquoi la fusion échoue. Ils ont trouvé deux coupables principaux :

Le "Cerveau" qui se divise : Quand on entraîne le cerveau du robot sur une tâche (cuisiner), il modifie ses connexions internes d'une manière très spécifique. Si on essaie de fusionner ces modifications avec celles d'une autre tâche (ranger), les deux versions du cerveau se battent. C'est comme si le robot avait deux opinions contradictoires sur la même chose, et il finit par ne rien faire.
Le "Moteur" qui s'emmêle : La partie du robot qui commande ses bras (l'expert d'action) apprend à se fier à elle-même de manière trop stricte. Elle crée des dépendances complexes entre ses couches internes. Quand on essaie de la fusionner, ces dépendances s'effondrent, un peu comme si vous essayiez de fusionner deux moteurs de voiture qui ont des câbles câblés différemment : le résultat ne démarre pas.

💡 La Solution : MergeVLA (Le "Chef d'Orchestre")

Pour résoudre ce problème, les chercheurs ont créé MergeVLA. Au lieu de forcer une fusion brute, ils ont redessiné le robot pour qu'il soit prévu pour la fusion.

Voici comment cela fonctionne, avec des analogies simples :

1. Le Système de "Masques" (Les lunettes sélectives)

Imaginez que le cerveau du robot a des milliers de petits interrupteurs.

Quand le robot doit cuisiner, il enfile des lunettes rouges (un masque) qui activent uniquement les interrupteurs utiles pour la cuisine et éteignent ceux qui servent au rangement.
Quand il doit ranger, il enfile des lunettes bleues qui font l'inverse.
L'astuce : Au lieu de mélanger les interrupteurs, on garde tout le cerveau ensemble, mais on utilise ces lunettes pour ne "réveiller" que la partie nécessaire à la tâche en cours. Cela évite les conflits.

2. Le Moteur "Modulaire" (Des pièces détachées interchangeables)

Pour la partie qui commande les bras, ils ont simplifié la conception.

Au lieu d'avoir un moteur complexe où tout est lié, ils ont créé un système où la plupart des pièces sont standardisées et fusionnables (comme des Lego).
Seule la toute dernière pièce, celle qui fait le geste final très précis (le "bouton de départ"), reste spécifique à chaque tâche. C'est comme avoir un moteur de voiture standard, mais avec un volant différent pour chaque type de route.

3. Le "Guide" Intelligent (Le Router)

Et si vous ne dites pas au robot quelle tâche il doit faire ? Comment sait-il quelles lunettes mettre ?

Le modèle possède un petit guide automatique. Dès qu'il voit la scène (par exemple, une assiette sale), il analyse l'image et devine : "Ah, c'est une tâche de cuisine !".
Il enfile instantanément les lunettes rouges et active le bon bras de cuisine, le tout sans avoir besoin d'être reprogrammé.

🚀 Les Résultats : Un Robot Polyvalent Réussi

Les chercheurs ont testé cette idée sur plusieurs robots et environnements (simulés et réels) :

En simulation : Leur robot fusionné réussit aussi bien que des robots spécialisés entraînés séparément. Il peut passer de la cuisine au rangement sans perdre en performance.
Dans la réalité : Ils l'ont testé sur un vrai bras robotique (SO101). Même avec des cubes de couleurs différentes ou des lumières changeantes, le robot a réussi ses tâches à plus de 90 %.

🌟 En Résumé

Ce papier nous dit que pour créer un robot généraliste (un vrai "MacGyver" capable de tout faire), il ne faut pas simplement empiler des compétences. Il faut construire le robot dès le départ avec une architecture qui permet de combiner les compétences sans les faire s'annuler.

Grâce à MergeVLA, nous avons maintenant une méthode pour prendre plusieurs experts (un cuisinier, un nettoyeur, un réparateur) et les fusionner en un seul agent capable de passer de l'un à l'autre intelligemment, comme un humain qui change de casquette selon la situation. C'est un grand pas vers des robots de maison qui nous aideront vraiment au quotidien.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles Vision-Language-Action (VLA) récents permettent aux robots d'exécuter des tâches complexes en affinant de grands modèles vision-langage (VLM) avec des millions de démonstrations robotiques. Bien que performants pour une seule tâche ou un seul type de robot (embodiment), leur généralisation à des environnements multi-compétences reste un défi majeur.

L'approche naturelle consiste à utiliser la fusion de modèles (model merging), une technique efficace pour les grands modèles de langage et de vision, afin de combiner plusieurs experts spécialisés sans réentraînement. Cependant, l'application directe de ces méthodes aux experts VLA aboutit à un taux de réussite proche de zéro.

Les auteurs identifient deux causes fondamentales de cette non-fusibilité :

Interférence destructive des paramètres LoRA : L'affinage (fine-tuning) des VLM via des adaptateurs LoRA pousse les paramètres dans des directions divergentes et spécifiques à chaque tâche. La fusion directe (moyenne simple) réactive des paramètres contradictoires, corrompant les sous-espaces visuels et linguistiques partagés.
Incompatibilité architecturale des experts d'action : Les décodeurs d'action, souvent entraînés de zéro, développent des dépendances inter-blocs fortes via des mécanismes d'auto-attention (self-attention). Cela propage l'information spécifique à une tâche à travers toutes les couches, brisant la modularité et empêchant la fusion même avec des architectures identiques.

2. Méthodologie : MergeVLA

Pour résoudre ces problèmes, les auteurs proposent MergeVLA, une architecture VLA conçue dès le départ pour être fusionnable.

A. Gestion des conflits dans le VLM (Masquage des tâches)

Pour stabiliser la fusion du backbone VLM, MergeVLA utilise des masques de tâches (task masks) binaires appliqués aux adaptateurs LoRA fusionnés.

Mécanisme : Au lieu d'une mise à jour globale, le modèle applique un masque $S_m$ qui sélectionne uniquement les paramètres LoRA bénéfiques pour une tâche $m$ tout en supprimant ceux qui créent des conflits avec d'autres tâches.
Critère de sélection : Un paramètre est conservé si son vecteur de tâche est significatif et dominant par rapport à la différence résiduelle avec le vecteur de fusion global. Cela préserve les représentations pré-entraînées et réduit l'interférence croisée.

B. Redesign de l'expert d'action

L'architecture de l'expert d'action est radicalement modifiée pour éliminer les sources d'incompatibilité :

Suppression de l'auto-attention : Les couches d'auto-attention sont retirées. L'expert ne repose que sur des mécanismes de cross-attention (attention croisée) conditionnés par les états cachés du VLM. Cela force l'expert à s'appuyer sur des caractéristiques VLM robustes et partagées plutôt que sur des biais spécifiques à la tâche appris de zéro.
Remplacement de la porte (Gating) : La fonction d'activation de porte (tanh) est remplacée par une sigmoïde. Cela empêche la suppression des signaux du VLM (via des activations négatives) et assure que l'information visuelle et linguistique est toujours préservée.
Hiérarchie de spécialisation : Bien que les couches peu profondes de l'expert puissent être fusionnées par moyenne simple, les couches profondes (appelées expert head, généralement la dernière couche) restent trop spécialisées. MergeVLA conserve donc une tête d'expert distincte pour chaque tâche, tandis que le reste du réseau est fusionné.

C. Routage de tâche au moment du test (Test-time Task Routing)

Pour gérer des scénarios où l'identité de la tâche est inconnue lors de l'inférence, MergeVLA intègre un routeur de tâche sans apprentissage (training-free) :

Le routeur analyse les états cachés du VLM masqué.
Il projette ces états sur les sous-espaces principaux (via SVD) des matrices de valeur ( $V$ ) de l'expert d'action fusionné.
Il sélectionne la tâche dont la réponse est la plus forte et active dynamiquement le masque de tâche et la tête d'expert correspondante.

3. Contributions Clés

Analyse diagnostique : Première identification détaillée des causes de l'échec de la fusion VLA (interférence LoRA et dépendances d'auto-attention).
Architecture MergeVLA : Conception d'un modèle qui préserve la fusibilité par conception, éliminant les couches d'auto-attention et utilisant des masques de tâches pour le VLM.
Mécanisme de routage autonome : Un système capable d'inférer la tâche et d'activer les composants appropriés sans supervision supplémentaire ni réentraînement.
Validation empirique : Démonstration que la fusion de modèles VLA est non seulement possible, mais qu'elle permet d'atteindre des performances comparables aux experts affinés individuellement.

4. Résultats Expérimentaux

Les expériences ont été menées sur plusieurs benchmarks (LIBERO, LIBERO-Plus, RoboTwin) et sur un robot réel (SO-101).

Performance Multi-tâches (LIBERO) : MergeVLA atteint un taux de réussite moyen de 90,2 % sur le benchmark LIBERO en mode fusion, surpassant largement les tentatives de fusion des modèles existants (qui échouent à 0 %). Il se rapproche des performances des experts affinés individuellement (98,5 %).
Robustesse (LIBERO-Plus) : Sous des perturbations visuelles et linguistiques, MergeVLA fusionné surpasse les modèles VLA actuels (OpenVLA, $\pi_0$ , VLA-Adapter), démontrant une meilleure généralisation hors distribution (OOD).
Généralisation Cross-Embodiment (RoboTwin) : Le modèle réussit à fusionner des compétences entre différents robots (Aloha, ARX, Piper) et différentes tâches, atteignant jusqu'à 70,7 % de réussite en mode multi-tâches croisé.
Expériences Réelles (SO-101) : Sur un bras robotique réel, la fusion basée sur la méthode TIES atteint 90,0 % de réussite moyenne sur trois tâches de manipulation de cubes, prouvant la viabilité pratique de l'approche.

5. Signification et Impact

Ce travail démontre que la fusion de modèles est une voie évolutive (scalable) vers la création d'agents incarnés généralistes. Au lieu de devoir réentraîner un modèle massif pour chaque nouvelle compétence ou robot, MergeVLA permet de :

Réutiliser efficacement les connaissances d'experts spécialisés.
Créer un agent unique capable d'adapter dynamiquement ses compétences à la tâche et au robot.
Réduire les coûts de calcul et de stockage associés au déploiement de multiples modèles.

En résolvant les problèmes d'interférence structurelle et de spécialisation excessive, MergeVLA ouvre la voie à des systèmes robotiques plus flexibles, robustes et capables d'apprentissage continu dans des environnements réels complexes.