MergeVLA: Cross-Skill Model Merging Toward a Generalist Vision-Language-Action Agent

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que este paper es la historia de cómo un equipo de investigadores logró crear un "robot maestro políglota" capaz de aprender muchas habilidades diferentes sin volverse loco.

Aquí tienes la explicación, traducida a un lenguaje sencillo y con analogías cotidianas:

🤖 El Problema: El Robot de "Un Solo Truco"

Imagina que tienes un robot muy inteligente, como un chef de élite. Si le enseñas a hacer sushi, se vuelve increíble. Si le enseñas a hacer pizza, también es genial. Pero, ¿qué pasa si intentas mezclar a "Chef Sushi" y "Chef Pizza" en un solo cerebro?

En el mundo de la robótica actual (los modelos llamados VLA), si intentas fusionar dos robots expertos en tareas distintas, el resultado es un desastre total. El robot se confunde, olvida cómo agarrar las cosas y termina golpeando la mesa. Es como si intentaras mezclar dos recetas de pastel muy diferentes en un solo bol; obtienes una masa que no sirve para nada.

Los investigadores se preguntaron: ¿Por qué no pueden aprender a hacer todo a la vez?

🔍 El Descubrimiento: ¿Qué salió mal?

Al analizar los "cerebros" de estos robots, encontraron dos razones principales por las que la fusión fallaba:

El Cerebro General (VLM) se peleaba: La parte del robot que entiende el lenguaje y las imágenes (como un traductor universal) aprendía cosas contradictorias. Era como si un estudiante intentara aprender matemáticas avanzadas y, al mismo tiempo, aprender a tocar la batería con la misma mano; sus neuronas se bloqueaban entre sí.
El Especialista (Action Expert) se volvía demasiado rígido: La parte del robot que decide cómo mover los brazos aprendía a hacerlo de una forma tan específica y cerrada que no podía compartir sus conocimientos con otros. Era como un pianista que ha practicado tanto una sola canción que, si le piden tocar otra, sus dedos se quedan congelados porque sus músculos han desarrollado "hábitos" incompatibles.

💡 La Solución: "MergeVLA" (El Robot Camaleón)

Los autores crearon una nueva arquitectura llamada MergeVLA. Imagina que en lugar de intentar mezclar las recetas en un solo bol, crean un chef maestro con un sistema de "filtros".

Aquí están las tres claves de su invento:

1. Los Filtros de Tareas (Las Máscaras)

En lugar de mezclar todo el cerebro, MergeVLA usa unas "máscaras" digitales.

La analogía: Imagina que tienes un libro de cocina gigante. Si quieres hacer sushi, pones una máscara que cubre las páginas de pizza y solo deja ver las de sushi. Si quieres hacer pizza, cambias la máscara.
En el robot: Cuando el robot ve una tarea, activa solo los "músculos" (parámetros) que necesita para esa tarea específica y apaga los que le distraen. Esto evita que las instrucciones de "hacer sushi" interfieran con las de "hacer pizza".

2. El Especialista Flexible (Sin Auto-Atención)

Cambiaron la forma en que el robot decide mover sus brazos.

La analogía: Antes, el robot se miraba al espejo constantemente mientras trabajaba (auto-atención), lo que lo hacía pensar demasiado en sus propios movimientos pasados y volverse rígido. MergeVLA le quitó ese espejo y le dijo: "Mira solo lo que pasa afuera (la comida, el objeto) y actúa".
Resultado: Al dejar de mirarse a sí mismo, el robot se vuelve más flexible y capaz de adaptar sus movimientos a diferentes tareas sin romperse.

3. El Recepcionista Inteligente (El Router)

¿Qué pasa si no le dices al robot qué tarea va a hacer?

La analogía: Imagina un recepcionista en un hotel muy ocupado. El huésped llega sin decir su nombre. El recepcionista mira la maleta del huésped (la imagen inicial) y, por el olor a mar y arena, deduce: "¡Ah! Este es el turista de la playa". Entonces le entrega la llave de la habitación de la playa.
En el robot: MergeVLA tiene un "recepcionista" que mira la primera imagen de la cámara y adivina automáticamente qué tarea se va a realizar, activando la máscara y el especialista correctos sin que nadie tenga que decirle nada.

🏆 Los Resultados: ¡Funciona de verdad!

Probamos este robot en simulaciones y en robots reales (brazos robóticos de verdad).

En simulación: Logró un éxito del 90% en tareas que antes eran imposibles de mezclar.
En la vida real: Con un brazo robótico real, pudo recoger cubos, empujarlos y apilarlos, incluso si cambiaba el color de los cubos (algo que confundía a los robots antiguos).

🌟 Conclusión

Este paper nos dice que no necesitamos entrenar un robot gigante desde cero para cada tarea. En su lugar, podemos tomar muchos robots expertos pequeños, fusionarlos inteligentemente usando "filtros" y un diseño flexible, y obtener un generalista capaz de hacer de todo.

Es como pasar de tener una caja de herramientas donde cada destornillador es un robot separado, a tener un robot multi-herramienta que sabe exactamente qué destornillador sacar según lo que ve en la mesa. ¡El futuro de los robots generalistas acaba de dar un gran salto!

Each language version is independently generated for its own context, not a direct translation.

1. El Problema: La Falta de Generalización en Agentes VLA

Los modelos Visión-Lenguaje-Acción (VLA) han demostrado un gran éxito al adaptar grandes modelos de visión y lenguaje (VLM) para tareas de robótica mediante el ajuste fino (fine-tuning) con millones de demostraciones. Sin embargo, estos modelos suelen estar especializados en una sola tarea o tipo de robot (embodiment).

El desafío central identificado en el trabajo es la incapacidad de fusionar (merge) múltiples expertos VLA entrenados independientemente en un único modelo generalista.

Fallo actual: Intentar fusionar directamente modelos VLA ajustados para diferentes tareas (mediante promedios simples o métodos existentes) resulta en una tasa de éxito cercana a 0%.
Causa raíz: A diferencia de los modelos de lenguaje puro, la fusión en VLA falla debido a dos fuentes principales de incompatibilidad estructural:
1. Interferencia destructiva de parámetros LoRA: El ajuste fino en VLMs genera actualizaciones de LoRA (Low-Rank Adaptation) que divergen drásticamente entre tareas. La mayoría de los parámetros se vuelven "egoístas" (útiles solo para una tarea específica), y su promediado corrompe los subespacios de visión-lenguaje compartidos.
2. Incompatibilidad arquitectónica de los expertos de acción: Los decodificadores de acción (action experts) entrenados desde cero desarrollan fuertes dependencias inter-bloque a través de mecanismos de auto-atención. Esto hace que la información de la tarea se propague globalmente a través de las capas, impidiendo la recombinación modular.

2. Metodología: MergeVLA

Para abordar estos desafíos, los autores proponen MergeVLA, una arquitectura diseñada desde su concepción para preservar la fusibilidad (mergeability). El enfoque se basa en tres pilares:

A. Enmascaramiento de Tareas para VLM (Resolución de Conflictos de LoRA)

Para mitigar la interferencia de parámetros en el backbone del VLM:

Se utilizan máscaras de tareas binarias ( $S_m$ ) que activan selectivamente los parámetros fusionados relevantes para una tarea específica, suprimiendo aquellos que generan conflicto.
La máscara se construye mediante una prueba de consistencia a nivel de parámetros: un parámetro se retiene si su actualización específica para la tarea es significativa y dominante sobre la diferencia residual con el vector de fusión global.
Esto permite mantener las representaciones visuales y lingüísticas preentrenadas intactas mientras se integran conocimientos específicos de tareas de forma dispersa.

B. Rediseño del Experto de Acción (Eliminación de Auto-atención)

Para solucionar la incompatibilidad de los decodificadores de acción:

Eliminación de Auto-atención: Se reemplazan las capas de auto-atención (que acumulan sesgos específicos de la tarea) por bloques de solo atención cruzada (cross-attention). Esto obliga al experto a depender de las características robustas y compartidas del VLM, en lugar de aprender dependencias internas conflictivas.
Cambio de Puerta (Gating): Se sustituye la función de activación tanh (que puede suprimir señales negativas del VLM) por una sigmoide, asegurando que la información del VLM se preserve y equilibre en todo momento.
Estrategia de Fusión Jerárquica: Se observa que los bloques superficiales del experto de acción pueden fusionarse mediante un simple promedio de pesos. Sin embargo, los bloques profundos (denominados "cabeza de experto" o expert head) mantienen una especialización extrema. Por lo tanto, MergeVLA fusiona todos los bloques excepto la última capa (o las últimas capas), que se mantienen separadas por tarea.

C. Enrutamiento de Tareas en Tiempo de Prueba (Test-time Task Router)

Para operar sin conocer la identidad de la tarea a priori (escenario de evaluación mixta):

Se introduce un enrutador libre de entrenamiento que infiere la tarea directamente de las observaciones iniciales.
El mecanismo proyecta los estados ocultos del VLM (enmascarado por cada candidato de tarea) sobre los subespacios principales (obtenidos mediante SVD de las proyecciones de valor) del experto de acción fusionado.
Se selecciona la tarea que maximiza la respuesta en estos subespacios, activando dinámicamente la máscara de tarea y la cabeza de experto correspondiente.

3. Contribuciones Clave

Diagnóstico de la No-Fusibilidad: Identificación empírica de que la fusión falla en VLA debido a la interferencia de parámetros LoRA en el backbone y a la propagación de dependencias de tarea en los expertos de acción mediante auto-atención.
Arquitectura MergeVLA: Propuesta de un diseño que elimina la auto-atención en el experto de acción y utiliza enmascaramiento disperso en el VLM, permitiendo la fusión efectiva de múltiples habilidades.
Mecanismo de Enrutamiento Sin Supervisión: Un método para seleccionar la habilidad correcta en tiempo de ejecución sin necesidad de etiquetas de tarea adicionales.
Validación Empírica: Demostración de que la fusión de modelos VLA es factible y escalable, logrando un agente generalista robusto.

4. Resultados Experimentales

Los autores evaluaron MergeVLA en múltiples benchmarks de simulación y en un robot real (SO101):

Benchmarks LIBERO y LIBERO-Plus:
- MergeVLA alcanza una tasa de éxito promedio del 90.2% en la configuración de evaluación de tareas mixtas, superando significativamente a los métodos de fusión existentes (que fallan al 0%) y acercándose al rendimiento de los expertos ajustados individualmente (98.5%).
- En LIBERO-Plus (con perturbaciones visuales y lingüísticas), MergeVLA muestra una robustez superior, superando a modelos como OpenVLA y VLA-Adapter en condiciones fuera de distribución (OOD).
RoboTwin (Cross-Embodiment):
- Se evaluó la fusión entre diferentes robots (Aloha, ARX, Piper) y tareas. MergeVLA logró una tasa de éxito del 70.7% en escenarios de habilidades cruzadas y cuerpos cruzados, demostrando capacidad de generalización entre diferentes morfologías robóticas.
Experimentos en el Mundo Real (SO101):
- En tareas de manipulación de cubos (agarrar, empujar, apilar), el modelo fusionado logró una tasa de éxito del 90.0%, igualando el rendimiento de los modelos ajustados individualmente. Esto confirma que la fusión no degrada el rendimiento en hardware real.

5. Significado e Impacto

Este trabajo es fundamental porque:

Desbloquea la escalabilidad: Permite construir agentes robóticos generalistas sin necesidad de un entrenamiento conjunto masivo (joint training) de todas las tareas, lo cual es computacionalmente costoso y difícil de gestionar.
Cambia el paradigma de fusión: Demuestra que, con el diseño arquitectónico adecuado (eliminación de auto-atención y enmascaramiento), los modelos VLA pueden compartir conocimientos de manera efectiva, algo que se creía imposible debido a la naturaleza de las acciones continuas y la precisión requerida en robótica.
Hacia la Robótica Generalista: Proporciona una ruta viable hacia agentes físicos que pueden aprender nuevas habilidades de forma independiente y luego fusionarlas en un solo cerebro, adaptándose dinámicamente a diferentes entornos y tareas.

En resumen, MergeVLA resuelve el problema de la "no fusibilidad" en robótica mediante un rediseño arquitectónico inteligente, logrando por primera vez un modelo unificado que combina múltiples habilidades de manipulación con un rendimiento comparable a los expertos especializados.