MergeVLA: Cross-Skill Model Merging Toward a Generalist Vision-Language-Action Agent

이 논문은 다양한 VLA 전문가 모델을 단일 모델로 통합할 때 발생하는 병합 불가 문제를 해결하기 위해, LoRA 어댑터의 일관성 유지와 행동 전문가의 모듈성 강화를 통해 설계된 'MergeVLA' 아키텍처를 제안하고, 이를 통해 단일 모델이 다양한 작업과 환경에서 개별 전문가 수준의 성능을 발휘함을 입증합니다.

Yuxia Fu, Zhizhen Zhang, Yuqi Zhang, Zijian Wang, Zi Huang, Yadan Luo

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 "로봇이 한 가지 일만 잘하는 것이 아니라, 여러 가지 일을 모두 잘할 수 있게 만드는 방법" 에 대한 연구입니다.

기존의 로봇 인공지능 (VLA) 은 특정 작업 (예: 컵을 들기만 하는 로봇) 을 위해 훈련하면 그 일은 아주 잘하지만, 다른 일 (예: 문을 열기) 을 시키면 완전히 망가집니다. 마치 요리사 한 명이 '라면만' 끓이는 법만 배웠는데, 갑자기 '스테이크'를 시키면 칼도 못 들고 당황하는 상황과 비슷합니다.

이 연구는 이 문제를 해결하기 위해 "여러 명의 전문가를 하나로 합치는 기술 (모델 머지)" 을 개발했는데, 기존 방식으로는 합치면 로봇이 아예 움직이지 않게 된다는 문제를 발견하고, 이를 해결한 새로운 방법 MergeVLA를 제안합니다.

핵심 내용을 쉬운 비유로 설명해 드릴게요.


1. 왜 기존 방식은 실패했을까? (두 가지 치명적인 문제)

연구진은 여러 로봇 전문가들을 하나로 합치려다 실패한 이유를 두 가지로 분석했습니다.

  • 문제 1: "서로 다른 방향을 보는 나침반들" (VLM 부분)

    • 로봇의 눈과 뇌 (시각 언어 모델) 는 각자 다른 일을 배우면서 뇌의 연결 고리 (LoRA) 를 완전히 다르게 변형시켰습니다.
    • 이를 단순히 섞으면, '오른쪽으로 가라'는 말과 '왼쪽으로 가라'는 말이 동시에 들려서 로봇이 제자리에서 빙글빙글 돌다가 멈추는 것과 같습니다. 서로의 지시사항이 충돌해서 아무것도 못 하게 됩니다.
  • 문제 2: "혼자서만 통하는 비밀 언어" (액션 전문가 부분)

    • 로봇의 손과 팔을 움직이는 부분 (액션 전문가) 은 처음부터 새로 훈련되면서, 각 작업마다 고유한 '비밀 신호' 체계를 만들어냈습니다.
    • 예를 들어, '컵 들기' 로봇은 A 라는 신호로 팔을 움직이고, '문 열기' 로봇은 B 라는 신호로 움직입니다. 이 두 로봇을 합치면, A 와 B 가 섞여 어떤 신호가 진짜인지 로봇이 혼란을 겪어 아예 움직이지 않게 됩니다.

2. MergeVLA 의 해결책: "똑똑한 합성 로봇 만들기"

이 연구팀은 이 문제를 해결하기 위해 로봇의 구조를 재설계하고, 합치는 방식을 바꿨습니다.

① "필요한 부분만 켜는 스위치" (태스크 마스크)

  • 비유: 여러 요리사가 한 주방에 있을 때, 라면을 끓일 때는 '라면 전문가'만 일하고, 스테이크를 할 때는 '스테이크 전문가'만 일하게 하는 것입니다.
  • 원리: 로봇이 어떤 일을 해야 할지 알면, 그 일에 필요한 뇌의 연결 고리 (파라미터) 만 켜고, 나머지는 끕니다. 서로의 지시사항이 충돌하지 않도록 **필요한 부분만 골라 쓰는 '스마트 스위치'**를 달아준 것입니다.

② "공통 언어만 쓰는 손" (크로스 어텐션 전용)

  • 비유: 각자 다른 방언을 쓰던 요리사들이, 모두 '표준어'로만 대화하게 만든 것입니다.
  • 원리: 로봇의 손 (액션 전문가) 이 스스로 생각하며 (자기 주시, Self-attention) 복잡한 비밀 신호를 만들지 못하게 막았습니다. 대신, 로봇의 뇌 (시각 언어 모델) 가 주는 명확한 지시 (크로스 어텐션) 만 받아서 움직이게 설계했습니다. 이렇게 하면 서로 다른 로봇의 손도 쉽게 합칠 수 있습니다.

③ "상황을 보고 직관적으로 판단하는 지휘자" (테스트 타임 라우터)

  • 비유: 로봇이 방에 들어와서 무슨 일을 해야 할지 모를 때, 지휘자가 "아, 저기 컵이 있네? 그럼 컵 들기 팀을 불러라!"라고 바로 지시하는 것입니다.
  • 원리: 로봇이 작업을 시작하기 전에, 입력된 영상과 명령을 보고 어떤 전문가 (태스크) 를 불러야 할지 자동으로 골라줍니다. 별도의 훈련 없이도 로봇이 스스로 "지금 나는 컵을 들어야 해"라고 판단하게 됩니다.

3. 결과는 어땠나요?

이 새로운 방식 (MergeVLA) 은 놀라운 성과를 냈습니다.

  • 시뮬레이션과 실제 로봇 실험: 가상 환경뿐만 아니라, 실제 로봇 팔 (SO101) 을 이용해 '큐브 잡기', '밀기', '쌓기' 등 여러 작업을 동시에 수행했습니다.
  • 성능: 개별적으로 훈련된 전문가 로봇과 비슷하거나 오히려 더 좋은 성능을 보였습니다.
  • 강인함: 조명이나 배경이 바뀌거나, 로봇의 모양이 달라져도 (다른 로봇 팔을 사용해도) 잘 작동했습니다.

4. 요약: 왜 이 연구가 중요한가요?

기존에는 로봇이 여러 일을 하려면 각각 따로 훈련해야 해서 비싸고 느렸습니다. 하지만 이 연구는 "여러 개의 전문가 로봇을 하나로 합쳐서, 하나의 로봇이 모든 일을 할 수 있게 만드는 방법" 을 제시했습니다.

마치 한 명의 '만능 요리사'를 만들기 위해, 각자 다른 요리를 잘하는 요리사들의 기술을 섞되, 서로 부딪히지 않게 잘 정리한 것과 같습니다. 이를 통해 앞으로 더 저렴하고 똑똑한 '일반인 로봇 (Generalist Agent)'을 만드는 길이 열렸습니다.