Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

이 논문은 메타 쿼리와 확산 트랜스포머를 결합하여 시각적 예측과 VLA 백본을 분리함으로써 언어 이해와 추론 능력을 유지하면서도 높은 성공률을 달성하는 새로운 비전 - 언어 - 행동 모델 'Mantis'를 제안합니다.

Yi Yang, Xueqi Li, Yiyang Chen, Jin Song, Yihan Wang, Zipeng Xiao, Jiadi Su, You Qiaoben, Pengfei Liu, Zhijie Deng

게시일 2026-02-24
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🦗 '맨티스 (Mantis)': 로봇에게 '미래를 보는 눈'과 '생각하는 뇌'를 선물한 연구

이 논문은 로봇이 인간의 지시를 듣고 손발을 움직여 물건을 옮기는 일을 더 잘하도록 돕는 새로운 인공지능 모델, **'맨티스 (Mantis)'**를 소개합니다.

기존 로봇들은 "컵을 들어"라는 명령을 들으면 단순히 컵을 들어 올리기는 했지만, **"왜 들어야 하는지", "다음에 무슨 일이 일어날지", "정말 내가 원하는 게 컵인지"**를 깊이 있게 생각하지 못했습니다. 맨티스는 이 문제를 해결하기 위해 두 가지 마법 같은 기술을 도입했습니다.


1. 🧠 문제: 로봇은 왜 멍청해졌을까?

기존의 로봇 학습 방식은 마치 수학 문제를 풀면서 동시에 그림을 그리는 것과 비슷했습니다.

  • 로봇은 "손을 움직여라 (행동)"는 신호만 받으면, 그 신호를 맞추느라 바빠서 세상 지식을 잊어버리거나 (이해력 저하), 미래를 예측하는 데 에너지를 다 써서 (학습 비용 과다) 실수가 잦아졌습니다.
  • 반대로, 미래를 예측하는 데만 집중하면 지금 당장 무엇을 해야 할지 (행동) 잊어버리는 경우도 있었습니다.

2. ✨ 해결책: "미래를 보는 눈 (Visual Foresight)"과 "생각하는 뇌"를 분리하다

맨티스의 핵심 아이디어는 **"미래를 상상하는 일"과 "행동을 결정하는 일"을 분리 (Disentangled)**하는 것입니다.

🎨 비유: 요리사와 그림 그리기

  • 기존 방식: 요리사가 냄비 안의 국물 맛을 보며 (행동), 동시에 그 국물이 식으면 어떻게 변할지 그림을 그리려 (미래 예측) 고생했습니다. 두 가지 일을 동시에 하느라 국물 맛을 제대로 못 보거나, 그림이 엉망이 되었습니다.
  • 맨티스 방식:
    1. 미래를 보는 눈 (DVF): 로봇은 "지금 컵을 들면, 1 초 뒤 컵은 어디로 이동할까?"라고 상상합니다. 이때 중요한 건, 로봇이 실제 그림을 그리는 게 아니라, '상상하는 과정'을 통해 행동의 힌트를 얻는 것입니다. 마치 체스 선수가 "다음 수를 두면 상대가 어떻게 반응할까?"를 미리 시뮬레이션하는 것과 같습니다.
    2. 생각하는 뇌 (VLM): 로봇은 인간의 명령 ("컵을 테이블에 올려줘") 을 듣고, 그 명령이 의미하는 바를 깊이 이해합니다. "테이블"이 무엇인지, "올려줘"가 어떤 행동을 의미하는지 이해력을 유지합니다.

맨티스는 이 두 가지 능력을 별개의 전문가처럼 분리해서 훈련시켰습니다. 그래서 로봇은 이해력을 잃지 않으면서도, 미래를 내다보는 능력을 통해 더 정확한 행동을 할 수 있게 되었습니다.

3. 🚀 어떻게 훈련시켰을까? (점진적인 학습 레시피)

맨티스는 한 번에 모든 것을 배우지 않았습니다. 마치 유아교육처럼 단계별로 배웠습니다.

  1. 1 단계 (눈 훈련): 인간이 물건을 다루는 22 만 개의 영상을 보며 "다음 장면은 어떨까?"를 상상하는 법을 배웠습니다. (행동 데이터 없이 순수한 시각 학습)
  2. 2 단계 (손 훈련): 로봇이 실제로 물건을 옮기는 7 만 6 천 개의 데이터를 보며, "상상한 미래"와 "실제 행동"을 연결하는 법을 배웠습니다.
  3. 3 단계 (뇌 훈련): 38 개의 다양한 이미지와 텍스트 데이터를 보며, 언어 이해 능력을 강화했습니다. "배고파"라는 말에 "음식"을 찾는 등, 세상 상식을 익혔습니다.

4. 🏆 실제 성과: 로봇이 얼마나 똑똑해졌나?

  • 시뮬레이션 테스트 (LIBERO): 로봇이 가상 세계에서 100 가지 과제를 수행했을 때, **96.7%**를 성공했습니다. 이는 기존 최고의 모델들보다 훨씬 높은 점수입니다. 특히 학습 속도가 매우 빨라서, 다른 로봇들이 10 번 이상 실패하는 동안 맨티스는 금방 정답을 찾아냈습니다.
  • 실제 로봇 실험: 실제 로봇 팔을 이용해 실험했을 때, π0.5(현재 가장 유명한 오픈소스 로봇 모델)보다 훨씬 뛰어난 모습을 보였습니다.
    • 이해력: "테이블 위에 컵을 올려줘"라고 하면 컵을 찾지만, **"배고파, 도와줘"**라고 하면 **음식 (빵 등)**을 찾아주는 등, 문맥을 이해하고 행동했습니다.
    • 일반화: "타일러 스위프트"라는 이름이 적힌 포스터 위에 컵을 올려달라고 하면, "그건 여자 가수야"라고 이해하고 실행했습니다. (기존 모델들은 이런 추상적인 지시를 못 했습니다.)

5. ⚡ 효율성: "적응형 시간 앙상블 (ATE)"

로봇이 움직일 때 너무 자주 계산하면 배터리가 빨리 닳고 반응이 느려집니다. 맨티스는 ATE라는 기술을 써서, **안정성이 필요한 순간 (예: 물건을 잡을 때)**에만 집중력을 높이고, 단순한 이동 시에는 계산을 줄여 속도를 50% 이상 높였습니다. 마치 운전할 때 커브길에서는 속도를 줄이고, 직진할 때는 가속하는 것과 같습니다.


📝 한 줄 요약

**맨티스 (Mantis)**는 로봇에게 **"미래를 미리 상상하는 눈"**과 **"인간의 말을 깊이 이해하는 뇌"**를 따로 따로 키워주어, 이해력도 뛰어나고 행동도 정확한 똑똑한 로봇을 만든 혁신적인 연구입니다. 이제 로봇은 단순히 명령을 따르는 기계가 아니라, 상황을 파악하고 스스로 판단하는 파트너로 한 걸음 더 다가섰습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →