VITA: Vision-to-Action Flow Matching Policy

이 논문은 시각 표현에서 직접 잠재 행위로 흐르는 비노이즈·비조건부 흐름 매칭 프레임워크인 VITA 를 제안하여, 시각 조건부 모듈의 반복적 처리를 제거함으로써 추론 속도를 1.5~2 배 향상시키면서도 최첨단 성능을 달성함을 보여줍니다.

Dechen Gao, Boqi Zhao, Andrew Lee, Ian Chuang, Hanchu Zhou, Hang Wang, Zhe Zhao, Junshan Zhang, Iman Soltani

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🤖 VITA: 로봇의 '눈'에서 '손'으로 바로 가는 고속도로

1. 기존 방식의 문제점: "지루한 중계 방송"

기존의 로봇 학습 방식 (확산 모델이나 흐름 매칭) 은 마치 지루한 중계 방송과 비슷합니다.

  • 시나리오: 로봇이 "물건을 잡아야 해!"라고 생각할 때, 먼저 아무것도 없는 **흰색 안개 (잡음)**를 만들어냅니다.
  • 과정: 그 안개에서 로봇이 원하는 행동을 찾아내기 위해, 매 단계마다 카메라로 찍은 영상 정보를 다시 다시 중계해 줘야 합니다. ("아니, 저기 빨간 공이 있잖아!", "손을 위로 올려!", "조금 더 왼쪽으로!")
  • 단점: 이 과정이 너무 번거롭고 시간이 오래 걸립니다. 매번 영상을 확인하고 지시하는 데 에너지를 많이 써서, 로봇이 느리게 움직이거나 기억력 (메모리) 이 부족해집니다.

2. VITA 의 혁신: "직관적인 텔레파시"

VITA 는 이 지루한 중계를 없애고 직관적인 텔레파시를 사용합니다.

  • 핵심 아이디어: 로봇이 카메라로 보는 영상 자체를 출발점으로 삼습니다.
  • 과정: "안개"를 만들지 않습니다. 대신, 로봇이 보는 **영상의 특징 (잠재 표현)**을 바로 행동의 특징으로 변형시킵니다.
    • 마치 "빨간 공을 보는 순간, 손이 저절로 그쪽으로 향하는 것"처럼요.
    • 중간에 "여기 공이 있잖아!"라고 계속 말해줄 필요가 없습니다. 눈 (영상) 과 손 (행동) 이 직접 연결되어 있기 때문입니다.
  • 결과: 불필요한 중계 과정이 사라져서 속도가 1.5~2 배 빨라지고, 메모리 사용량도 크게 줄어듭니다.

3. 해결한 난제: "언어 장벽"과 "붕괴"

그런데 여기서 두 가지 큰 문제가 있었습니다. VITA 가 이를 어떻게 해결했는지 볼까요?

① 언어 장벽 (차원 불일치)

  • 문제: 로봇의 **눈 (영상)**은 매우 복잡하고 정보가 많지만, **손 (행동)**은 단순하고 정보가 적습니다. 마치 "수천 페이지의 소설 (영상)"을 "한 줄의 요약문 (행동)"으로 바꾸는 것과 같습니다.
  • 해결책 (행동 오토인코더): VITA 는 행동을 단순한 명령어가 아니라, **영상과 같은 복잡도를 가진 '잠재 언어 (Latent Language)'**로 변환합니다.
    • 비유: 복잡한 소설을 요약할 때, 단순히 줄이는 게 아니라 **영화 시나리오 (구조화된 잠재 공간)**로 다시 쓰는 것입니다. 그래야 영상과 행동이 서로 대화할 수 있습니다.

② 붕괴 현상 (Training-Inference Gap)

  • 문제: 훈련할 때는 정답을 보고 배우지만, 실제 로봇을 움직일 때는 정답이 없습니다. 이때 로봇이 "아무것도 아닌 것"을 만들어내거나 행동을 망쳐버리는 붕괴가 일어날 수 있습니다.
  • 해결책 (흐름 잠재 디코딩): VITA 는 훈련하는 동안, 로봇이 만든 가상의 행동을 실제 행동으로 다시 변환해 보는 과정을 거칩니다.
    • 비유: 요리사 (로봇) 가 요리를 할 때, 완성된 요리를 맛보고 (디코딩), "아, 이 맛이 아니었구나"라고 바로 수정하는 것입니다. 이렇게 하면 로봇이 가상의 행동을 할 때도 실제처럼 정확하게 움직이게 됩니다.

🏆 VITA 의 성과: "빠르고 정확한 장인"

이 논문은 VITA 를 다양한 시뮬레이션과 실제 로봇 (ALOHA, Robomimic) 으로 테스트했습니다.

  • 속도: 기존 방식보다 1.5~2 배 더 빠릅니다. (로봇이 50Hz~200Hz 로 매우 빠르게 반응 가능)
  • 정확도: 바늘에 실을 꿰는 것처럼 정교한 작업에서도 기존 최고의 기술들과 비슷하거나 더 좋은 성적을 냈습니다.
  • 간결함: 복잡한 중계 장치 (조건부 모듈) 가 필요 없어서 로봇의 뇌 (네트워크) 가 훨씬 단순하고 가벼워졌습니다.

💡 한 줄 요약

VITA 는 로봇에게 "안개 속에서 정답을 찾으라고 지시하는 번거로운 과정"을 없애고, "눈에 보이는 그대로 손이 움직이게 하는 직관적인 고속도로"를 만들어준 기술입니다.

이 기술 덕분에 로봇은 더 빠르고, 더 정확하게, 그리고 더 적은 전자기기로 복잡한 일을 할 수 있게 되었습니다.