BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation

이 논문은 엣지 로봇 플랫폼에서 메모리 사용량을 11 배, 지연 시간을 4.4 배 줄이면서도 풀 정밀도 모델과 유사한 성능을 내기 위해 1 비트 가중치를 사용하는 'BitVLA'라는 새로운 비전 - 언어 - 행동 모델을 제안합니다.

Hongyu Wang, Chuyan Xiong, Ruiping Wang, Xilin Chen

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🤖 로봇의 '뇌'를 가볍게 만든 혁신: BitVLA

이 논문은 로봇이 세상을 보고, 이해하고, 손으로 물건을 잡는 일을 할 때 필요한 인공지능 (AI) 모델을 어떻게 훨씬 작고 가볍게 만들 수 있는지 소개합니다. 바로 **'BitVLA'**라는 새로운 기술입니다.

기존의 로봇 AI 는 마치 거대한 도서관처럼 방대한 데이터와 무거운 컴퓨터가 필요해서, 일반 가정이나 작은 로봇에 탑재하기 어려웠습니다. 하지만 BitVLA 는 이 도서관을 작은 스마트폰 메모리 안에 넣을 정도로 압축하면서도, 똑똑함은 그대로 유지하는 놀라운 방법을 제시했습니다.


1. 핵심 아이디어: "모든 것을 1 비트로!" (1-bit 모델)

일반적인 AI 모델은 숫자를 표현할 때 '부동 소수점'이라는 복잡한 방식을 써서 많은 메모리를 차지합니다. 마치 고급 레스토랑의 정교한 요리처럼 재료 (데이터) 가 많고 정교하지만, 만들기 어렵고 비쌉니다.

반면, BitVLA 는 모든 숫자를 {-1, 0, 1} 세 가지 값만 사용하도록 바꿨습니다.

  • 비유하자면: 고급 레스토랑 요리 대신, **간단하지만 영양가 높은 '비트 (Bit) 도시락'**을 만든 것입니다.
  • 효과: 재료 (메모리) 는 11 배나 줄었지만, 맛 (성능) 은 고급 레스토랑 요리와 거의 비슷합니다!

2. 어떻게 이렇게 가볍게 만들었을까? (세 단계 훈련법)

저자들은 단순히 AI 를 잘라내서 작게 만든 게 아니라, 처음부터 가볍게 만들 수 있도록 세 단계의 훈련 과정을 고안했습니다.

1 단계: 눈과 언어를 연결하기 (Multimodal Training)

  • 상황: 로봇의 '눈' (카메라) 과 '언어' (명령) 를 연결하는 훈련입니다.
  • 방법: 아주 똑똑한 1 비트 언어 모델 (BitNet) 에 고해상도 카메라를 연결했습니다. 이때 카메라는 아직 무거운 상태지만, 언어 모델은 이미 가볍습니다.
  • 비유: **어린아이 (1 비트 언어 모델)**에게 **전문 사진작가 (고해상도 카메라)**의 눈을 빌려주어 세상의 사물을 배우게 하는 단계입니다.

2 단계: '가압-지도' 훈련 (Quantize-then-Distill) - 이 기술이 핵심!

  • 문제: 이제 카메라도 가볍게 만들고 싶지만, 무거운 카메라를 바로 가볍게 바꾸면 시력이 떨어질까 봐 걱정됩니다.
  • 해결: **가벼운 학생 (1.58 비트 카메라)**과 **무거운 선생님 (원본 카메라)**을 짝지어 훈련시켰습니다.
  • 방법: 선생님이 본 것을 학생이 똑같이 따라 하도록 가르칩니다 (지식 증류). 학생은 가볍게 변해가지만, 선생님의 시선을 따라가므로 시력이 떨어지지 않습니다.
  • 비유: 거울을 통해 무거운 선생님의 모습을 가볍게 학생이 따라 하는 것입니다. 학생은 가벼워졌지만, 선생님이 본 세상의 모습은 그대로 기억하게 됩니다.

3 단계: 로봇 실전 훈련 (Robotics Training)

  • 상황: 이제 눈과 언어가 다 가벼워졌으니, 실제 로봇 팔을 움직이는 법을 배웁니다.
  • 방법: 실제 로봇이 물건을 잡는 100 만 번의 경험을 학습시켜, "컵을 잡아"라는 말을 들으면 바로 컵을 잡는 행동을 하도록 만듭니다.

3. 어떤 결과가 나왔을까? (실제 실험)

이 기술을 적용한 BitVLA 는 놀라운 성과를 거두었습니다.

  • 메모리: 기존 거대 모델 (OpenVLA) 이 15GB의 메모리를 썼다면, BitVLA 는 1.4GB만 썼습니다. (약 11 배 가벼워짐!)
    • 비유: 무거운 -desktop PC 대신, 스마트폰이나 노트북에서도 로봇을 구동할 수 있게 되었습니다.
  • 속도: 명령을 내리고 로봇이 움직이기까지 걸리는 시간이 4.4 배 빨라졌습니다.
    • 비유: 느릿느릿한 거북이토끼처럼 빠르게 반응하게 되었습니다.
  • 성능: 메모리가 훨씬 작아졌지만, 물건을 잡는 성공률은 거대한 모델과 비슷하거나 오히려 더 좋았습니다.

4. 왜 이것이 중요한가요?

지금까지 로봇 AI 는 무거워서 공장이나 연구실 같은 큰 공간에만 있었습니다. 하지만 BitVLA 덕분에:

  1. 가정용 로봇: 우리 집 거실이나 주방에 있는 작은 로봇도 똑똑한 AI 를 탑재할 수 있게 됩니다.
  2. 에너지 절약: 전기를 덜 먹기 때문에 배터리로 오래 작동할 수 있습니다.
  3. 실시간 반응: 로봇이 주변 상황을 보고 즉시 반응할 수 있어 안전해집니다.

📝 한 줄 요약

"BitVLA 는 거대한 AI 모델을 '1 비트'라는 초경량 도시락으로 바꿔, 작은 로봇도 거대 AI 못지않게 똑똑하고 빠르게 움직이게 만든 혁신적인 기술입니다."

이 기술은 앞으로 우리가 만나는 모든 로봇이 더 작고, 저렴하며, 똑똑해지는 시대의 문을 연다고 할 수 있습니다.