On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations

이 논문은 비전 - 언어 - 행동 (VLA) 모델의 다중 모달 교란에 대한 견고성을 평가하고, 출력 최적화와 입력 일관성 강화, 그리고 다중 모달 교란을 자동으로 식별하는 알고리즘을 통해 제안된 'RobustVLA'가 시뮬레이션 및 실제 로봇 환경에서 기존 모델보다 뛰어난 성능을 보임을 입증합니다.

Jianing Guo, Zhenhong Wu, Chang Tu, Yiyao Ma, Xiangqi Kong, Zhiqian Liu, Jiaming Ji, Shuning Zhang, Yuanpei Chen, Kai Chen, Qi Dou, Yaodong Yang, Xianglong Liu, Huijie Zhao, Weifeng Lv, Simin Li

게시일 2026-02-25
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"로봇이 실수 없이 일하는 법"**에 대한 연구입니다.

우리가 로봇에게 "식탁에 있는 빨간 컵을 가져와"라고 명령하면, 로봇은 눈 (카메라), 귀 (음성 명령), 그리고 손 (행동) 을 모두 사용해서 일을 합니다. 이를 VLA(시각-언어-행동) 모델이라고 합니다. 하지만 문제는 로봇이 실생활에서 작은 실수나 방해만 받아도 일을 망쳐버린다는 점입니다.

이 논문은 **"로봇이 어떤 방해가 와도 꿋꿋하게 일할 수 있도록 튼튼하게 만드는 방법"**을 제안합니다.


🧐 1. 문제 발견: 로봇은 왜 쉽게 넘어질까요?

연구진들은 먼저 유명 로봇 모델들 (OpenVLA, π0\pi_0 등) 을 실험해 보았습니다. 마치 로봇에게 다양한 '악몽'을 꾸게 만든 셈이죠.

  • 시각 방해: 카메라에 먼지가 끼거나, 사진이 흐릿해지거나, 불빛이 깜빡일 때.
  • 언어 방해: "컵을 가져와" 대신 "저기 있는 빨간 그릇을 좀 줘"라고 말하거나, 발음이 이상할 때.
  • 환경 방해: 테이블 위에 쓸데없는 물건이 갑자기 생기거나, 로봇을 밀었을 때.
  • 행동 방해: 로봇의 손이 조금 떨리거나, 모터가 오작동할 때.

놀라운 발견 3 가지:

  1. 가장 약한 고리는 '손' (행동) 입니다: 로봇이 눈이나 귀로 정보를 잘못 받아도 견디지만, 손이 조금만 떨려도 일이 완전히 망칩니다. (마치 요리사가 칼을 쥔 손이 조금만 떨려도 요리를 망치는 것과 같습니다.)
  2. 눈만 튼튼해도 소용없다: 기존에 "카메라가 흐려도 잘 보게" 만든 로봇들은, 손이 떨리거나 명령어가 바뀌면 여전히 무너졌습니다.
  3. 가장 튼튼한 로봇: 현재 가장 잘 만든 로봇 (π0\pi_0) 이 다른 로봇들보다 훨씬 잘 견디는 것을 발견했습니다.

🛡️ 2. 해결책: 'RobustVLA' (튼튼한 로봇)

이제 연구진은 이 약점을 보완하기 위해 RobustVLA라는 새로운 훈련 방법을 개발했습니다. 두 가지 핵심 전략을 사용합니다.

전략 1: "가장 나쁜 상황을 미리 연습하라" (출력/행동 튼튼함)

로봇이 명령을 수행할 때, 손이 갑자기 떨리거나 실수할 수 있습니다.

  • 비유: 마치 스키 선수가 훈련할 때, 눈이 쌓인 평지뿐만 아니라 돌이 튀는 험한 길에서도 넘어지지 않도록 연습하는 것과 같습니다.
  • 방법: 로봇이 일을 할 때, 가장 나쁜 상황 (손이 심하게 떨리는 등) 을 인위적으로 만들어내서, 그 상황에서도 일을 잘 해내도록 훈련시킵니다. 이렇게 하면 실제 현장에서 작은 실수가 나더라도 로봇이 "아, 이 정도는 괜찮아"라고 생각하고 넘어지지 않게 됩니다.

전략 2: "가장 골치 아픈 방해물을 찾아내라" (입력/감각 튼튼함)

로봇은 카메라 (눈), 마이크 (귀), 환경 등 다양한 곳에서 방해받을 수 있습니다. 모든 방해물을 다 연습할 수는 없죠.

  • 비유: 스파르타식 훈련을 상상해 보세요. 모든 훈련을 다 하는 게 아니라, 지금 내 실력을 가장 떨어뜨리는 '최악의 적'을 찾아내서 그 적만 집중적으로 물리치는 훈련을 합니다.
  • 방법: 연구진은 'UCB'라는 알고리즘을 써서, "지금 로봇을 가장 힘들게 하는 방해물이 뭐지?"를 자동으로 찾아냅니다. 그리고 그 방해물 (예: 갑자기 밝아진 조명, 혹은 이해하기 힘든 사투리) 에만 집중해서 훈련시킵니다. 이렇게 하면 로봇은 다양한 방해 상황에서도 유연하게 대처할 수 있게 됩니다.

🏆 3. 결과: 얼마나 잘할까요?

이 방법을 적용한 로봇은 놀라운 성과를 냈습니다.

  • 시뮬레이션 (가상 현실): 17 가지의 다양한 방해 상황 (흐린 사진, 이상한 명령, 떨리는 손 등) 에서 기존 로봇들보다 약 10~12% 더 높은 성공률을 보였습니다.
  • 속도: 기존에 '눈'만 튼튼하게 하려던 다른 방법들은 무거운 외부 컴퓨터 (LLM) 를 써서 느렸는데, 이 방법은 50 배 이상 빠릅니다. (마치 무거운 헬멧을 쓴 사람 vs 가벼운 모자를 쓴 사람의 차이)
  • 실제 로봇 (현장): 실제 로봇 팔을 실험했을 때, 데이터가 아주 적을 때 (25 번의 시연만 봤을 때) 기존 로봇보다 65% 이상 더 잘 작동했습니다. 데이터가 많아져도 여전히 30% 더 잘했습니다.

💡 4. 한 줄 요약

"로봇에게 완벽한 환경을 주지 말고, 오히려 가장 나쁜 상황 (떨리는 손, 흐린 눈, 이상한 말) 을 미리 경험하게 훈련시켜라. 그래야 로봇은 실생활에서도 넘어지지 않고 일을 해낼 수 있다."

이 연구는 로봇이 우리 집이나 공장에서 더 안전하고, 더 똑똑하게, 그리고 더 빠르게 일할 수 있는 길을 열어주었습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →