On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"로봇이 실수 없이 일하는 법"**에 대한 연구입니다.

우리가 로봇에게 "식탁에 있는 빨간 컵을 가져와"라고 명령하면, 로봇은 눈 (카메라), 귀 (음성 명령), 그리고 손 (행동) 을 모두 사용해서 일을 합니다. 이를 VLA(시각-언어-행동) 모델이라고 합니다. 하지만 문제는 로봇이 실생활에서 작은 실수나 방해만 받아도 일을 망쳐버린다는 점입니다.

이 논문은 **"로봇이 어떤 방해가 와도 꿋꿋하게 일할 수 있도록 튼튼하게 만드는 방법"**을 제안합니다.

🧐 1. 문제 발견: 로봇은 왜 쉽게 넘어질까요?

연구진들은 먼저 유명 로봇 모델들 (OpenVLA, $\pi_0$ 등) 을 실험해 보았습니다. 마치 로봇에게 다양한 '악몽'을 꾸게 만든 셈이죠.

시각 방해: 카메라에 먼지가 끼거나, 사진이 흐릿해지거나, 불빛이 깜빡일 때.
언어 방해: "컵을 가져와" 대신 "저기 있는 빨간 그릇을 좀 줘"라고 말하거나, 발음이 이상할 때.
환경 방해: 테이블 위에 쓸데없는 물건이 갑자기 생기거나, 로봇을 밀었을 때.
행동 방해: 로봇의 손이 조금 떨리거나, 모터가 오작동할 때.

놀라운 발견 3 가지:

가장 약한 고리는 '손' (행동) 입니다: 로봇이 눈이나 귀로 정보를 잘못 받아도 견디지만, 손이 조금만 떨려도 일이 완전히 망칩니다. (마치 요리사가 칼을 쥔 손이 조금만 떨려도 요리를 망치는 것과 같습니다.)
눈만 튼튼해도 소용없다: 기존에 "카메라가 흐려도 잘 보게" 만든 로봇들은, 손이 떨리거나 명령어가 바뀌면 여전히 무너졌습니다.
가장 튼튼한 로봇: 현재 가장 잘 만든 로봇 ( $\pi_0$ ) 이 다른 로봇들보다 훨씬 잘 견디는 것을 발견했습니다.

🛡️ 2. 해결책: 'RobustVLA' (튼튼한 로봇)

이제 연구진은 이 약점을 보완하기 위해 RobustVLA라는 새로운 훈련 방법을 개발했습니다. 두 가지 핵심 전략을 사용합니다.

전략 1: "가장 나쁜 상황을 미리 연습하라" (출력/행동 튼튼함)

로봇이 명령을 수행할 때, 손이 갑자기 떨리거나 실수할 수 있습니다.

비유: 마치 스키 선수가 훈련할 때, 눈이 쌓인 평지뿐만 아니라 돌이 튀는 험한 길에서도 넘어지지 않도록 연습하는 것과 같습니다.
방법: 로봇이 일을 할 때, 가장 나쁜 상황 (손이 심하게 떨리는 등) 을 인위적으로 만들어내서, 그 상황에서도 일을 잘 해내도록 훈련시킵니다. 이렇게 하면 실제 현장에서 작은 실수가 나더라도 로봇이 "아, 이 정도는 괜찮아"라고 생각하고 넘어지지 않게 됩니다.

전략 2: "가장 골치 아픈 방해물을 찾아내라" (입력/감각 튼튼함)

로봇은 카메라 (눈), 마이크 (귀), 환경 등 다양한 곳에서 방해받을 수 있습니다. 모든 방해물을 다 연습할 수는 없죠.

비유: 스파르타식 훈련을 상상해 보세요. 모든 훈련을 다 하는 게 아니라, 지금 내 실력을 가장 떨어뜨리는 '최악의 적'을 찾아내서 그 적만 집중적으로 물리치는 훈련을 합니다.
방법: 연구진은 'UCB'라는 알고리즘을 써서, "지금 로봇을 가장 힘들게 하는 방해물이 뭐지?"를 자동으로 찾아냅니다. 그리고 그 방해물 (예: 갑자기 밝아진 조명, 혹은 이해하기 힘든 사투리) 에만 집중해서 훈련시킵니다. 이렇게 하면 로봇은 다양한 방해 상황에서도 유연하게 대처할 수 있게 됩니다.

🏆 3. 결과: 얼마나 잘할까요?

이 방법을 적용한 로봇은 놀라운 성과를 냈습니다.

시뮬레이션 (가상 현실): 17 가지의 다양한 방해 상황 (흐린 사진, 이상한 명령, 떨리는 손 등) 에서 기존 로봇들보다 약 10~12% 더 높은 성공률을 보였습니다.
속도: 기존에 '눈'만 튼튼하게 하려던 다른 방법들은 무거운 외부 컴퓨터 (LLM) 를 써서 느렸는데, 이 방법은 50 배 이상 빠릅니다. (마치 무거운 헬멧을 쓴 사람 vs 가벼운 모자를 쓴 사람의 차이)
실제 로봇 (현장): 실제 로봇 팔을 실험했을 때, 데이터가 아주 적을 때 (25 번의 시연만 봤을 때) 기존 로봇보다 65% 이상 더 잘 작동했습니다. 데이터가 많아져도 여전히 30% 더 잘했습니다.

💡 4. 한 줄 요약

"로봇에게 완벽한 환경을 주지 말고, 오히려 가장 나쁜 상황 (떨리는 손, 흐린 눈, 이상한 말) 을 미리 경험하게 훈련시켜라. 그래야 로봇은 실생활에서도 넘어지지 않고 일을 해낼 수 있다."

이 연구는 로봇이 우리 집이나 공장에서 더 안전하고, 더 똑똑하게, 그리고 더 빠르게 일할 수 있는 길을 열어주었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

비전 - 언어 - 행동 (Vision-Language-Action, VLA) 모델은 로봇이 시각 및 언어 입력을 통해 유연하고 일반적인 조작 작업을 수행할 수 있게 하는 기초 모델입니다. 그러나 실제 세계 배포 시 VLA 모델은 다양한 다중 모달 (Multi-modal) 불확실성에 취약합니다.

기존 연구의 한계: 기존 VLA 견고성 (Robustness) 연구는 주로 시각적 교란 (Visual Perturbations) (예: 조명 변화, 노이즈) 에만 초점을 맞추었습니다.
실제 문제: 로봇은 시각뿐만 아니라 행동 (Action), 지시어 (Instruction), 환경 (Environment), 관찰 (Observation) 등 다양한 모달에서 발생하는 교란에 직면합니다.
핵심 질문: 현재 주류 VLA 모델들은 이러한 다중 모달 교란에 얼마나 견고한가? 그리고 이를 해결하기 위한 효과적인 방법은 무엇인가?

2. 주요 평가 및 발견 (Evaluation & Findings)

저자들은 4 가지 모달 (행동, 관찰, 환경, 지시) 에 걸쳐 17 가지 교란 유형을 정의하고, OpenVLA, $\pi_0$ , $\pi_0$ -FAST 등 주류 VLA 모델들의 견고성을 평가했습니다.

발견 1: 행동 (Action) 모달이 가장 취약함.
- 행동에 작은 노이즈만 발생해도 성공률이 급격히 하락합니다. 오프라인 RL 이론에 따르면, 고정된 데이터셋으로 학습된 정책은 행동 오류에 특히 취약하며, 오류가 누적되어 분포 이탈 (OOD) 을 일으키기 때문입니다.
발견 2: 시각 견고성은 다른 모달로 확장되지 않음.
- 기존 시각 교란에 강인한 모델 (예: BYOVLA) 은 시각 노이즈에는 성능이 개선되지만, 행동이나 지시어 등 다른 모달의 교란에는 전혀 개선되지 않았습니다.
발견 3: $\pi_0$ 모델이 가장 견고함.
- 확산 기반 (Diffusion-based) 행동 헤드를 가진 $\pi_0$ 가 오토레거시 (Autoregressive) 기반인 OpenVLA 나 $\pi_0$ -FAST 보다 다중 모달 교란에 대해 훨씬 우수한 성능을 보였습니다.

3. 제안된 방법론: RobustVLA

이러한 평가를 바탕으로, 입력 (Input) 과 출력 (Output) 양쪽의 교란에 대응하는 RobustVLA 프레임워크를 제안합니다.

A. 출력 견고성 (Robustness against VLA Outputs)

최악의 경우 행동 노이즈 (Worst-case Action Noise): 플로우 매칭 (Flow Matching) 목적 함수를 최대화하는 $\ell_p$ 바운드 행동 노이즈 $\delta$ 를 도출합니다.
강화 학습 (Adversarial Training): 원래의 깨끗한 행동 분포와 최악의 경우 노이즈가 추가된 행동 분포 모두에 대해 플로우 매칭을 수행하도록 모델을 훈련시킵니다.
의미: 이는 라벨 스무딩 (Label Smoothing), 아웃라이어 페널티 (Outlier Penalization), 그리고 노이즈가 있는 행동 분포에 대한 플로우 매칭의 조합으로 해석될 수 있습니다. 이를 통해 모델은 테스트 시 발생할 수 있는 행동 오차에 대비하게 됩니다.

B. 입력 견고성 (Robustness against VLA Inputs)

의미 불변성 (Semantic Invariance): 입력의 노이즈가 작업의 의미 (Task Semantics) 를 바꾸지 않는 한, 최적의 행동은 변하지 않아야 한다는 가정을 기반으로 합니다.
UCB 기반 적응형 교란 선택: 다양한 입력 노이즈 유형 (관찰, 환경, 지시어 등) 중 어떤 것이 가장 해로운지 자동으로 식별하기 위해 다중 팔 밴딧 (Multi-armed Bandit) 문제를 설정하고, UCB (Upper Confidence Bound) 알고리즘을 적용합니다.
- 각 학습 단계에서 UCB 알고리즘이 현재 모델의 성능을 가장 크게 저하시키는 노이즈 유형을 선택하여 훈련에 활용합니다.
- 이를 통해 모델은 특정 노이즈에 과적합되지 않고 다양한 교란에 강인해집니다.

C. 전체 목적 함수

최종 훈련 목적 함수는 원래의 $\pi_0$ 손실, 입력 견고성 항, 출력 견고성 항을 결합합니다:
$\min_{\theta} \mathcal{L}_{RobustVLA} = \mathcal{L}_{\pi_0} + \lambda_{in}\mathcal{L}_{in} + \lambda_{out}\mathcal{L}_{out}$

4. 실험 결과 (Results)

시뮬레이션 환경 (LIBERO 벤치마크)

성능 향상: 17 가지 교란 유형 전체에서 $\pi_0$ 백본 기준 평균 12.6%, **OpenVLA 백본 기준 10.4%**의 절대적 성공률 향상 (Absolute Gain) 을 달성했습니다.
혼합 교란 (Mixed Perturbations): 입력과 출력에 동시에 교란이 가해지는 상황에서도 10.4% 의 향상을 보였습니다.
추론 속도: 외부 LLM 을 사용하는 시각 견고성 모델 (BYOVLA) 에 비해 50.6 배 빠른 추론 속도를 기록하며, 계산 효율성이 뛰어납니다.

실제 로봇 실험 (Real-world FR5 Robot)

저데이터 (Low-data) 환경: 25 개의 데모 데이터만으로도 $\pi_0$ 보다 65.6% 높은 성공률을 기록했습니다. (기존 모델들은 실제 데이터의 부족과 노이즈로 인해 실패함)
고데이터 환경: 100 개의 데모 데이터가 제공되더라도 $\pi_0$ 의 성능이 포화되는 반면, RobustVLA 는 여전히 30% 높은 성공률을 유지했습니다.
실패 분석: 기존 모델은 행동 노이즈 시 그리퍼 제어 불능, 관찰 노이즈 시 객체 식별 실패, 환경 변화 시 OOD 실패 등을 보인 반면, RobustVLA 는 대부분의 시나리오에서 안정적으로 작업을 수행했습니다.

5. 주요 기여 및 의의 (Contributions & Significance)

포괄적인 다중 모달 평가: VLA 모델의 견고성을 시각뿐만 아니라 행동, 지시, 환경 등 4 가지 모달과 17 가지 교란 유형에 걸쳐 체계적으로 평가하고, 행동 모달의 취약성과 시각 견고성의 한계를 규명했습니다.
RobustVLA 프레임워크 제안: 입력과 출력 모두를 대상으로 한 통합적인 견고성 향상 방법을 제안했습니다. 특히 UCB 를 활용한 적응형 교란 선택과 플로우 매칭 기반의 출력 최적화는 새로운 패러다임을 제시합니다.
실용적 가치: 시뮬레이션과 실제 로봇 환경 모두에서 뛰어난 성능을 입증하며, 제한된 데이터로도 배포 가능한 견고한 VLA 모델 개발의 가능성을 열었습니다. 이는 안전하고 신뢰할 수 있는 embodied AI 시스템 구축에 중요한 기여를 합니다.

요약

이 논문은 VLA 모델이 실제 세계에서 마주치는 다양한 교란 (다중 모달 불확실성) 에 취약하다는 점을 지적하고, 이를 해결하기 위해 입력 (UCB 기반 적응형 노이즈) 과 출력 (최악의 경우 행동 노이즈 최적화) 을 동시에 강화하는 RobustVLA를 제안합니다. 실험을 통해 기존 모델 대비 뛰어난 견고성과 효율성을 입증하며, 실제 로봇 배포를 위한 핵심 기술로 평가됩니다.