AVA-VLA: Improving Vision-Language-Action models with Active Visual Attention
이 논문은 과거 상호작용을 고려한 순환 상태와 현재 관측치에서 지시사항 및 실행 이력에 기반해 가장 관련성 높은 시각 영역을 동적으로 재가중하는 '능동적 시각 주의 (Active Visual Attention)' 메커니즘을 도입하여, 부분 관측 마르코프 결정 과정 관점에서 로봇 제어 성능을 획기적으로 개선한 AVA-VLA 프레임워크를 제안합니다.
원저자:Lei Xiao, Jifeng Li, Juntao Gao, Feiyang Ye, Yan Jin, Jingjing Qian, Jing Zhang, Yong Wu, Xiaoyuan Yu
핵심 아이디어: 로봇은 지금 보는 화면뿐만 아니라, "방금 전까지 내가 무엇을 했는지"를 요약한 정보를 계속 가지고 갑니다.
비유: 이제 요리사는 메모장을 가지고 있습니다. "아까 냄비 뚜껑을 열었지, 라면은 오른쪽에 두었어"라고 메모장에 적어두면, 다음 순간에 그 정보를 보고 바로 라면을 찾을 수 있습니다.
3. 핵심 기술: "활성화된 시각 주의" (Active Visual Attention)
메모장을 가지고 있다고 해서 모든 것을 다 잘 볼 수는 없습니다. 그래서 로봇에게 **'초점 조절 안경 (AVA 모듈)'**을 씌워줍니다.
어떻게 작동하나요?
로봇은 지금 보는 화면의 모든 부분을 똑같은 중요도로 보는 게 아니라, 과거의 경험 (메모장) 과 현재 명령을 바탕으로 "지금 가장 중요한 부분"을 찾아냅니다.
비유:
일반 로봇 (Vanilla): 주방 전체를 훑어보며 "냄비 뚜껑이 어디 있지? 라면은 어디 있지?"라고 모든 사물을 무작위로 검색합니다.
AVA-VLA 로봇: "아까 라면을 오른쪽에 두었으니, 오른쪽 구석만 집중해서 봐야지!"라고 중요한 곳 (라면) 에만 초점을 맞추고, 나머지 잡동사니 (벽, 창문 등) 는 무시합니다.
효과: 로봇은 불필요한 정보에 시간을 낭비하지 않고, 작업에 꼭 필요한 부분만 날카롭게 파악하게 됩니다.
4. 실제 성과: 시뮬레이션과 실세계에서 모두 성공
이 방법을 적용한 로봇은 여러 테스트에서 기존 로봇보다 훨씬 뛰어난 성적을 냈습니다.
LIBERO & CALVIN (가상 로봇 테스트):
복잡한 미로 찾기나 여러 단계의 물건 정리 같은 긴 작업을 할 때, 실수율이 크게 줄었습니다.
특히 **오래 걸리는 작업 (Long-horizon tasks)**에서 과거 기억을 활용하는 능력이 빛을 발했습니다.
실제 로봇 (Mobile ALOHA):
실제 실험실 환경에서 로봇 팔을 움직여 계란을 담거나, 수저로 깨알 같은 씨앗을 퍼 담는 정교한 작업도 성공적으로 수행했습니다.
시각적 예시: "가스레인지 불을 켜고 모카포트 (커피포트) 를 올려놓아"라는 명령을 내렸을 때, 기존 로봇은 가스레인지 스위치를 찾지 못해 헤맸지만, AVA-VLA 로봇은 과거 경험을 바탕으로 스위치 위치를 정확히 찾아냈습니다.
5. 요약: 왜 이 기술이 중요한가요?
이 연구는 로봇이 단순히 '보는' 것을 넘어, '이해하고 기억하며' 행동하는 단계로 발전했음을 보여줍니다.
기존: "지금 보이는 것만 보고 행동한다." (단순한 자동화)
AVA-VLA: "과거를 기억하고, 지금 가장 중요한 곳에 집중해서 행동한다." (지능형 의사결정)
마치 초보 운전자가 매 순간 핸들만 보고 길을 찾다가 사고가 나기 쉬운 반면, 숙련된 운전자는 과거의 경험과 현재 상황을 종합해 가장 중요한 신호등과 차선에만 집중하며 안전하게 운전하는 것과 같은 원리입니다.
이 기술은 앞으로 로봇이 우리 집이나 공장에서 더 복잡하고 섬세한 일을 도와줄 수 있는 기반이 될 것입니다.
Each language version is independently generated for its own context, not a direct translation.
1. 문제 정의 (Problem)
최근 Vision-Language-Action (VLA) 모델은 로봇 조작 분야에서 괄목할 만한 성과를 거두었으나, 기존 방법론에는 근본적인 한계가 존재합니다.
마르코프 결정 과정 (MDP) 기반의 설계: 대부분의 기존 VLA 모델은 각 시간 단계 (timestep) 에서 시각적 관측치를 독립적으로 처리합니다. 이는 로봇 조작을 완전 관측 가능한 MDP 로 가정하는 것으로, 현재 프레임이 세계 상태의 전체를 나타낸다고 간주합니다.
부분 관측 가능성 (Partial Observability) 의 간과: 실제 로봇 제어 환경은 부분 관측 가능한 마르코프 결정 과정 (POMDP) 입니다. 현재 시각적 프레임만으로는 과거의 상호작용, 가려진 정보 (occluded information), 내부 상태 등 중요한 맥락이 누락됩니다.
수동적인 시각 처리: 과거의 맥락이 결여된 상태에서 모델은 매 단계마다 언어 지시어에 기반하여 시각적 정보를 처음부터 재평가해야 합니다. 이로 인해 시간적으로 중복된 정보를 억제하거나, 과거 행동으로 인해 중요해진 영역에 집중하는 능동적인 시각 처리가 이루어지지 않습니다.
2. 제안 방법 (Methodology)
저자들은 이 문제를 해결하기 위해 POMDP 관점에서 VLA 정책 학습을 재정의하고, AVA-VLA 프레임워크를 제안합니다.
핵심 구성 요소
순환 상태 (Recurrent State, rt−1):
이론적 '신념 상태 (belief state)'를 근사하기 위해 도입된 신경망 기반의 압축된 표현입니다.
이전 시간 단계 (t−1) 에서 생성된 행동 관련 숨은 상태 (hidden state) 에서 추출되며, 과거의 관측치와 행동에 대한 맥락을 담고 있습니다.
이 순환 상태는 현재 시간 단계의 행동 토큰 (action placeholder) 초기화에 사용되어 시간적 맥락을 유지합니다.
능동적 시각 주의 (Active Visual Attention, AVA) 모듈:
현재 관측치의 시각 토큰 (visual tokens) 의 중요도를 동적으로 재가중치 (reweighting) 하는 모듈입니다.
작동 원리:
현재 시각 특징과 언어 지시어를 인코딩합니다.
순환 상태 (rt−1) 를 키 (Key) 와 값 (Value) 으로 사용하여, 현재 시각 토큰 (Query) 에 대한 크로스 어텐션을 수행합니다.
이를 통해 과거의 맥락과 현재 지시어를 모두 고려하여 각 시각 토큰의 중요도 점수 (soft weights) 를 예측합니다.
이 가중치는 LLM 백본의 모든 어텐션 레이어에 적용되어, 모델이 과거의 신념 (belief) 에 기반하여 작업과 관련된 영역에 집중하고 불필요한 배경 정보를 억제하도록 유도합니다.
학습 및 추론:
학습: 시간 전체에 대한 역전파 (Backpropagation Through Time) 는 계산 비용이 너무 커서, 짧은 구간 (truncated horizon, 예: 4 단계) 에 대해 잘라낸 역전파를 사용합니다. 또한, 주의 가중치가 너무 분산되는 것을 방지하기 위해 L2 정규화 항을 추가합니다.
추론: 완전한 순환 방식으로 작동하며, 각 단계에서 이전 순환 상태를 기반으로 다음 행동을 예측하고 새로운 순환 상태를 업데이트합니다.
3. 주요 기여 (Key Contributions)
POMDP 기반의 새로운 VLA 프레임워크: MDP 기반의 한계를 극복하기 위해 순환 상태와 능동적 시각 주의를 결합한 최초의 VLA 프레임워크를 제안했습니다.
능동적 시각 주의 (AVA) 모듈: 순환 상태를 활용하여 현재 프레임의 시각 처리를 동적으로 조절하는 모듈을 설계했습니다. 이는 모델이 정적인 지시어가 아닌, 시간적 맥락에 따라 '무엇을 봐야 하는지'를 스스로 학습하게 합니다.
광범위한 실험적 검증: 시뮬레이션 (LIBERO, CALVIN) 과 실제 로봇 (Mobile ALOHA) 환경에서 SOTA(State-of-the-Art) 성능을 입증했습니다. 특히 긴 시간 horizon 을 가진 작업과 실제 세계의 복잡한 조작 작업에서 뛰어난 성능을 보였습니다.
4. 실험 결과 (Results)
LIBERO 벤치마크:
단일 정책 (One policy for all suites) 및 각 스위트별 정책 학습 모두에서 기존 모델 (OpenVLA-OFT, π0, UnifiedVLA 등) 을 능가하는 SOTA 성능을 기록했습니다.
특히 장기 작업 (LIBERO-Long) 에서 가장 큰 향상을 보였습니다.
LIBERO+ (강건성 테스트): 카메라 뷰, 조명, 배경, 노이즈 등 7 가지 교란 요인에 대해 기존 모델 대비 가장 높은 평균 성공률을 보이며 뛰어난 강건성을 입증했습니다.
CALVIN 벤치마크:
긴 시간의 연속된 작업 (ABC→D 설정) 에서 성공률과 평균 완료 길이 (Average length) 모두에서 기존 최첨단 모델들을 압도했습니다.
실제 로봇 (Mobile ALOHA):
소수의 데모 데이터로 미세 조정 (fine-tuning) 후, '물건 옮기기', '회전식 지시어 이해', '유연한 물체 접기', '정교한 행동 (삽질)' 등 4 가지 복잡한 실제 작업에서 가장 높은 성공률을 기록했습니다.
시각 토큰 가지치기 (Token Pruning):
AVA 모듈이 예측한 중요도 점수를 활용하여 시각 토큰을 50~70% 까지 제거해도 성능 저하가 미미함을 확인했습니다. 이는 모델이 정말 중요한 시각 정보만 선별해내고 있음을 의미합니다.
5. 의의 및 결론 (Significance)
이 논문은 로봇 조작에서 시각 처리가 단순히 현재 프레임을 인식하는 수동적인 과정이 아니라, 과거의 맥락과 미래의 목표를 고려한 능동적인 과정이어야 함을 강조합니다.
이론적 기여: VLA 모델을 POMDP 관점에서 재정의하여, 순환 상태 (recurrent state) 를 통한 '신념 (belief)' 추정이 로봇의 의사결정 성능을 극대화할 수 있음을 증명했습니다.
실용적 가치: 계산 비용 증가 없이 (모델 파라미터 증가분 <1%) 성능을 획기적으로 개선할 수 있는 경량 아키텍처를 제시했습니다.
미래 방향: 장기 작업에서의 오차 누적 (belief drift) 문제를 해결하기 위한 더 강력한 상태 업데이트 메커니즘이나 명시적 오류 수정 전략의 필요성을 제기하며, 차세대 VLA 모델 개발의 방향성을 제시했습니다.
요약하자면, AVA-VLA는 로봇이 과거의 경험을 바탕으로 "지금 무엇을 봐야 하는지"를 능동적으로 결정함으로써, 복잡한 실제 환경에서의 순차적 의사결정 능력을 획기적으로 향상시킨 혁신적인 접근법입니다.