Each language version is independently generated for its own context, not a direct translation.

🤖 로봇에게 '기억력'을 심어주다: ReMem-VLA 소개

이 논문은 로봇이 단순히 "지금 보이는 것"만 보고 행동하는 것이 아니라, "과거의 경험"을 기억하고 활용할 수 있도록 만든 새로운 인공지능 모델, ReMem-VLA를 소개합니다.

기존 로봇들은 마치 아몬드 버터 (Short-term memory) 를 먹은 사람처럼, 방금 전 상황을 잊어버리고 현재 순간에만 반응하는 경향이 있었습니다. 하지만 우리는 로봇에게 장기 기억과 단기 기억을 모두 갖춘 '완전한 인간'처럼 행동하게 하고 싶었습니다.

이제 이 기술이 어떻게 작동하는지, 일상적인 비유로 쉽게 설명해 드릴게요.

1. 왜 로봇은 기억이 필요할까요? (문제 상황)

기존 로봇 AI 는 마치 "지금 이 순간"만 보는 카메라처럼 작동했습니다.

예시: 로봇에게 "컵을 원래 있던 곳으로 돌려놔"라고 시켰다고 가정해 봅시다.
기존 로봇의 문제: 로봇은 컵이 어디에 있었는지 이전에 본 기억이 없습니다. 지금 컵이 어디 있는지만 보고 "아, 컵이 여기 있네?"라고 생각할 뿐, "아, 원래는 저기 있었지!"라고 기억해내지 못합니다.
결과: 로봇은 과거의 맥락을 잊어버려서 복잡한 작업을 실패합니다.

2. ReMem-VLA 의 핵심 아이디어: "두 가지 종류의 메모리"

이 연구팀은 로봇에게 **두 가지 종류의 '기억 노트'**를 만들어주었습니다. 마치 우리가 일상생활을 할 때 사용하는 두 가지 메모 방식과 비슷합니다.

📝 1. 단기 메모리 (Frame-level): "방금 전의 일기"

비유: 당신이 친구와 대화할 때, 방금 전 3~4 마디를 기억하고 있는 상태입니다.
역할: 로봇이 몇 초 전에 무엇을 했는지, 물체의 위치가 방금 어떻게 변했는지 빠르게 기억합니다.
작동 방식: 매 프레임 (화면) 마다 업데이트되어, 로봇이 순간적인 동작을 부드럽게 이어가게 도와줍니다. (예: 컵을 들고 있는 동안 떨어뜨리지 않게 유지)

📚 2. 장기 메모리 (Chunk-level): "과거의 일기장"

비유: 지난주에 무엇을 했는지, 혹은 오늘의 전체 일정을 기억하는 상태입니다.
역할: 로봇이 수십 초, 수 분 전에 일어난 일을 기억합니다. "내가 1 분 전에 버튼을 눌렀었지, 이제 다음 단계로 넘어가야 해"라고 생각하게 합니다.
작동 방식: 짧은 시간 (예: 30 프레임) 단위로 정보를 요약해서 저장합니다. 이렇게 하면 과거의 중요한 정보가 계속 쌓여 사라지지 않습니다.

💡 핵심 포인트: 기존 연구는 이 두 가지를 따로따로 하거나, 기억을 검색하는 방식 (도서관에서 책 찾기) 을 썼는데, 이는 **방해 요소 (Distractor)**에 쉽게 혼란을 겪거나 검색 시간이 오래 걸리는 문제가 있었습니다. ReMem-VLA 는 이 두 메모리를 자연스럽게 연결하여 로봇이 스스로 기억을 관리하게 합니다.

3. 로봇의 눈을 훈련시키는 비법: "과거 사진 복원하기"

이 모델의 또 다른 재주는 시각 기억력을 강화하는 것입니다.

비유: 로봇에게 "어제 본 사진을 다시 그려보게" 하는 훈련을 시켰습니다.
작동 원리: 로봇이 현재 행동을 결정할 때, 단순히 "지금 보이는 것"만 보는 게 아니라, **"방금 전에는 어떤 장면이 보였지?"**라고 스스로에게 물어보고, 그 과거의 이미지를 다시 그려내는 (예측하는) 훈련을 합니다.
효과: 이렇게 하면 로봇은 과거의 시각적 단서 (예: "아, 저기 사과가 있었지") 를 더 선명하게 기억하게 되어, "사과를 원래 위치로 돌려놔" 같은 작업을 훨씬 잘 수행합니다.

4. 실험 결과: 로봇이 얼마나 똑똑해졌나요?

연구팀은 시뮬레이션과 실제 로봇 (UR5 팔) 을 이용해 실험했습니다.

과제 예시:
1. 물 주기: 6 초 동안 물 주는 자세를 유지하기 (시간 기억력 테스트).
2. 밥 두 숟가락 퍼기: 정확히 두 번만 퍼서 냄비에 넣기 (순서 기억력 테스트).
3. 과일 돌려놓기: 원래 있던 곳으로 과일을 돌려놓기 (시각 기억력 테스트).
결과:
- 기존 로봇 (기억력 없음): 8~11% 성공률.
- 기존 기억력 모델: 15% 성공률.
- ReMem-VLA (우리 모델): 82.5% 성공률! 🎉
- 로봇이 과거를 기억하면서 복잡한 작업을 거의 완벽하게 수행했습니다.

5. 결론: 로봇에게 '지혜'를 심다

이 논문은 로봇이 **Markov 가정 (현재 상태만 보고 결정)**이라는 좁은 틀에서 벗어나, 과거의 경험을 바탕으로 미래를 예측할 수 있게 만들었습니다.

단기 기억으로 순간적인 동작을 안정화하고,
장기 기억으로 복잡한 작업 순서를 잊지 않으며,
과거 이미지 복원으로 시각적 단서를 명확히 기억하게 했습니다.

이제 로봇은 단순히 "지금"만 보는 기계가 아니라, "과거를 기억하고 미래를 계획하는" 더 똑똑한 파트너로 진화하고 있습니다. 마치 우리가 어제의 경험을 바탕으로 오늘을 살아가듯, 로봇도 이제 과거의 경험을 통해 더 현명한 행동을 할 수 있게 된 것입니다! 🚀

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

기존의 비전 - 언어 - 행동 (Vision-Language-Action, VLA) 모델은 주로 마르코프 가정 (Markov assumption) 하에 설계되어, 현재 상태와 짧은 과거 관찰 (history window) 만을 기반으로 행동을 예측합니다. 이로 인해 다음과 같은 한계가 발생합니다:

장기 기억 부재: 과거의 행동이나 환경 변화에 대한 맥락을 잊어버려, 과거 정보를 필요로 하는 작업 (예: 물체를 원래 위치로 되돌리기, 다단계 작업 수행) 에서 실패합니다.
기존 메모리 방식의 한계:
- 메모리 뱅크 검색 (Retrieval): 방해 요소 (distractors) 에 의해 잘못된 정보를 검색할 수 있습니다.
- 프레임 윈도우 확장 (Extended Window): 고정된 윈도우 크기로 인해 매우 긴 시간 범위의 작업에서는 정보가 누락됩니다.
- 단순 순환 (Naive Recurrence): Truncated Backpropagation Through Time (TBPTT) 의 제한으로 인해 장기적인 의존성 학습이 어렵습니다.

2. 방법론 (Methodology)

저자는 ReMem-VLA를 제안하여 VLA 모델에 이중 레벨 순환 쿼리 (Dual-Level Recurrent Queries) 와 과거 관찰 예측 (Past Observation Prediction) 을 통합했습니다.

A. 핵심 아키텍처: 이중 레벨 순환 쿼리

모델은 VLM(Vision-Language Model) 백본에서 추출된 정보를 유지하고 전파하기 위해 두 가지 유형의 학습 가능한 쿼리를 도입합니다.

프레임 레벨 순환 쿼리 (Frame-level Recurrent Queries):
- 목적: 단기 기억 (Short-term memory) 유지.
- 동작: 매 프레임 (시간 단계) 마다 업데이트됩니다.
- 기능: 직전 프레임의 컨텍스트를 전달하여 물체의 현재 상태, 진행 중인 행동, 즉각적인 시간적 의존성을 추적합니다.
청크 레벨 순환 쿼리 (Chunk-level Recurrent Queries):
- 목적: 장기 기억 (Long-term memory) 유지.
- 동작: 특정 시간 간격 (예: K 프레임마다, '청크' 단위) 에서만 업데이트됩니다.
- 기능: 프레임 레벨 쿼리가 초기 컨텍스트를 덮어쓰는 것을 방지하고, 작업의 전체적인 진행 상황, 초기 물체 배치 등 장기간의 의존성을 안정적으로 유지합니다.

B. 메모리 전파 메커니즘 (Gradient-Free Update)

고정된 EMA 업데이트: 메모리 쿼리의 업데이트 경로는 학습 가능한 역전파가 아닌, 고정된 지수 이동 평균 (Exponential Moving Average, EMA) 을 사용하여 수행됩니다.
- 수식: $Q_t = \beta \cdot \tilde{Q}_{t-1} + (1-\beta) \cdot Q_{t-1}$
- 의미: "어떤 정보를 기억할지"는 쿼리가 학습하지만, "기억이 어떻게 전파되는지"는 고정된 메커니즘으로 처리합니다. 이는 TBPTT 의 제한을 우회하여 장기 기억 학습을 가능하게 합니다.

C. 과거 관찰 예측 (Past Observation Prediction, POP)

목적: 시각적 기억 (Visual Memory) 강화.
동작: 모델이 과거의 RGB 이미지를 재구성 (Reconstruct) 하도록 하는 보조 손실 함수 (Auxiliary Loss) 를 도입합니다.
효과: 모델이 과거의 시각적 단서를 명확히 기억하도록 유도하여, 현재 결정을 내릴 때 과거의 시각적 정보를 효과적으로 활용하게 합니다.

D. 학습 전략: 슬롯 기반 스트리밍 배치 (Slot-based Streaming Batching)

가변 길이의 에피소드를 효율적으로 배치 처리하기 위해, 각 에피소드를 고정된 청크로 자르는 대신 독립적인 '슬롯 (Slot)' 을 유지합니다.
각 슬롯은 하나의 에피소드를 실시간으로 추적하며 매 스텝마다 한 프레임씩 기여합니다. 에피소드가 끝나면 순환 상태를 강제로 초기화하여 에피소드 간 정보 유출을 방지합니다.

3. 주요 기여 (Key Contributions)

ReMem-VLA 아키텍처 제안: 단기 (프레임 레벨) 와 장기 (청크 레벨) 기억을 동시에 처리하는 이중 순환 쿼리 메커니즘을 갖춘 최초의 VLA 모델 중 하나입니다.
새로운 학습 패러다임: 가변 길이의 에피소드를 시간적 연속성을 깨지 않고 배치 학습할 수 있는 '슬롯 기반 스트리밍' 방식을 도입했습니다.
시각적 기억 강화 전략: 과거 RGB 이미지 재구성을 통해 시각적 기억력을 향상시키는 'Past Observation Prediction'을 도입했습니다.
광범위한 검증: 시뮬레이션 및 실제 로봇 실험을 통해 공간, 시간, 일화적 (episodic), 순차적, 시각적 기억 등 다양한 차원에서 기존 모델보다 뛰어난 성능을 입증했습니다.

4. 실험 결과 (Results)

시뮬레이션 (MemoryBench 및 확장 작업)

비교 대상: OpenVLA-OFT, $\pi0.5$ , MemoryVLA (검색 기반).
성과: ReMem-VLA 는 평균 성공률 94.5% 를 기록하여, 차기 모델인 $\pi0.5$ (8.25%) 나 검색 기반 모델인 MemoryVLA(1.5%) 를 압도적으로 능가했습니다.
특히: 600 프레임 이상의 긴 작업 (Long Horizon Task) 에서 기존 모델이 0% 에 가까운 성능을 보인 반면, ReMem-VLA 는 86% 의 성공률을 달성했습니다.

실제 로봇 실험 (Real-world)

작업: 꽃에 물 주기 (시간 기억), 밥 두 숟가락 퍼 넣기 (일화적 기억), 버튼 순서 누르기 (순차 + 시간 기억), 과일 원래 위치로 돌리기 (시각 기억).
성과: ReMem-VLA 는 평균 82.5% 성공률을 기록하여, baselines 인 MemoryVLA(8%) 와 $\pi0.5$ (11%) 보다 월등히 높은 성능을 보였습니다.
Ablation Study:
- 순환 쿼리가 없으면 기억 능력이 완전히 붕괴됨.
- 프레임 레벨만 있으면 장기 기억 실패, 청크 레벨만 있으면 단기 기억 (버튼 누르기 등) 실패. 이중 레벨이 필수적임.
- 과거 관찰 예측 (POP) 은 시각 기억이 필요한 작업 (과일 돌리기) 에서 성공률을 34% 에서 82% 로 크게 향상시킴.
- 학습 가능한 순환 경로 (Trainable Recurrence) 를 사용하면 오히려 기억 능력이 떨어지며, 고정된 (Gradient-free) 업데이트가 장기 기억에 필수적임이 확인됨.

5. 의의 및 결론 (Significance)

이 논문은 VLA 모델이 마르코프적 한계를 극복하고 인간과 유사하게 과거의 맥락을 활용하여 복잡한 장기 작업을 수행할 수 있음을 입증했습니다.

기술적 혁신: 단순한 윈도우 확장이나 검색 메커니즘이 아닌, 학습 가능한 쿼리와 고정된 전파 메커니즘의 결합을 통해 효율적이고 강력한 기억 시스템을 구축했습니다.
실용성: 실제 로봇 제어 환경에서도 다양한 기억 요구 사항 (시간, 공간, 시각 등) 을 충족하며, 장기 작업 수행 능력을 획기적으로 개선했습니다.
향후 과제: 대규모 로봇 데이터셋을 통한 사전 학습 (Pre-training) 을 통해 일반화 능력을 더욱 향상시키는 것이 향후 과제로 제시되었습니다.

요약하자면, ReMem-VLA는 VLA 모델에 내재된 기억 능력을 체계적으로 강화하여, 로봇이 과거 경험을 바탕으로 더 지능적이고 장기적인 작업을 수행할 수 있게 하는 획기적인 접근법입니다.

ReMem-VLA: Empowering Vision-Language-Action Model with Memory via Dual-Level Recurrent Queries