ReMem-VLA: Empowering Vision-Language-Action Model with Memory via Dual-Level Recurrent Queries

이 논문은 단기 및 장기 기억을 위해 프레임 수준과 청크 수준의 순환 쿼리를 도입하고 과거 관측 예측 보조 목표를 통해 기존 비기억 VLA 모델의 한계를 극복하고 다양한 기억 의존적 작업에서 뛰어난 성능을 보이는 ReMem-VLA 모델을 제안합니다.

Hang Li, Fengyi Shen, Dong Chen, Liudi Yang, Xudong Wang, Jinkui Shi, Zhenshan Bing, Ziyuan Liu, Alois Knoll

게시일 2026-03-16
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🤖 로봇에게 '기억력'을 심어주다: ReMem-VLA 소개

이 논문은 로봇이 단순히 "지금 보이는 것"만 보고 행동하는 것이 아니라, "과거의 경험"을 기억하고 활용할 수 있도록 만든 새로운 인공지능 모델, ReMem-VLA를 소개합니다.

기존 로봇들은 마치 아몬드 버터 (Short-term memory) 를 먹은 사람처럼, 방금 전 상황을 잊어버리고 현재 순간에만 반응하는 경향이 있었습니다. 하지만 우리는 로봇에게 장기 기억과 단기 기억을 모두 갖춘 '완전한 인간'처럼 행동하게 하고 싶었습니다.

이제 이 기술이 어떻게 작동하는지, 일상적인 비유로 쉽게 설명해 드릴게요.


1. 왜 로봇은 기억이 필요할까요? (문제 상황)

기존 로봇 AI 는 마치 "지금 이 순간"만 보는 카메라처럼 작동했습니다.

  • 예시: 로봇에게 "컵을 원래 있던 곳으로 돌려놔"라고 시켰다고 가정해 봅시다.
  • 기존 로봇의 문제: 로봇은 컵이 어디에 있었는지 이전에 본 기억이 없습니다. 지금 컵이 어디 있는지만 보고 "아, 컵이 여기 있네?"라고 생각할 뿐, "아, 원래는 저기 있었지!"라고 기억해내지 못합니다.
  • 결과: 로봇은 과거의 맥락을 잊어버려서 복잡한 작업을 실패합니다.

2. ReMem-VLA 의 핵심 아이디어: "두 가지 종류의 메모리"

이 연구팀은 로봇에게 **두 가지 종류의 '기억 노트'**를 만들어주었습니다. 마치 우리가 일상생활을 할 때 사용하는 두 가지 메모 방식과 비슷합니다.

📝 1. 단기 메모리 (Frame-level): "방금 전의 일기"

  • 비유: 당신이 친구와 대화할 때, 방금 전 3~4 마디를 기억하고 있는 상태입니다.
  • 역할: 로봇이 몇 초 전에 무엇을 했는지, 물체의 위치가 방금 어떻게 변했는지 빠르게 기억합니다.
  • 작동 방식: 매 프레임 (화면) 마다 업데이트되어, 로봇이 순간적인 동작을 부드럽게 이어가게 도와줍니다. (예: 컵을 들고 있는 동안 떨어뜨리지 않게 유지)

📚 2. 장기 메모리 (Chunk-level): "과거의 일기장"

  • 비유: 지난주에 무엇을 했는지, 혹은 오늘의 전체 일정을 기억하는 상태입니다.
  • 역할: 로봇이 수십 초, 수 분 전에 일어난 일을 기억합니다. "내가 1 분 전에 버튼을 눌렀었지, 이제 다음 단계로 넘어가야 해"라고 생각하게 합니다.
  • 작동 방식: 짧은 시간 (예: 30 프레임) 단위로 정보를 요약해서 저장합니다. 이렇게 하면 과거의 중요한 정보가 계속 쌓여 사라지지 않습니다.

💡 핵심 포인트: 기존 연구는 이 두 가지를 따로따로 하거나, 기억을 검색하는 방식 (도서관에서 책 찾기) 을 썼는데, 이는 **방해 요소 (Distractor)**에 쉽게 혼란을 겪거나 검색 시간이 오래 걸리는 문제가 있었습니다. ReMem-VLA 는 이 두 메모리를 자연스럽게 연결하여 로봇이 스스로 기억을 관리하게 합니다.

3. 로봇의 눈을 훈련시키는 비법: "과거 사진 복원하기"

이 모델의 또 다른 재주는 시각 기억력을 강화하는 것입니다.

  • 비유: 로봇에게 "어제 본 사진을 다시 그려보게" 하는 훈련을 시켰습니다.
  • 작동 원리: 로봇이 현재 행동을 결정할 때, 단순히 "지금 보이는 것"만 보는 게 아니라, **"방금 전에는 어떤 장면이 보였지?"**라고 스스로에게 물어보고, 그 과거의 이미지를 다시 그려내는 (예측하는) 훈련을 합니다.
  • 효과: 이렇게 하면 로봇은 과거의 시각적 단서 (예: "아, 저기 사과가 있었지") 를 더 선명하게 기억하게 되어, "사과를 원래 위치로 돌려놔" 같은 작업을 훨씬 잘 수행합니다.

4. 실험 결과: 로봇이 얼마나 똑똑해졌나요?

연구팀은 시뮬레이션과 실제 로봇 (UR5 팔) 을 이용해 실험했습니다.

  • 과제 예시:
    1. 물 주기: 6 초 동안 물 주는 자세를 유지하기 (시간 기억력 테스트).
    2. 밥 두 숟가락 퍼기: 정확히 두 번만 퍼서 냄비에 넣기 (순서 기억력 테스트).
    3. 과일 돌려놓기: 원래 있던 곳으로 과일을 돌려놓기 (시각 기억력 테스트).
  • 결과:
    • 기존 로봇 (기억력 없음): 8~11% 성공률.
    • 기존 기억력 모델: 15% 성공률.
    • ReMem-VLA (우리 모델): 82.5% 성공률! 🎉
    • 로봇이 과거를 기억하면서 복잡한 작업을 거의 완벽하게 수행했습니다.

5. 결론: 로봇에게 '지혜'를 심다

이 논문은 로봇이 **Markov 가정 (현재 상태만 보고 결정)**이라는 좁은 틀에서 벗어나, 과거의 경험을 바탕으로 미래를 예측할 수 있게 만들었습니다.

  • 단기 기억으로 순간적인 동작을 안정화하고,
  • 장기 기억으로 복잡한 작업 순서를 잊지 않으며,
  • 과거 이미지 복원으로 시각적 단서를 명확히 기억하게 했습니다.

이제 로봇은 단순히 "지금"만 보는 기계가 아니라, "과거를 기억하고 미래를 계획하는" 더 똑똑한 파트너로 진화하고 있습니다. 마치 우리가 어제의 경험을 바탕으로 오늘을 살아가듯, 로봇도 이제 과거의 경험을 통해 더 현명한 행동을 할 수 있게 된 것입니다! 🚀