Seeing Space and Motion: Enhancing Latent Actions with Geometric and Dynamic Awareness for Vision-Language-Action Models

이 논문은 공간 이해와 시간적 지각의 한계를 극복하기 위해 기하학적 인식을 갖춘 Farsighted-LAM 과 시각적 사고 과정을 통합한 SSM-VLA 를 제안하여, 시뮬레이션 및 실제 환경에서 최첨단 성능을 보이는 견고한 체화 지능 모델을 제시합니다.

Zhejia Cai, Yandan Yang, Xinyuan Chang, Shiyi Liang, Ronghan Chen, Feng Xiong, Mu Xu, Ruqi Huang

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 로봇이 세상을 더 똑똑하게 보고, 미래를 예측하며, 자연스럽게 움직일 수 있도록 돕는 새로운 기술인 SSM-VLA에 대해 설명합니다.

기존 로봇들은 "지금 보이는 것"만 보고 "지금 당장 할 일"을 결정하는 경우가 많았습니다. 하지만 이 새로운 방법은 **"먼저 머릿속으로 미래를 상상한 뒤, 그 상상을 바탕으로 행동한다"**는 아이디어를 적용했습니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제점: 로봇의 "눈"과 "시간 감각" 부족

기존 로봇들은 두 가지 큰 약점이 있었습니다.

  • 눈이 나빴습니다 (공간 감각 부족): 로봇이 물체를 볼 때, 단순히 "빨간색 상자"라고만 인식하지, "상자가 책상 위에 있고, 그 아래에 서랍이 있다"는 3 차원적인 구조를 제대로 이해하지 못했습니다. 마치 2D 그림만 보고 3D 세상을 이해하려는 것과 비슷합니다.
  • 시간 감각이 짧았습니다 (동작 예측 부족): 로봇이 "지금"과 "1 초 뒤"만 보다가 행동을 결정했습니다. 그래서 "컵을 잡으려면 먼저 손가락을 벌려야 하고, 그다음에 들어올려야 한다"는 연속적인 흐름을 놓쳐서 자주 실패했습니다.

2. 해결책: SSM-VLA 의 세 가지 마법

이 연구팀은 로봇에게 세 가지 능력을 길러주었습니다.

① "투명한 안경"을 끼게 했다 (기하학적 인식)

기존 로봇은 물체의 색깔이나 질감만 보았지만, 이 모델은 DINOv2라는 강력한 안경을 끼게 했습니다. 이 안경은 물체의 표면뿐만 아니라 **깊이 (Depth)**와 구조를 볼 수 있게 해줍니다.

  • 비유: 마치 어둠속에서 물체를 볼 때, 단순히 형체만 보는 게 아니라 "저 물체는 얼마나 멀리 있고, 어떤 모양으로 놓여 있는가"를 정확히 파악하는 3D 안경을 쓴 것과 같습니다.

② "시간 여행"을 가르쳤다 (멀티 스케일 시간 모델링)

로봇에게 "지금"과 "10 초 뒤"의 상황을 동시에 보게 했습니다.

  • 비유: 체스 선수가 한 수를 두기 전에 "다음 3~4 수 뒤의 판"을 미리 상상하는 것과 같습니다. 로봇은 "손을 뻗으면 1 초 뒤에는 컵이 흔들리고, 2 초 뒤에는 떨어질 수 있다"는 동적인 흐름을 미리 계산합니다.

③ "머릿속 시뮬레이션"을 실행했다 (시각적 사고 Chain-of-Thought)

이게 가장 중요한 부분입니다. 로봇이 바로 행동을 하지 않고, "먼저 머릿속으로 미래를 그려본 뒤" 행동을 합니다.

  • 비유: 요리사가 요리를 하기 전에 "재료를 자르면 어떻게 변할까?", "냄비에 넣으면 어떻게 끓을지"를 상상하고 나서 실제로 손길을 움직이는 것과 같습니다.
    1. 상상 (Visual CoT): "내가 이 상자를 열면, 서랍이 어떻게 열릴지"를 머릿속 영상으로 봅니다.
    2. 계획 (잠재 행동): 그 상상에 맞춰 "어떻게 움직여야 할지" 추상적인 계획을 세웁니다.
    3. 실행 (행동): 최종적으로 로봇 팔을 움직입니다.

3. 실제 성과: 로봇이 얼마나 똑똑해졌나요?

이 기술을 적용한 로봇은 다음과 같은 놀라운 성과를 냈습니다.

  • 복잡한 미션 성공: "서랍을 열고, 빨간 블록을 꺼내서, LED 를 켜고, 다시 서랍을 닫아라"처럼 여러 단계로 이어진 복잡한 일도 잘 해냈습니다.
  • 새로운 환경 적응: 훈련받지 않은 새로운 방 (환경 D) 에 가도, 배운 원리를 응용해 잘 작동했습니다.
  • 실제 로봇 테스트: 시뮬레이션뿐만 아니라 실제 로봇 팔 (AgileX Piper) 을 이용해 장난감을 상자에 넣는 실험에서도 성공했습니다.

4. 핵심 요약

이 논문은 로봇에게 **"세상을 3D 로 제대로 보고, 시간을 건너뛰어 미래를 상상하며, 그 상상을 바탕으로 행동하는 능력"**을 심어주었습니다.

기존의 로봇이 **"보고 -> 바로 행동"**했다면, 이 새로운 로봇은 **"보고 -> 미래를 상상하고 구조를 파악 -> 계획 세우기 -> 행동"**이라는 과정을 거칩니다. 마치 인간이 복잡한 일을 할 때 머릿속으로 시뮬레이션을 돌려보는 것과 똑같은 원리입니다.

이 기술은 로봇이 더 안전하고, 똑똑하며, 인간처럼 유연하게 일할 수 있는 미래를 여는 중요한 한 걸음입니다.