Each language version is independently generated for its own context, not a direct translation.

드림토내브 (DreamToNav): 로봇이 "꿈"을 꾼다는 것

이 논문은 로봇이 복잡한 미로를 지나거나 사람들과 함께 이동할 때, 기존의 딱딱한 명령어 대신 자연스러운 말로 지시를 내리면 어떻게 움직일지 스스로 "꿈"을 꾼 뒤 그 꿈을 현실로 실현하는 새로운 기술을 소개합니다.

이 기술을 **'드림토내브 (DreamToNav)'**라고 부릅니다. 이름에서 알 수 있듯, 로봇이 작업을 수행하기 전에 머릿속으로 미래의 영상을 만들어보는 (꿈꾸는) 과정을 거칩니다.

이 기술이 어떻게 작동하는지, 마치 마법 같은 요리사의 이야기를 통해 쉽게 설명해 드릴게요.

1. 문제: 로봇은 "그냥 저기 가"라는 말을 못 알아듣습니다

기존 로봇들은 "A 지점에서 B 지점으로 1 초에 1 미터씩 이동해"처럼 매우 구체적이고 수학적인 명령을 받아야 했습니다. 하지만 사람이 "저 사람한테 정중하게 따라가 줘"라고 말하면, 로봇은 "정중함"이 무엇인지, "따라가다"가 어떤 간격을 유지하는지 알 수 없어 당황합니다.

2. 해결책: 로봇의 "상상력"을 깨우다

드림토내브는 로봇에게 세 가지 단계를 거쳐 문제를 해결하게 합니다.

1 단계: "요리사"가 주문을 구체화합니다 (질문 정리)

사용자가 "저 사람한테 가"라고 하면, 로봇은 먼저 **Qwen 이라는 똑똑한 AI(질문 정리 전문가)**에게 질문을 넘깁니다.

비유: 당신이 식당에서 "맛있는 거 하나 주세요"라고 하면, 웨이터가 "아, 매운 게 싫으시죠? 오늘 생선구이가 맛있는데, 그걸로 드릴까요?"라고 구체적으로 확인하는 것과 같습니다.
AI 는 "사람을 따라가되, 너무 가까이 가지 말고, 의자를 피해서 부드럽게 이동해"라는 구체적인 영상 설명으로 바꿉니다.

2 단계: "영화 감독"이 미래를 촬영합니다 (영상 생성)

이제 **NVIDIA Cosmos 라는 AI(영화 감독)**가 등장합니다. 이 AI 는 물리 법칙을 잘 아는 세계 모델입니다.

비유: 감독이 대본 (구체적인 설명) 을 받고, 현재 장면을 보며 "다음 10 초 동안 로봇이 의자를 피해 부드럽게 움직이는 장면"을 실사 영화처럼 만들어냅니다.
중요한 점은 이 영화가 단순히 예쁜 그림이 아니라, 물리적으로 가능한 현실적인 움직임을 보여준다는 것입니다. 로봇이 벽을 뚫고 지나가는 엉터리 영화는 만들지 않습니다.

3 단계: "감독"이 촬영된 영상을 분석해 길찾기 지도를 만듭니다 (궤적 추출)

AI 가 만들어낸 미래 영상을 보고, 로봇은 **"아, 내가 저렇게 움직였구나!"**라고 깨닫습니다.

비유: 영화가 끝난 후, 카메라가 로봇의 움직임을 쫓아다니며 **"이렇게 움직였을 때 좌표는 이렇고, 장애물은 이렇게 피했구나"**라는 **정밀한 길찾기 지도 (궤적)**를 만들어냅니다.
이 지도를 실제 로봇에게 주면, 로봇은 그 지도대로 움직입니다.

3. 실험 결과: 로봇이 실제로 성공했을까요?

연구진은 바퀴 달린 로봇 (UGV) 과 네 발로 걷는 로봇 (개 로봇) 두 가지에 이 기술을 적용해 보았습니다.

상황: 복잡한 방 안에서 장애물을 피하고 목표물 (빨간색/파란색 상자) 로 가거나, 사람 뒤를 따라가는 미션.
결과:
- 성공률: 10 번 중 약 7.7 번 성공 (76.7%).
- 정확도: 목표 지점에 도착했을 때 오차가 10~20cm 이내로 매우 정확했습니다. (사람 키의 1/5~1/10 정도 오차)
- 특이점: 바퀴 로봇과 네 발 로봇 모두 같은 방식으로 작동했습니다. 로봇의 모양이 달라도 "꿈"을 꾼 뒤 그 꿈을 따라가는 방식은 동일하게 적용된 것입니다.

4. 왜 이 기술이 특별한가요? (핵심 요약)

직관적인 소통: 복잡한 코딩이나 좌표 입력 없이, "사람을 조심해서 따라가 줘"처럼 일상적인 말로 로봇을 조종할 수 있습니다.
시각적 사고: 로봇이 움직이기 전에 미래의 영상을 미리 만들어보고, 그 영상을 보고 "이게 맞는 길이야"라고 판단합니다. 마치 우리가 길을 찾을 때 지도를 보며 "아, 저기서 우회전해야겠다"라고 상상하는 것과 비슷합니다.
범용성: 로봇의 종류 (바퀴, 다리 등) 나 환경 (실내, 복잡한 공간) 에 상관없이 적용 가능한 유연한 시스템입니다.

결론

드림토내브는 로봇에게 "계산기"가 아닌 **"상상력"**을 선물한 기술입니다. 로봇이 인간의 말을 듣고, 머릿속으로 미래의 움직임을 영화처럼 그려본 뒤, 그 영화를 현실로 구현하게 함으로써 훨씬 더 자연스럽고 지능적인 로봇을 만드는 길을 열었습니다.

앞으로 우리는 로봇에게 "저기 있는 컵을 조심스럽게 가져와"라고 말하면, 로봇이 그 컵을 집는 과정을 머릿속으로 그려본 뒤 부드럽게 움직이는 모습을 보게 될지도 모릅니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

기존의 로봇 자율 항법 시스템은 주로 경로의 매핑, 국소화, 궤적 최적화를 단계별로 수행하며, 수작업으로 설계된 비용 함수 (Cost Function) 나 규칙 기반 플래너에 의존합니다. 이러한 접근 방식은 다음과 같은 한계가 있습니다:

자연어 명령의 해석 부족: "그 사람을 정중하게 따라가라"와 같은 고수준의 자연어 명령은 사회적 거리, 타이밍, 맥락적 이해 등 복잡한 공간 추론을 요구하지만, 기존 시스템은 이를 정교하게 처리하기 어렵습니다.
비정형 환경의 제약: 명확한 레인 (Lane) 이나 맵이 없는 비정형 실내/실외 환경에서 사회적 단서 (Social Cues) 를 이해하고 장애물을 회피하는 유연한 행동을 구현하는 것이 어렵습니다.
전용 엔지니어링 필요: 새로운 작업이나 환경을 위해 매번 비용 함수를 조정하거나 학습 데이터를 수집해야 하는 번거로움이 있습니다.

2. 방법론 (Methodology)

DreamToNav 는 **"비디오 생성을 계획 (Planning) 의 엔진으로 활용"**하는 새로운 패러다임을 제시합니다. 로봇이 실제 행동을 실행하기 전에 생성형 비디오 모델을 통해 미래의 행동을 '꿈꾸는 (Dreaming)' 과정을 거칩니다. 시스템은 크게 세 가지 단계로 구성됩니다.

A. 프롬프트 정제 (Prompt Refinement) - Qwen 2.5-VL

입력: 현재 카메라 프레임 이미지 ( $I_0$ ) 와 사용자의 모호한 자연어 명령 (예: "거기로 가라").
프로세스: Qwen 2.5-VL-7B-Instruct 를 사용하여 모호한 명령을 정밀한 시각적 설명으로 변환합니다.
1. 장면 기반화 (Scene Grounding): 이미지 내 주요 객체, 공간 관계, 장애물을 식별합니다.
2. 참조 해결 (Reference Resolution): "그것", "저기"와 같은 모호한 표현을 감지된 구체적 객체에 연결합니다.
3. 운동 분해 (Motion Decomposition): 고수준 의도를 시각적 설명 (방향, 속도, 사회적 거리 제약 등) 으로 분해합니다.
출력: "의자를 피하기 위해 1m/s 로 전진하며 30 도 왼쪽으로 부드럽게 꺾은 후 복도 출구를 향해 중앙으로 복귀한다"와 같은 구조화된 시각적 설명 ( $\hat{p}$ ).

B. 비디오 생성 (Video Generation) - NVIDIA Cosmos 2.5

모델: 물리적 상호작용 데이터로 사전 학습된 세계 기반 모델 (World Foundation Model) 인 NVIDIA Cosmos 2.5 를 사용합니다.
프로세스: 정제된 프롬프트 ( $\hat{p}$ $\overset{p}{^}$ ) 와 초기 프레임 ( $I_0$ $I_{0}$ ) 을 조건 (Condition) 으로 받아, 물리적으로 일관된 미래 비디오 시퀀스를 생성합니다.
- 이중 조건부 생성: 텍스트 (운동 의도) 와 시각적 컨텍스트 (장면 기하학) 를 동시에 고려하여 현실적인 운동 제약과 객체 영속성을 반영합니다.
- 제 3 자 시점 (TPV): 로봇의 위치와 장애물 간의 공간적 관계를 명확히 파악하기 위해, 로봇의 운동을 전역 관점에서 보여주는 합성 제 3 자 시점 (Third-Person View) 비디오를 추가로 생성합니다.

C. 궤적 추출 및 실행 (Trajectory Extraction & Execution)

생성된 비디오에서 실제 로봇이 실행할 수 있는 운동 궤적을 추출합니다.

로봇 감지: YOLO11n 모델을 사용하여 생성된 비디오 프레임 및 실제 프레임에서 로봇 (바퀴형 UGV 또는 4 족 로봇) 을 탐지합니다.
포즈 추정:
- 시각 오도메트리 (Visual Odometry): ORB-SLAM3 를 사용하여 가상 카메라의 6 자유도 (6-DoF) 포즈를 추정합니다.
- PnP 알고리즘: 탐지된 로봇의 2D 바운딩 박스와 알려진 3D 로봇 모델을 기반으로 IPPE 기반 PnP (Perspective-n-Point) 알고리즘을 사용하여 로봇의 3D 포즈를 복원합니다.
필터링 및 변환: 확장 칼만 필터 (EKF) 를 적용하여 노이즈를 줄이고 시간적 일관성을 확보한 후, 카메라 좌표계를 세계 좌표계로 변환하여 최종 궤적 ( $T_r$ ) 을 생성합니다.
실행: 추출된 2D 궤적을 실제 로봇에 전송하여 실행합니다.

3. 주요 기여 (Key Contributions)

비디오 기반 계획 (Video-as-Planning) 의 확장: 드론이나 자율주행차에 국한되었던 생성형 비디오 계획 패러다임을 지상형 (바퀴형) 및 4 족 로봇 등 다양한 로봇 플랫폼으로 확장했습니다.
직관적인 인간 - 로봇 상호작용 (HRI): 명시적인 경로나 웨이포인트 정의 없이, 장면 이미지와 자연어 명령만으로 복잡한 항법 작업 (장애물 회피, 사람 따르기 등) 을 수행할 수 있는 새로운 인터페이스를 제시했습니다.
작업 특화 엔지니어링 불필요: 별도의 보상 함수 설계나 작업별 학습 데이터 없이, 생성형 모델의 물리 인식 능력과 추론 능력을 결합하여 다양한 명령을 처리합니다.
투명한 계획 (Transparent Planning): 생성된 비디오는 로봇의 의도된 행동을 인간이 실행 전에 시각적으로 검토할 수 있게 하여, 블랙박스 형태의 계획에 대한 신뢰성을 높입니다.

4. 실험 결과 (Results)

실험 환경: 실내 복잡한 환경에서 바퀴형 이동 로봇 (UGV) 과 4 족 로봇 (Quadruped) 을 대상으로 테스트했습니다.
성능 지표:
- 성공률: 총 30 회 실험 중 23 회 성공 (76.7%).
- 최종 목표 오차: 성공적인 실행 시 목표 지점과의 거리가 0.05~0.10m 이내.
- 궤적 추적 오차: 전체 경로에서 실제 로봇 궤적과 생성된 궤적의 편차가 0.15m 미만 (평균 0.03~0.08m).
범용성: 동일한 파이프라인을 바퀴형과 4 족 로봇에 모두 적용하여 성공적으로 작동함을 입증했습니다. 4 족 로봇의 복잡한 보행 특성과 장애물 회피 동작도 생성된 비디오에서 정확히 예측되어 실행되었습니다.

5. 의의 및 결론 (Significance & Conclusion)

DreamToNav 는 로봇 제어 분야에서 생성형 비디오 모델을 계획 메커니즘으로 활용할 수 있음을 실증적으로 증명했습니다.

의의: 복잡한 물리 법칙과 사회적 규범을 내포한 자연어 명령을 로봇의 구체적인 운동 궤적으로 변환하는 새로운 접근법을 제시했습니다. 이는 전통적인 기하학적 플래너의 한계를 넘어, 로봇이 "상상 (Imagination)"을 통해 행동을 계획하고 실행하는 단계로 나아가는 중요한 전환점이 됩니다.
한계 및 향후 과제: 생성된 비디오가 장면 레이아웃을 잘못 표현하거나 포즈 추정 오차가 누적될 경우 실패할 수 있습니다. 향후 연구에서는 궤적 추출의 강건성 향상, 생성 과정에 물리적 제약의 명시적 통합, 더 복잡하고 다양한 환경에서의 평가가 필요할 것으로 보입니다.

요약하자면, DreamToNav 는 **"로봇이 미래의 행동을 비디오로 꿈꾸고, 그 꿈에서 실제 움직임을 추출하여 실행한다"**는 혁신적인 아이디어를 통해, 자연어 기반의 직관적이고 유연한 로봇 항법 시스템을 실현했습니다.

DreamToNav: Generalizable Navigation for Robots via Generative Video Planning