Kinodynamic Task and Motion Planning using VLM-guided and Interleaved Sampling

Each language version is independently generated for its own context, not a direct translation.

이 논문은 로봇이 복잡한 일을 할 때 **"무엇을 할지 (작업 계획)"**와 **"어떻게 움직일지 (운동 계획)"**를 동시에 잘 해결하는 새로운 방법을 소개합니다.

기존의 로봇들은 일을 계획할 때 두 가지 큰 문제를 겪곤 했습니다.

LLM(거대 언어 모델) 의 한계: "먼저 빨간 블록을 집어라"는 말은 잘 이해하지만, "그 블록이 실제로 잡히기엔 너무 멀리 있거나, 잡으면 넘어질 거야" 같은 3 차원 공간적, 물리적 문제는 잘 못 파악합니다.
기존 방법의 비효율: 로봇이 "집어라"라고 계획하고 시뮬레이션해보니 "아, 안 잡히네!"라고 실패하면, 처음부터 다시 계획을 세우거나 무작위로 수천 번을 시도하다 지쳐버립니다.

저자들은 이 문제를 해결하기 위해 VLM(시각 언어 모델) 이 눈과 뇌 역할을 하는 새로운 로봇 계획 시스템을 만들었습니다.

🍳 비유로 설명하는 이 기술의 핵심

이 시스템을 이해하기 위해 **요리사 (로봇)**와 **식당 (환경)**을 상상해 보세요.

1. 기존 방식의 문제점: "눈가림한 요리사" vs "무작위 시식"

기존 LLM 기반 방식: 요리사가 메뉴판 (텍스트) 만 보고 "스테이크를 굽고, 감자를 튀겨라"라고 지시를 내립니다. 하지만 실제 주방으로 가서 보니, 감자가 너무 커서 프라이팬에 안 들어갑니다. 요리사는 "감자를 잘라야지"라고 생각하지만, 3D 공간감각이 부족해 "감자를 어떻게 자르면 될지" 구체적인 방법을 못 찾습니다.
기존 전통적 방식: 요리사가 "감자를 자르자"고 생각하면, 주방 구석구석에서 무작위로 칼을 휘두르며 시도합니다. "아, 안 되네"하면 다시 다른 각도로 시도하고, 또 안 되면 다시 시도합니다. 시간이 너무 오래 걸려요.

2. 이 논문이 제안한 방식: "눈을 가진 스마트 요리사"

이 새로운 시스템은 세 가지 친구가 팀을 이루어 일합니다.

🧠 1. 두뇌 (Top-k 심볼릭 플래너):
"먼저 감자를 자르고, 그다음 스테이크를 굽고, 마지막에 접시에 담아야 해"라는 **작업 순서 (스토리)**를 여러 가지 버전으로 먼저 짭니다. (예: 30 가지 시나리오)
🏗️ 2. 시공 전문가 (물리 시뮬레이터 & 모션 플래너):
두뇌가 짠 시나리오를 바로 가상 주방에서 시뮬레이션해 봅니다. "이 각도로 칼을 내리면 감자가 미끄러질까?", "로봇 팔이 벽에 부딪힐까?"를 물리 법칙에 따라 정확히 계산합니다.
👁️ 3. 감식안 있는 감독 (VLM - 시각 언어 모델):
이것이 이 논문의 핵심입니다. 시뮬레이터가 "아, 이 시나리오는 실패할 것 같아"라고 말하면, 감독 (VLM) 이 실제 시뮬레이션 화면을 보고 판단합니다.
- "저기 감자가 너무 멀리 있네? 그건 나중에 하고, 먼저 옆에 있는 양파를 치우자."
- "아까 그 시나리오는 실패했어? 그럼 과거로 돌아가서 (Backtracking) '감자를 자르기 전에 먼저 식탁을 정리하는' 다른 시나리오로 다시 가자."

3. 작동 원리: "실패하면 바로 뒤로 돌아가서 다른 길 찾기"

기존 방식은 실패하면 "왜 실패했지?"를 텍스트로만 분석하거나, 무작위로 다시 시도했습니다. 하지만 이 시스템은 **VLM 이 화면을 보며 "아, 저기 장애물이 있어서 안 된 거야. 그럼 장애물을 치우는 다른 계획을 선택하자"**라고 시각적 단서를 통해 바로 과거의 성공적인 단계로 돌아갑니다.

이를 통해 로봇은 수천 번의 무작위 시도 없이도, 가장 유망한 길을 찾아냅니다.

📊 실제 성과는 어땠나요?

연구팀은 두 가지 환경에서 실험을 했습니다.

블록 쌓기 (Blocksworld): 블록을 쌓고 치우는 게임.
- 결과: 기존 방법들은 블록이 6 개만 되어도 0% 성공률이거나 시간이 너무 오래 걸려서 포기했습니다. 하지만 이 방법은 80~100% 성공률을 기록했습니다.
부엌 요리 (Kitchen): 식재료를 씻고, 요리하고, 접시에 담는 복잡한 작업.
- 결과: 기존 방법들은 식재료가 많으면 충돌을 피하지 못해 실패했습니다. 이 방법은 95% 이상의 성공률을 보였습니다.

가장 놀라운 점:

성공률: 기존 방법보다 최대 11 배 이상 (1166%) 성공률이 높아졌습니다.
시간: 복잡한 문제일수록 훨씬 빠르게 정답을 찾았습니다.
실제 로봇: 시뮬레이션뿐만 아니라, 실제 로봇 팔을 가지고 실험해도 거의 같은 좋은 결과를 냈습니다.

💡 요약: 왜 이 기술이 중요한가요?

이 기술은 로봇에게 **"눈 (VLM)"**과 **"직관 (Backtracking)"**을 선물했습니다.

과거: 로봇은 "이게 안 되네"라고 하면 "그럼 저렇게 해볼까?"를 무작위로 시도하다가 지쳐버렸습니다.
현재: 로봇은 "이게 안 되네? 화면을 보니 저기 장애물이 있구나. 그럼 장애물을 치우는 다른 계획을 선택해서 다시 시작하자"라고 스스로 판단하고 효율적으로 다시 시작합니다.

이제 로봇은 복잡한 집 정리, 공장 작업, 심지어 요리 같은 긴 시간과 정교한 움직임이 필요한 일을 훨씬 더 똑똑하고 빠르게 할 수 있게 되었습니다. 마치 실수할 때마다 지도를 보고 가장 좋은 길로 다시 돌아가는 경험 많은 요리사가 된 것과 같습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

기존의 작업 및 운동 계획 (Task and Motion Planning, TAMP) 은 고수준의 작업 계획 (기호적 의사결정) 과 저수준의 운동 실행 가능성 (연속적인 기하학적/동역학적 제약) 을 통합합니다. 그러나 기존 방법론들은 다음과 같은 한계를 가집니다:

장기 계획 (Long-horizon) 의 비효율성: 작업 계획과 운동 계획이 분리되어 있어, 운동 실패 시 작업 계획을 처음부터 다시 생성하거나 무수히 많은 샘플링을 시도해야 하므로 계산 비용이 급증합니다.
LLM 의 한계: 대규모 언어 모델 (LLM) 은 상식적 추론은 가능하지만, 3D 공간 이해나 정밀한 기하학적/동역학적 실행 가능성 (충돌, 관성, 그립 안정성 등) 을 검증할 수 없습니다.
동역학적 제약의 부재: 많은 TAMP 시스템이 관성이나 동역학적 제약을 고려하지 않아, 실제 로봇이 실행 불가능한 경로를 생성할 수 있습니다.

이 논문은 이러한 문제들을 해결하기 위해 VLM(Visual Language Model) 기반의 시각적 피드백과 **교차 샘플링 (Interleaved Sampling)**을 활용한 새로운 Kinodynamic TAMP 프레임워크를 제안합니다.

2. 제안 방법론 (Methodology)

제안된 방법은 **하이브리드 상태 트리 (Hybrid State Tree)**를 기반으로 하며, 기호적 상태와 연속적 상태를 통합하여 계획합니다. 주요 구성 요소는 다음과 같습니다.

가. 하이브리드 상태 트리 및 교차 계획 (Hybrid State Tree & Interleaved Planning)

구조: 기호적 상태 (Symbolic State) 와 연속적 상태 (Continuous State, 예: 로봇 자세, 물체 위치) 를 결합한 하이브리드 상태 $h = (s, x)$ 로 트리를 구성합니다.
작동 방식:
1. 스켈레톤 생성: Top-k 기호적 플래너 (Fast-Downward 기반) 를 사용하여 다양한 작업 순서 (스켈레톤) 를 생성하고 이를 이산 상태 그래프 (Discrete State Graph) 로 매핑합니다.
2. 확장 (Expansion): 각 노드에서 기호적 행동에 연속적 파라미터 (그립 포즈, 로봇 구성, 운동 궤적) 를 샘플링합니다.
3. 검증: 샘플링된 행동을 물리 시뮬레이터 (Genesis) 에서 실행하여 충돌, 운동학적 제약, 그립 안정성, 물체 안정성 등을 즉시 검증합니다.

나. VLM 기반 탐색 및 백트래킹 (VLM-guided Search & Backtracking)

전향적 탐색 (Forward Search): 시뮬레이션 결과 (렌더링된 이미지) 와 현재 상태를 VLM 에 입력하여, 기하학적/동역학적 일관성이 높은 다음 상태를 선택하도록 탐색을 유도합니다.
후향적 백트래킹 (Backtracking):
- 특정 노드에서 $K$ 회 (기본값 5 회) 의 무작위 샘플링 재시도 후에도 실패하면, VLM 에게 현재 상태의 실패 원인 (시각적 이미지 + 텍스트 피드백) 을 분석하게 합니다.
- VLM 은 실패 원인을 파악하고, 탐색 트리의 이전 노드 (백트래킹 지점) 를 제안하여 재시작합니다. 이는 단순한 무작위 복귀가 아니라, 시각적 단서를 활용한 지능적인 복구를 가능하게 합니다.

3. 주요 기여 (Key Contributions)

새로운 TAMP 공식화: 기호적 작업 결정과 연속적 행동 인스턴스화를 통합한 하이브리드 상태 트리를 도입하여, 작업과 운동을 동시에 결정하는 교차 계획 방식을 정립했습니다.
VLM 의 이중 활용: VLM 을 단순한 작업 순서 생성기를 넘어, 시각적 피드백을 통한 탐색 유도 (Heuristic) 및 **실패 복구 (Backtracking)**를 위한 핵심 구성 요소로 활용했습니다.
동역학적 제약 통합: 물리 시뮬레이터를 통해 충돌, 관성, 그립 안정성 등 실제 로봇 실행에 필수적인 동역학적 제약을 계획 과정에 직접 반영했습니다.
광범위한 검증: 시뮬레이션 (Blocksworld, Kitchen) 과 실제 로봇 (UR5e) 환경에서의 실험을 통해 기존 방법론 대비 월등한 성능을 입증했습니다.

4. 실험 결과 (Results)

성공률 향상:
- Blocksworld 도메인: 기존 TAMP(PDDLStream) 대비 32.14% ~ 105.56% 성공률 증가.
- Kitchen 도메인: 기존 방법 대비 280.00% ~ 1166.67% 성공률 증가 (특히 복잡한 $n=6$ 환경에서 기존 방법은 대부분 타임아웃 실패).
- VLM 백트래킹 효과: VLM 백트래킹을 제거한 경우보다 성공률이 Blocksworld 에서 23.33%, Kitchen 에서 8.57% 더 높았습니다.
계획 시간: 복잡한 문제 (높은 $n$ 값) 에서 기존 방법들이 타임아웃되는 반면, 제안된 방법은 상대적으로 짧은 시간에 성공적인 계획을 생성했습니다.
실제 로봇 적용: Blocksworld 환경에서 실제 로봇 (UR5e) 으로 5 회 실험을 수행하여, 시뮬레이션 결과와 유사한 성공률 (n=3,4 는 100%, n=6 은 80%) 을 보이며 실제 적용 가능성을 입증했습니다.

5. 의의 및 결론 (Significance & Conclusion)

이 논문은 VLM 의 시각적 이해 능력과 물리 시뮬레이션의 엄격한 검증을 결합하여, 기존 LLM 기반 TAMP 가 겪던 "공간적/물리적 비현실성" 문제를 해결했습니다. 특히, 백트래킹 (Backtracking) 과정에서 VLM 이 시각적 단서를 활용하여 실패 원인을 분석하고 최적의 복귀 지점을 찾는 방식은 장기 계획 문제에서 탐색 공간을 효율적으로 줄이는 핵심 혁신입니다.

이는 단순한 작업 순서 생성을 넘어, 동역학적 제약이 있는 복잡한 실제 환경에서 로봇이 자율적으로 장기 작업을 수행할 수 있는 토대를 마련했다는 점에서 중요한 의의를 가집니다. 향후 도구 사용, 변형 가능한 물체 처리 등 더 다양한 영역으로 확장될 수 있는 가능성을 제시합니다.