EmboAlign: Aligning Video Generation with Compositional Constraints for Zero-Shot Manipulation

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"로봇이 새로운 일을 처음 해볼 때, 어떻게 하면 실수 없이 정확하게 할 수 있을까?"**라는 질문에 대한 해답을 제시합니다.

기존의 기술들은 로봇에게 "이것을 들어라"라고 말만 하면, 로봇이 마치 영화 속 장면을 상상하듯 움직임을 만들어내려 했습니다. 하지만 이 상상 (생성된 영상) 이 현실과 달라서 로봇이 물건을 부수거나, 공중에 뜬 채로 움직이는 등 엉뚱한 행동을 하곤 했습니다.

이 문제를 해결하기 위해 제안된 **'EmboAlign(엠보어라인)'**이라는 새로운 방법을 쉽게 설명해 드릴게요.

🎬 시나리오: "로봇 배우"와 "현실 감독"의 협업

이 시스템을 이해하기 위해 영화 촬영 현장을 상상해 보세요.

VGM(비디오 생성 모델) = "상상력이 풍부한 신인 배우"
- 이 배우는 인터넷에 있는 수많은 영상을 보고 배우를 했기 때문에, "상자 쌓기"나 "물 붓기" 같은 동작을 아주 자연스럽게 연기할 수 있습니다.
- 하지만 문제는 상상력이 너무 뛰어나서 가끔 현실을 무시한다는 점입니다. 예를 들어, "상자를 쌓아라"라고 하면, 상자가 서로 겹쳐서 통과하거나 (물리 법칙 위반), 갑자기 사라지는 마법 같은 장면을 연기해 버릴 수도 있습니다.
VLM(시각 - 언어 모델) = "엄격한 현실 감독"
- 이 감독은 물리 법칙과 안전 규칙을 아주 잘 아는 전문가입니다. "상자는 절대 다른 상자 안으로 들어갈 수 없어", "물건을 들 때는 위에서부터 접근해야 해" 같은 **구체적인 규칙 (제약 조건)**을 지시할 수 있습니다.
EmboAlign = "이 두 사람을 연결하는 프로듀서"
- 이 시스템은 신인 배우 (VGM) 가 연기한 여러 가지 시나리오 (영상) 를 먼저 보여줍니다.
- 그다음, 현실 감독 (VLM) 이 **"이 연기는 물리 법칙에 어긋나서 안 돼!"**라고 따져보고, 가장 현실적이고 안전한 시나리오 하나만 골라냅니다.
- 마지막으로, 선택된 시나리오를 실제 로봇이 실행할 때, 감독의 규칙을 다시 한 번 확인하며 실수 (오차) 를 수정해 줍니다.

🛠️ EmboAlign 이 어떻게 작동할까요? (3 단계 프로세스)

이 시스템은 크게 두 가지 단계로 나뉩니다.

1 단계: "가장 현실적인 시나리오" 고르기 (Constraint-Guided Rollout Selection)

상황: 로봇에게 "초록색 상자를 빨간색 상자 위에 올려라"라고 명령합니다.
배우의 연기: VGM 이 10 가지 다른 영상 시나리오를 만들어냅니다.
- 시나리오 A: 상자가 서로 뚫고 지나감 (물리 법칙 위반 ❌)
- 시나리오 B: 상자가 사라짐 (물리 법칙 위반 ❌)
- 시나리오 C: 상자를 정확히 위에 올림 (물리 법칙 준수 ✅)
감독의 판단: EmboAlign 은 VLM(감독) 을 통해 "상자가 뚫리지 않아야 하고, 사라지면 안 된다"는 규칙을 적용합니다.
결과: A 와 B 는 탈락시키고, 가장 현실적인 C 시나리오만 선택합니다.

2 단계: "실제 동작" 다듬기 (Constraint-Based Trajectory Optimization)

상황: 선택된 C 시나리오를 로봇이 따라 하려고 합니다.
문제: 하지만 카메라가 깊이를 잘못 측정하거나, 로봇의 관절이 미세하게 흔들려서 시나리오대로 정확히 움직이지 않을 수 있습니다. (예: 상자를 살짝 비틀어 놓음)
감독의 수정: EmboAlign 은 로봇이 움직이는 동안에도 "아직도 상자가 빨간색 상자 위에 정확히 올라가야 해"라는 규칙을 계속 적용합니다.
결과: 로봇은 자신의 움직임을 실시간으로 수정하며, 규칙에 완벽하게 맞는 최종 동작을 완성합니다.

🌟 왜 이 기술이 중요한가요?

기존 기술들은 두 가지 큰 약점이 있었습니다.

영상만 믿으면: 로봇이 마법 같은 동작을 하려다 실패합니다. (상자가 뚫리는 등)
규칙만 믿으면: 로봇이 처음부터 어떻게 움직일지 몰라 헤매거나, 엉뚱한 길로 가서 멈춥니다.

EmboAlign은 **"영상의 풍부한 상상력 (어떻게 움직일지)"**과 **"규칙의 엄격한 현실성 (무엇을 지켜야 할지)"**을完美结合 (완벽하게 결합) 시켰습니다.

📊 실제 성과

이 팀은 실제 로봇을 이용해 6 가지 어려운 작업 (상자 쌓기, 스테이플러 누르기, 물 붓기 등) 을 시켰습니다.

기존 최고의 기술들보다 성공률이 43.3% 포인트나 높아졌습니다.
특히, 로봇이 새로운 물건을 처음 보는 상황 (Zero-shot) 에서도, 별도의 훈련 없이도 매우 정확하게 작업을 수행했습니다.

💡 한 줄 요약

"상상력이 풍부한 로봇 배우에게, 물리 법칙을 잘 아는 현실 감독을 붙여주니, 엉뚱한 연기는 사라지고 완벽한 실전 수행이 가능해졌다!"

이 기술은 앞으로 로봇이 우리 집이나 공장에서 더 안전하고 정확하게 다양한 일을 도와주는 데 큰 역할을 할 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

로봇 조작 (Robotic Manipulation) 분야에서 Zero-shot(학습 데이터 없이) 으로 다양한 작업을 수행하는 것은 여전히 큰 도전 과제입니다. 최근 대규모 인터넷 데이터로 학습된 비디오 생성 모델 (VGM, Video Generative Models) 은 풍부한 물리 역학과 객체 동역학을 가진 일관된 비디오를 생성할 수 있어 로봇 계획에 유망한 기반을 제공합니다.

하지만 기존 VGM 기반 접근법은 두 가지 주요 실패 모드를 겪습니다:

물리적 환각 (Physical Hallucinations): VGM 은 대규모 데이터에 학습되었지만 물리 법칙을 완벽히 이해하지 못해, 객체가 겹치거나 (interpenetration), 비보존적인 운동을 하거나, 프롬프트를 따르지 않는 등 물리적으로 불가능한 시나리오를 생성합니다.
재매핑 (Retargeting) 오차 누적: 생성된 픽셀 공간의 비디오 운동을 로봇의 실제 동작으로 변환하는 과정에서 깊이 추정 (Depth Estimation) 과 키포인트 추적 (Keypoint Tracking) 의 부정확성으로 인해 오차가 누적되어, 시각적으로는 그럴듯해 보이는 비디오도 실제 실행 시 실패합니다.

기존 방법들은 이러한 물리적 제약 (공간적 관계, 운동학적 요구사항, 안전 조건 등) 을 명시적으로 강제할 수 있는 메커니즘이 부족합니다.

2. 방법론 (Methodology)

저자들은 EmboAlign이라는 새로운 프레임워크를 제안합니다. 이는 데이터 없이 (Data-free) 작동하며, 비디오 생성 모델 (VGM) 의 생성적 다양성과 시각 - 언어 모델 (VLM) 의 구조화된 공간 추론 능력을 결합합니다. VLM 이 작업 지시문으로부터 구성적 제약 (Compositional Constraints) 을 자동 추출하여, 비디오 생성과 로봇 실행 사이의 간극을 메우는 두 단계의 정렬 과정을 거칩니다.

핵심 파이프라인:

구성적 제약 생성 (Compositional Constraint Generation):
- 주어진 작업 지시문과 RGB-D 관측 데이터를 VLM 에 입력합니다.
- VLM 은 작업의 성공과 안전에 필수적인 물리적/공간적 제약 조건 (예: "그리퍼는 위에서 접근해야 함", "객체는 변형되지 않아야 함", "빨간 블록은 움직이지 않아야 함") 을 자동으로 추출하여 집합 $C$ 로 만듭니다.
- 이러한 제약은 3D 키포인트 구성을 기반으로 하는 스칼라 비용 함수로 정의됩니다.
제약 유도 비디오 선택 (Constraint-Guided Rollout Selection):
- VGM 에서 $N$ 개의 후보 비디오 롤아웃 (Rollout) 을 샘플링합니다.
- 시각적 타당성 점수: V-JEPA-2 와 같은 잠재 세계 모델 (Latent World Model) 을 사용하여 생성된 비디오가 물리적으로 일관된지 (할루시네이션이 없는지) 평가합니다.
- 공간적 제약 만족도: 추출된 키포인트를 3D 로 재구성하여 생성된 비디오가 VLM 이 정의한 제약 조건을 위반하는지 평가합니다.
- 선택 전략: 시각적 타당성이 높은 순서로 정렬한 후, 공간적 제약 비용이 임계값 이하인 첫 번째 비디오를 선택합니다. 이를 통해 물리적으로 불가능한 시나리오를 실행 전에 걸러냅니다.
제약 기반 궤적 최적화 (Constraint-Based Trajectory Optimization):
- 선택된 비디오를 기반으로 그리핑 조건 (Grasp-conditioned) 을 고려하여 로봇 엔드 이펙터 (End-effector) 의 초기 궤적을 생성합니다 (Retargeting).
- 깊이 추정 및 추적 오차로 인한 누적을 보정하기 위해, 동일한 제약 집합 $C$ 를 사용하여 궤적 최적화 문제를 풉니다.
- 목적 함수는 제약 위반을 최소화하면서 비디오에서 유도된 운동 패턴을 최대한 유지하도록 설계됩니다 (SLSQP 알고리즘 사용).

3. 주요 기여 (Key Contributions)

EmboAlign 프레임워크 도입: 비디오 생성 모델의 롤아웃을 구성적 제약과 정렬하여, 학습 데이터 없이도 정밀하고 안전한 Zero-shot 로봇 조작을 가능하게 합니다.
이중 단계 제약 정렬 메커니즘 설계:
- 1 단계: 물리적으로 불가능한 VGM 샘플을 필터링하는 '제약 유도 비디오 선택'.
- 2 단계: 재매핑 오차를 수정하고 정밀도를 높이는 '제약 기반 궤적 최적화'.
- 이 두 단계를 통합하여 VGM 기반 파이프라인의 고유한 한계를 해결합니다.
실제 로봇 실험 검증: 6 가지 실제 로봇 조작 작업 (블록 쌓기, 스테이플러 누르기, 물 붓기 등) 에서 기존 최강의 베이스라인 대비 성공률을 43.3%p 향상시켰으며, 이는 작업별 학습 데이터 없이 달성된 결과입니다.

4. 실험 결과 (Results)

평가 환경: Dobot Nova2 로봇을 사용하여 6 가지 정밀한 제약이 필요한 작업 (Lid 열기, 블록 쌓기, 스테이플러 누르기, 블록 두드리기, 안전한 블록 배치, 물 붓기) 을 수행했습니다.
비교 대상:
- ReKep: 제약만 사용하는 방법 (비디오 가이드 없음).
- NovaFlow: 비디오만 사용하는 방법 (제약 필터링/정제 없음).
성능:
- EmboAlign 은 평균 성공률 68.3% 를 기록했습니다.
- ReKep (21.7%) 대비 약 3 배, NovaFlow (25.0%) 대비 약 2.7 배 높은 성능을 보였습니다.
- 특히 정밀한 접촉이 필요한 작업 (예: 스테이플러 누르기) 에서 NovaFlow 대비 80%, ReKep 대비 60% 의 획기적인 개선을 보였습니다.
성공 요인: 비디오 제안이 초기화 민감도를 해결하고, 구성적 제약이 비디오의 물리적 비현실성을 교정하여 상호 보완적인 효과를 발휘했습니다.

5. 의의 및 결론 (Significance)

EmboAlign 은 생성적 AI (VGM) 와 구조화된 추론 (VLM) 의 시너지를 로봇 공학에 성공적으로 적용한 사례입니다.

데이터 효율성: 별도의 작업별 학습 데이터 (Task-specific training data) 없이도 복잡한 물리 법칙을 준수하는 로봇 제어가 가능합니다.
안전성과 정밀도: 생성 모델의 환각을 사전에 차단하고, 실행 단계에서 오차를 보정함으로써 실제 환경에서의 안전하고 정밀한 조작을 보장합니다.
미래 전망: 이 연구는 인터넷 규모의 대규모 데이터로 학습된 생성 모델을 실제 로봇 제어에 안전하게 적용하기 위한 새로운 패러다임을 제시하며, Zero-shot 로봇 조작의 실용성을 크게 높였습니다.

요약하자면, EmboAlign 은 "비디오가 어떻게 움직여야 하는지 (VGM)"와 "무엇을 지켜야 하는지 (VLM)"를 결합하여, 로봇이 복잡한 물리 환경을 정밀하게 조작할 수 있도록 하는 혁신적인 접근법입니다.