One-Step Flow Policy: Self-Distillation for Fast Visuomotor Policies

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"로봇이 아주 빠르게, 그리고 정확하게 움직일 수 있도록 도와주는 새로운 기술"**에 대해 설명합니다.

기존의 로봇 제어 기술은 마치 **"고급 요리사가 복잡한 레시피를 하나하나 따라가며 요리를 하는 것"**과 비슷했습니다. 아주 정교하고 완벽한 요리를 만들 수 있지만, 시간이 너무 오래 걸려서 "빨리 움직여야 하는 상황" (예: 떨어지는 물건을 잡거나, 빠르게 춤추기) 에는 적합하지 않았습니다.

이 논문은 이 문제를 해결하기 위해 **"한 번에 뚝딱! 완벽하게 요리하는 마법 같은 기술 (OFP)"**을 제안합니다.

1. 문제: 왜 로봇은 느릴까요? (기존 기술의 한계)

기존의 로봇은 **"확산 모델 (Diffusion Model)"**이라는 기술을 썼습니다.

비유: 로봇이 움직일 동작을 결정할 때, 마치 **"안개 속에서 길을 찾는 사람"**과 같습니다.
1. 처음에는 안개 (잡음) 가 짙어서 아무것도看不见 (보이지) 않습니다.
2. 로봇은 "왼쪽으로 조금, 오른쪽으로 조금"이라고 100 번이나 200 번이나 반복해서 안개를 걷어내며 정확한 길을 찾습니다.
3. 이 과정이 100 번 반복되니, 로봇이 움직이기 전에 시간이 너무 오래 걸립니다.
4. 로봇이 느리면, 떨어지는 컵을 잡으려다 컵이 바닥에 깨지는 일이 생깁니다.

2. 해결책: OFP (한 걸음으로 끝내는 기술)

저자들은 **"왜 100 번이나 걸어야 하지? 한 번에 바로 정답을 알 수 없을까?"**라고 생각했습니다. 그래서 **OFP (One-Step Flow Policy)**라는 새로운 방법을 개발했습니다.

핵심 아이디어 1: "스스로를 가르치는 선생님" (자기 증류)

기존 방식: 보통은 "유능한 선생님 (기존 모델)"이 가르쳐서 "학생 (새 모델)"이 빨리 배우게 합니다. 하지만 선생님이 없으면 어떡하죠?
OFP 방식: **"스스로를 가르치는 자기 훈련"**을 합니다.
- 로봇이 "이렇게 움직여야겠다"라고 생각한 뒤, **"내가 만약 100 번 걸어서 이 지점에 도달했다면, 지금 이 한 번의 움직임이 정확했을까?"**를 스스로 점검합니다.
- 마치 스스로를 코치하는 운동선수처럼, 자신의 움직임을 반복해서 다듬어 한 번에 완벽하게 만들 수 있게 됩니다.

핵심 아이디어 2: "날카로운 목표 지점" (자기 유도)

문제: 로봇이 "한 번에" 움직이려고 하면, 여러 가지 가능한 길 중 "가장 평균적인 길"을 선택해서 흐릿하고 부정확한 움직임을 할 수 있습니다. (예: 컵을 잡으려다 살짝 빗나가거나, 너무 세게 잡거나)
해결: 로봇에게 **"가장 확실하고 정확한 전문가의 움직임"**을 집중하게 합니다.
- 마치 화살을 쏠 때, 바람을 고려해서 화살을 날카롭게 조정하듯, 로봇의 움직임을 흐릿한 평균이 아닌, **정확한 목표 지점 (전문가 데이터)**으로 강하게 끌어당깁니다.

핵심 아이디어 3: "이미 알고 있는 길" (웜스타트)

비유: 로봇이 매번 "처음부터 안개 속에서 길을 찾아" 움직이는 대신, "아까까지 가던 길을 이어가서" 다음 걸음을 시작합니다.
로봇은 연속된 움직임을 하므로, "지금까지 한 동작"을 다음 동작의 출발점으로 사용합니다.
- 안개 속에서 100m 를 걷는 대신, 이미 90m 를 걷고 있는 상태에서 나머지 10m 만 빠르게 걷는 것과 같습니다. 이렇게 하면 훨씬 더 정확하고 빠르게 도착할 수 있습니다.

3. 결과: 얼마나 빨라졌나요?

이 기술을 적용한 로봇은 놀라운 성과를 냈습니다.

속도: 기존에 100 번의 계산을 하던 것을 단 1 번으로 줄였습니다. (약 100 배 이상 빨라짐!)
정확도: 속도가 빨라졌다고 해서 정확도가 떨어지지 않았습니다. 오히려 기존의 느린 로봇보다 더 정확하게 물건을 잡거나 조작했습니다.
실제 적용: 복잡한 두 팔 로봇 (RoboTwin 2.0) 같은 거대한 모델에서도 이 기술이 잘 작동하여, 기존 10 번의 계산이 필요했던 작업을 1 번으로 해결하면서도 더 좋은 결과를 냈습니다.

4. 요약: 한 줄로 정리하면?

"기존 로봇은 정교하지만 느린 '100 단계 요리법'을 썼다면, 이 새로운 기술 (OFP) 은 스스로를 훈련시켜 '한 번의 손길'로 완벽하고 빠른 요리를 할 수 있게 해줍니다. 이제 로봇은 컵을 떨어뜨리기 전에, 번개처럼 빠르게 잡을 수 있게 되었습니다!"

이 기술은 로봇이 더 빠르고 똑똑하게 우리 일상과 산업 현장에 들어올 수 있는 중요한 디딤돌이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

배경: 비전 - 언어 - 행동 (VLA) 모델과 로봇 제어 분야에서 생성형 흐름 (Flow) 및 확산 (Diffusion) 모델은 인간의 데모에서 내재된 다중 모드 (multimodal) 행동 분포를 연속적으로 표현하고 정밀한 제어 신호를 생성할 수 있어 우세한 패러다임으로 자리 잡았습니다.
핵심 병목 현상: 기존 흐름/확산 모델은 목표 행동 분포로 샘플을 이동시키기 위해 반복적인 오일러 (Euler) 또는 Runge-Kutta (RK4) 적분 (ODE/SDE 솔버 사용) 을 수행해야 합니다. 이는 단일 행동 생성을 위해 수십~수백 번의 신경망 순전파 (Forward Pass) 를 필요로 하여 **추론 지연 (Inference Latency)**이 심각합니다.
영향: 고주파수 제어 (예: 고속 그리핑, 동적 상호작용) 가 필요한 로봇 작업에서 이 지연은 제어 주파수를 낮추고 오차 누적을 유발하여 작업 실패로 이어집니다.
목표: 제어 정밀도를 희생하지 않으면서도 단일 단계 (One-Step) 또는 매우 적은 단계로 고품질 행동을 생성하여 추론 속도를 획기적으로 개선하는 방법론이 필요합니다.

2. 제안 방법론: One-Step Flow Policy (OFP)

저자들은 사전에 학습된 교사 (Teacher) 모델 없이 처음부터 학습하는 자기 증류 (Self-Distillation) 프레임워크인 OFP 를 제안합니다. OFP 는 세 가지 핵심 기법을 통합합니다.

가. 자기 일관성 학습 (Self-Consistency Training)

개념: 기존 흐름 매칭 (Flow Matching) 이 순간적인 속도장을 학습하는 반면, OFP 는 시간 구간 $[t, r]$ 에 대한 **구간 평균 속도장 (Interval-averaged velocity field)**을 학습합니다.
메커니즘:
- 모델의 EMA (Exponential Moving Average) 복사본을 '교사'로 사용하여, 구간 내 중간 상태 $z_m$ 에서 끝점 $z_r$ 로의 예측 궤적을 생성합니다.
- 이 예측된 끝점과 실제 시작점 $z_t$ 사이의 차이를 기반으로 타겟 속도 $u_{target}$ 을 정의합니다.
- 시간 수축 스케줄 (Time-Contracting Schedule): 학습 초기에는 넓은 구간을 샘플링하여 초기화 오류를 줄이고, 학습 후기에는 구간을 $t$ 로 수축시켜 실제 궤적 상의 엄격한 자기 일관성을 강제합니다.
효과: 반복적 ODE 적분 없이도 궤적의 시간적 일관성을 보장하며, MeanFlow 와 달리 고비용인 자코비안 - 벡터 곱 (JVP) 연산을 제거하여 학습 안정성을 높입니다.

나. 자기 유도 정규화 (Self-Guided Regularization)

문제점: 자기 일관성 학습만으로는 다중 모드 분포가 복잡한 작업에서 단일 단계 예측이 너무 평탄해져 (averaging) 정밀도가 떨어질 수 있습니다.
해결책: 분류기 없는 유도 (Classifier-Free Guidance, CFG) 개념을 자기 증류에 적용합니다.
- 모델의 조건부 예측과 무조건부 (null condition) 예측 간의 차이를 '자기 유도 신호'로 활용합니다.
- 이 신호는 생성된 행동을 무조건부 노이즈 모드에서 밀어내고, 전문가 데이터의 고밀도 모드 (expert modes) 쪽으로 끌어당기는 정규화 항으로 작용합니다.
효과: 단일 단계 예측의 날카로움 (Sharpness) 을 높여 정밀한 조작 작업을 가능하게 합니다.

다. 웜스타트 메커니즘 (Warm-Start Mechanism)

개념: 이전 시간 단계에서 생성되었으나 아직 실행되지 않은 행동 시퀀스 (suffix) 를 활용하여 초기 상태를 설정합니다.
작동 원리:
- 이전 행동 블록의 미실행 부분을 시프트 (shift) 하고 끝행동을 패딩하여 전체 길이의 '웜스타트 프리어 (Warm-start prior)'를 구성합니다.
- 순수 가우스 노이즈가 아닌, 이 웜스타트 프리어에 약간의 노이즈를 추가한 상태에서 생성을 시작합니다.
효과: 생성 모델이 목표 데이터 매니폴드까지 이동해야 하는 거리를 크게 줄여주어, 단일 단계에서도 더 높은 정확도와 시간적 부드러움을 확보합니다.

3. 주요 기여 (Key Contributions)

교사 모델 없는 통합 자기 증류 프레임워크: 추론 속도와 행동 정밀도 간의 트레이드오프를 해결하고, 외부 교사 모델 없이 처음부터 학습 가능한 흐름 기반 정책 프레임워크를 제시했습니다.
훈련 불필요한 웜스타트 전략: 시간적 상관관계를 활용한 초기화 전략을 재해석하여, 추가 학습이나 계산 오버헤드 없이 Few-Step 추론의 이동 거리를 줄이는 효과적인 메커니즘을 제안했습니다.
압도적인 성능 달성: Adroit, DexArt, MetaWorld 등 56 가지 다양한 시뮬레이션 작업에서 1 단계 (NFE=1) OFP 가 100 단계 (NFE=100) 의 기존 확산/흐름 모델보다 높은 성공률을 기록했습니다.
대규모 VLA 모델 확장성 검증: 최신 VLA 모델인 $\pi_{0.5}$ 에 통합하여 RoboTwin 2.0 에서 테스트한 결과, 1 단계 OFP 가 원래 10 단계 정책보다 성능이 우수함을 입증했습니다.

4. 실험 결과 (Results)

성능 비교 (56 개 작업 평균):
- 성공률: OFP (NFE=1) 는 평균 71.6% 의 성공률을 기록하여, 100 단계 DP3(66.4%) 과 FM Policy(59.8%) 를 모두 능가했습니다.
- 속도 향상: DP3(100 단계) 대비 약 183 배, FM Policy 대비 약 106 배의 추론 속도 향상을 달성했습니다 (단일 행동 생성 시간: 17.58ms vs 3225ms).
- 유연성: OFP 는 1 단계 추론 시에도 높은 성능을 유지하지만, 계산 자원이 허용될 경우 4 단계 등으로 단계를 늘려 정밀도를 더 높일 수 있는 유연성을 가집니다.
RoboTwin 2.0 ( $\pi_{0.5}$ 통합):
- 복잡한 2 암 조작 작업에서 OFP(NFE=1) 는 기존 $\pi_{0.5}$ (NFE=10) 보다 평균 성공률이 94.7% 로 더 높게 나타났습니다. 이는 대규모 모델에서도 자기 증류 기법이 효과적임을 보여줍니다.
데이터 효율성: 제한된 데이터 (20 개 데모) 환경에서도 MP1 과 같은 기존 방법보다 훨씬 안정적인 성능을 보이며, 데이터가 증가함에 따라 성능이 꾸준히 향상되었습니다.

5. 의의 및 결론 (Significance)

실용적 해결책: 로봇 제어의 핵심 병목인 추론 지연을 해결하면서도 정밀한 조작 능력을 유지하는 실용적이고 확장 가능한 솔루션을 제공합니다.
이론적 기여: JVP(자코비안 - 벡터 곱) 와 같은 고비용 연산을 피하면서도 MeanFlow 의 이점을 취할 수 있는 새로운 자기 증류 방식을 제시하여, 생성형 모델의 가속화 연구에 중요한 기여를 했습니다.
미래 전망: 물리 로봇 시스템으로의 직접 적용, 양자화 및 구조적 가지치기 (Pruning) 와의 결합을 통해 실제 로봇의 실시간 제어 성능을 획기적으로 개선할 수 있는 기반을 마련했습니다.

요약하자면, OFP는 반복적 샘플링의 병목을 제거하고, 자기 일관성과 자기 유도, 웜스타트를 결합하여 단일 단계로 고품질 로봇 제어를 가능하게 하는 획기적인 프레임워크입니다.