원저자: Yitong Chen, Shiduo Zhang, Jingjing Gong, Xipeng Qiu

게시일 2026-06-05✓ Author reviewed ⓘ

📖 4 분 읽기☕ 가벼운 읽기

원저자: Yitong Chen, Shiduo Zhang, Jingjing Gong, Xipeng Qiu

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

핵심 아이디어: 과하게 생각하지 마세요

로봇에게 체스를 두는 법을 가르치고 있다고 상상해 보세요.

기존 방식 (이미지 생성): AI 이미지 생성(예: 고양이 사진 만들기)의 세계에서, AI는 한 번에 수백만 개의 픽셀을 추측해야 합니다. 이는 마치 정전기 노이즈로 가득 찬 빈 캔버스에서 시작하여, 노이즈를 조금씩 닦아내며 고양이를 드러내는 방식으로 걸작을 그려나가는 것과 같습니다. 이를 제대로 수행하려면 많은 단계(반복)가 필요합니다.
새로운 방식 (로봇 동작): 이 논문은 로봇에게 '움직임'을 가르치는 것은 다르다고 주장합니다. 로봇은 이미 방의 모습, 수행할 작업, 그리고 자신의 몸에 대한 매우 명확한 정보를 가지고 있습니다. 수백만 개의 픽셀을 추측할 필요 없이, 그저 특정 움직임(예: "컵을 잡아라")을 결정하기만 하면 됩니다.

저자들은 이렇게 말합니다: "왜 우리는 단순한 1단계 퍼즐을 풀기 위해 10단계의 그림 그리기 과정을 사용하고 있나요?"

그들은 로봇이 결정을 내리는 '시점'을 바꿈으로써, 여러 단계를 거치는 느린 방식만큼이나 혹은 그보다 더 잘, 단 한 번의 단계만으로도 올바른 움직임을 찾아낼 수 있다는 것을 발견했습니다.

핵심 문제: "풍부한 조건, 단순한 타겟"의 불일치

이것이 왜 작동하는지 이해하려면, 이야기를 쓰는 것과 상식 퀴즈의 답을 맞히는 것의 차이를 생각해 보세요.

이미지 생성 (이야기 쓰기): 당신이 AI에게 "고양이"라는 프롬프트를 주면, AI는 고양이가 어떻게 생겼는지, 어디에 있는지, 조명은 어떤지, 털의 질감은 어떠한지 등 전체적인 이야기를 창조해야 합니다. 가능한 선택지가 무수히 많습니다. 따라서 선택지를 좁히기 위해 많은 단계가 필요합니다.
로봇 동작 (상식 퀴즈 답하기): 당신이 로봇에게 컵의 카메라 뷰, "컵을 집어라"라는 음성 명령, 그리고 팔의 위치 센서 값을 줍니다. 답은 매우 구체적입니다. 컵을 잡는 좋은 방법은 한두 가지뿐입니다. "타겟"이 작고 단순합니다.

논문에서는 이를 "조건-타겟(Condition-Target)" 불일치라고 부릅니다. 로봇은 풍부한 정보(조건)를 가지고 있지만, 아주 작은 양의 출력(동작)만을 예측하면 됩니다. 주어진 단서들이 매우 명확하기 때문에, AI는 이미지 생성에 사용되는 복잡한 다단계 "디노이징(denoising, 노이즈 제거)" 메커니리즘을 사용할 필요가 없습니다.

비법: "어둠 속에서" 학습하기

저자들은 로봇이 이 한 단계 동작 기술을 배울 수 있게 만드는 간단한 트릭을 발견했습니다.

비유: 깊은 곳에서 수영 배우기

표준 학습: 보통 AI 모델은 점진적으로 학습하도록 가르쳐집니다. 약간의 노이즈(얕은 수영장)에서 시작하여, 최종 답을 예측할 수 있을 때까지 점점 더 많은 노이즈(깊은 물)를 다루는 법을 배웁니다.
이 논문의 방식: 저자들은 로봇을 곧바로 깊은 곳에 던져 넣기로 했습니다. 그들은 입력값이 매우 노이즈가 심한(거의 무작위인) 상태일 때 로봇이 주로 연습하도록 학습 편향을 주었습니다.

이것이 왜 작동할까요?
친구의 전화번호를 맞히려고 노력한다고 상상해 보세요.

만약 숫자 하나가 빠진 번호를 받게 된다면, 당신은 너무 깊게 생각하다가 틀릴 수도 있습니다.
하지만 친구의 이름과 주소라는 (풍부한 맥락을) 바탕으로, 완전히 뒤섞인 무작위 숫자 배열을 보고 실제 번호를 맞춰야 한다면, 당신의 뇌는 노이즈를 무시하고 오직 단서에만 집중하도록 강요받을 것입니다.

입력이 혼란스러울 때(높은 노이зь)도 올바른 움직임을 예측하도록 로봇을 훈련함으로써, 로봇은 노이즈를 무시하고 맥락을 신뢰하는 법을 배웁니다. 마침내 실제 환경(깨끗한 입력값)에서 실행될 때, 로봇은 노이즈를 무시하고 맥락을 따르는 법을 배웠기에 단 한 단계만에 즉시 정답으로 "도약"할 수 있습니다.

실험: 실제로 효과가 있는가?

팀은 세 가지 방식으로 이 아이디어를 테스트했습니다.

"토이(Toy)" 테스트 (MNIST 그리드): 이미지 생성(텍스트→이미지)의 반대인 이미지→텍스트 생성을 시뮬레이션했습니다. AI에게 손으로 쓴 숫자가 있는 깨끗한 그리드 이미지를 보여주면, AI는 그 이미지에 담긴 숫자 순서라는 짧은 텍스트를 예측해야 합니다. 여기서 노이즈는 이미지 자체가 아니라, 예측해야 할 텍스트(숫자 순서)의 데이터 표현(임베딩)에 적용되었습니다. 즉, '풍부한 조건(이미지)'과 '간결한 타겟(텍스트)'이라는 로봇 동작의 특성을 모방하기 위해 기존 설정을 반대로 뒤집은 것입니다. 이 방식으로 훈련했을 때, AI는 표준 방법보다 훨씬 더 정확하게 단 한 번의 시도로 숫자 순서를 맞혔습니다.
로봇 벤치마크 (LIBERO): 블록 쌓기나 물체 옮기기와 같은 표준 로봇 작업들을 테스트했습니다.
- 결과: 이 "고노이즈(high-noise)" 방식으로 훈련된 로봇은 한 단계 만에 완벽한 동작을 수행할 수 있었습니다.
- 비교: 이 1단계 로봇은 동작을 파악하는 데 10단계가 걸리는 로봇들과 대등하거나 때로는 더 나은 성능을 보였습니다.
- 규모: 거대 모델(14억 개의 파라미터)에서도 이 1단계 방식은 긴 작업에서 95.6%의 성공률을 달성했습니다.
실제 로봇 테스트: 실제 물리적인 양손 로봇 팔을 사용하여 테스트했습니다. 로봇의 뇌를 바꾸지 않고도, 단지 사고방식(1단계 대신 10단계를 사용하는 것)을 바꾸는 것만으로도 병뚜껑을 돌려 끼우거나 탑을 쌓는 작업에서 기존의 느린 방식과 대등하거나 더 나은 성능을 보였습니다.

하지 않은 것 (주의사항)

비유의 정확성을 유지하기 위해, 이 논문이 하지 않은 일을 명시하는 것이 중요합니다.

새로운 유형의 로봇 뇌를 발명하지 않았습니다.
학생에게 보여주는 "선생님" 로봇을 사용하지 않았습니다(증류/distillation 과정 없음).
복잡한 추가 훈련 단계를 추가하지 않았습니다.

그들은 단지 표준 학습 방법을 가져와서 "고노이즈" 시나리오에 더 집중하도록 "스케줄"을 변경했을 뿐입니다.

결론

이 논문의 핵심 메시지는 간단합니다: 호두를 깨기 위해 대포를 사용하지 마세요.

로봇의 동작은 복잡한 이미지와 달리 작고 구체적이기 때문에, 이미지 생성에서 개발된 무거운 다단계 메커니즘이 필요하지 않습니다. 연습 과정에서 혼돈(높은 노이즈)을 다루도록 훈련함으로써, 로봇은 단서를 신뢰하고 즉각적으로 올바른 움직임을 수행하는 법을 배웁니다. 이를 통해 복잡한 새 알고리즘 없이도 로봇을 더 빠르고 단순하게 훈련할 수 있습니다.

기술 요약: Let It Be Simple: 시각-언어-행동(VLA) 모델을 위한 단일 단계(One-Step) 행동 생성

문제 정의

디퓨전(diffusion) 기반의 시각-언어-행동(VLA) 모델은 이미지 생성에서 유래한 반복적 디노이징 패러다임을 계승하여, 여러 번의 샘플링 단계를 거쳐 행동을 생성합니다. 그러나 저자들은 VLA 행동 생성이 이미지 합성과는 근본적으로 다른 **조건-타겟 구조(condition-target structure)**를 가지고 있다고 주장합니다. 이미지 생성에서 텍스트 프롬프트나 클래스 레이블은 고차원의 다중 모달 분포를 조건화합니다. 반면, VLA 정책은 풍부한 관측치(이미지, 언어, 고유 수용 감각 상태)를 조건으로 하여 압축된 저차원의 액션 청크(typically tens to hundreds of scalars)를 예측합니다.

본 논문은 조건부 행동 분포가 조건부 이미지 분포보다 훨씬 단순하기 때문에—즉, 텍스트-투-이미지보다는 이미지-투-텍스트 매핑에 더 가깝기 때문에—복잡한 기제(예: consistency training, distillation, teacher models) 없이도 강력한 단일 단계 행동 생성이 가능할 것이라고 상정합니다. 핵심 과제는, 훈련 역학(training dynamics)을 이 특정적인 조건-타겟 비대칭성에 맞게 조정했을 때, 보조 손실 함수나 다단계 훈련 없이 표준 flow-matching 목적 함수만으로 효과적인 단일 단계 정책을 생성할 수 있는지 여부를 결정하는 것입니다.

방법론

1. 이론적 프레임워크: 조건-타겟 비대칭성

저자들은 VLA 행동 생성을 풍부한 조건( $c$ )이 단순한 타겟( $x_1$ )을 예측하는 문제로 정의합니다. 저자들은 인코더가 장면과 태스크에 대한 충분한 표현을 제공한다면, 남은 조건부 속도장(conditional velocity field)은 특히 노이즈 엔드포인트(noise endpoint) 근처에서 단일 단계로 모델링하기에 충분히 단순할 것이라는 가설을 세웁니다.

2. 통제된 토이 실험: MNIST Grid-to-Sequence

조건-타겟 구조의 효과를 격리하기 위해, 저자들은 연속 디퓨전 언어 모델링에서 영감을 얻은 통제된 태스크를 설계했습니다:

입력: $4 \times 4$ 그리드의 MNIST 숫자들.
타겟: 그에 대응하는 16개 토큰 시퀀스.
관측: 이 설정은 "풍부한 조건, 압축된 타겟" 체제를 모사합니다.
결과: 훈련 시간 분포를 고노이즈 상태( $t \to 0$ in flow-matching coordinates, 또는 $t_{op} \to 1$ in OpenPI coordinates) 쪽으로 이동시켰을 때, 단일 단계 디코딩의 정확도가 크게 향ered졌으나, 균등한 시간 샘플링은 성능이 저조했습니다.

3. VLA 아키텍처 및 훈련 전략

제안된 VLA 아키텍처는 SimVLA와 유사한 경량 설계를 따릅니다:

인코더: 강력한 시각-언어 모델(VLM) 백본(비전용 SigLIP, 퓨전용 PaliGemma)이 이미지, 언어 프롬프트, 로봇 상태를 인코딩합니다.
디코더: 경량 액션 헤드가 VLM 토큰, 상태, 시간, 그리고 노이즈가 섞인 액션 토큰을 기반으로 속도를 예측합니다.
핵심 혁신 (고노이즈 편향): 훈련 시간 $t$ 를 균등하게 샘플링하는 대신, 저자들은 다음과 같은 노이즈 시프트를 적용합니다:
$t = \frac{u}{1 + (\alpha - 1)(1 - u)}$
여기서 $u \sim \text{Uniform}[0, 1]$ 이며 $\alpha > 1$ 입니다. 이는 훈련 분포를 고노이즈 상태( $t \to 0$ )로 편향시킵니다.
목적 함수: 별도의 증류(distillation), 일관성 훈련(consistency training) 또는 텔러 모델 없이 표준 flow-matching 손실( $L_{CFM}$ )을 사용합니다.
순수 노이즈 훈련 (Pure-Noise Training): 스트레스 테스트로서, 저자들은 보간된 액션 입력 $x_t$ 가 완전히 독립적인 가우시안 노이즈로 대체된 모델을 훈련하여, 조건부 타겟이 직접적인 엔드포인트 예측을 수행할 만큼 충분히 단순한지 확인했습니다.

주요 기여

VLA 생성의 재정의: 본 논문은 VLA 행동 생성을 조건-타겟 문제로 규정하며, "풍부한 조건, 압축된 타겟" 구조가 이미지 합성보다 더 단순한 생성 역학을 허용함을 입증했습니다.
단순한 고노이즈 스케줄: 저자들은 단순한 고노이즈 훈련 스케줄을 통해 표준 flow-matching이 복잡한 몇 단계 디퓨전 기제 없이도 LIBERO 제품군 벤치마크 전반에서 강력한 단일 단계 정책을 생성할 수 있음을 보여주었습니다.
교차 아키텍처 검증: 연구 결과는 커스텀 SimVLA 스타일 모델뿐만 아니라, 실제 로봇 양팔 YAM RSS 챌린지에서 미세 조정된 $\pi0.5$ 정책에서도 검증되었으며, 이는 샘플러 트렌드가 서로 다른 아키텍처 전반에 걸쳐 유효함을 입증합니다.
속도장 진단 (Velocity Field Diagnostics): 본 논문은 학습된 속도장이 (단일 단계 추론이 시작되는 지점인) 노이즈 엔드포인트 근처에서 중간 궤적 지점보다 낮은 오차와 높은 정렬도를 보인다는 실증적 근거를 제공하며, 이는 CIFAR-10 클래스-투-이미지 흐름의 동작과 대조됩니다.

실험 결과

저자들은 LIBERO, LIBERO-Plus, LIBERO-Pro 및 실제 로봇 양팔 태스크에 대해 접근 방식을 평가했습니다.

LIBERO Standard: 고노이즈 편향 스케줄(예: $\alpha=4$ $α = 4$ )로 훈련된 단일 단계 정책은 동일한 레시피 하의 10단계 디코딩 성능과 대등하거나 이를 능가했습니다. 특히, 표준 LIBERO에서 고노이즈 단일 단계 정책은 균등 시간 분포로 훈련된 10단계 정책보다 우수한 성능을 보였습니다.
- 예시: 1.4B VLM 모델을 사용한 LIBERO-Long에서 단일 단계 디코딩은 **95.6%**의 성공률을 달 기록했습니다.
액션 호라이즌 (Action Horizon): 액션 호라이즌이 길어짐에 따라(예: H10에서 H40으로) 단일 단계 성공률이 자연스럽게 감소하지만, 고노이즈 스케줄은 H20/H30에서 성능 저하를 상당 부분 회복하여 종종 균등 10단계 베이스라인에 근접하거나 이를 능가했습니다.
조건 어블레이션 (Condition Ablations): 입력 소스(이미지, 프롬프트, 상태)를 제거하면 단일 단계 성능이 일반적으로 저하되었으며, 특히 고유 수용 감각 상태를 제거했을 때 정책이 거의 붕괴되어, 풍부한 조건에 대한 의존성을 확인시켜 주었습니다.
실제 로봇 검증: YAM RSS 양팔 평가에서, 단일 단계 디코딩은 동일한 체크포인트를 사용하여 세 가지 태스크(예: Tower of Hanoi에서 100% 성공 vs 10단계 디코딩 50%)에서 10단계 디코딩과 대등하거나 더 나은 성능을 보였습니다.
속도 진단: VLA 모델의 경우 속도장의 MSE와 코사인 오차가 노이즈 엔드포인트( $\tau=1$ )를 향해 일관되게 감소한 반면, CIFAR-10 흐름은 궤적의 중간 지점에서 가장 낮은 오차를 보였습니다.

의의 및 주장

본 논문은 유용한 VLA 행동을 위해 많은 디노이징 단계가 필요하다는 직관에 도전합니다. 타겟이 풍부한 멀티모달 입력에 의해 조건화된 압축된 액션 청크이기 때문에, 조건부 분포는 단일 단계로 응축될 만큼 충분히 단순할 수 있습니다.

저자들은 표준 디퓨전 훈련 중에 훈련 시간 분포를 고노이즈 상태로 편향시키는 것만으로도 강력한 단일 단계 VLA 행동 생성이 나타날 수 있다고 결론짓습니다. 이 방식은 이미지 생성에서 개발된 복잡한 몇 단계 디퓨전 기제(증류, 일관성 모델, 텔러 모델 등)를 도입할 필요가 없습니다. 본 논문은 VLA 개발자들이 복잡한 샘플링 전략을 채택하기 전에, 단순한 고노이즈 스케줄이 경쟁력 있거나 더 우수한 결과를 낼 수 있으므로 먼저 행동 생성의 조건-타겟 구조를 고려해야 한다고 제안합니다.

저자들은 이론적 설명에 대해서는 신중한 태도를 유지하며, 속도장 진단이 가설을 뒷받ey지만 왜 이 체제에서 단일 단계 디코딩이 다단계보다 뛰어날 수 있는지에 대한 정확한 이유는 여전히 주로 직관에 의존하고 있다고 언급했습니다. 또한, 고노이즈 시프트는 효과적이지만, 새로운 호라이즌이나 조건 세트에 대한 최적의 시프트 파라미터( $\alpha$ )는 아직 완전히 파악되지 않았습니다.

Let It Be Simple: One-Step Action Generation for Vision-Language-Action Models