Let It Be Simple: One-Step Action Generation for Vision-Language-Action Models

이 논문은 시각-언어-행동(Vision-Language-Action) 모델을 위한 강력한 원스텝(one-step) 행동 생성이 단순히 훈련 시 시간 분포를 고노이즈 상태로 편향시키는 것만으로도 달성될 수 있음을 입증하며, 이는 이미지 합성에서 일반적으로 요구되는 복잡한 증류(distillation)나 보조 목적 함수 없이도 다단계 확산 정책(multi-step diffusion policies)의 성능과 대등하거나 이를 능가하는 결과를 보여준다.

원저자: Yitong Chen, Shiduo Zhang, Jingjing Gong, Xipeng Qiu

게시일 2026-06-05✓ Author reviewed
📖 4 분 읽기☕ 가벼운 읽기

원저자: Yitong Chen, Shiduo Zhang, Jingjing Gong, Xipeng Qiu

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

핵심 아이디어: 과하게 생각하지 마세요

로봇에게 체스를 두는 법을 가르치고 있다고 상상해 보세요.

  • 기존 방식 (이미지 생성): AI 이미지 생성(예: 고양이 사진 만들기)의 세계에서, AI는 한 번에 수백만 개의 픽셀을 추측해야 합니다. 이는 마치 정전기 노이즈로 가득 찬 빈 캔버스에서 시작하여, 노이즈를 조금씩 닦아내며 고양이를 드러내는 방식으로 걸작을 그려나가는 것과 같습니다. 이를 제대로 수행하려면 많은 단계(반복)가 필요합니다.
  • 새로운 방식 (로봇 동작): 이 논문은 로봇에게 '움직임'을 가르치는 것은 다르다고 주장합니다. 로봇은 이미 방의 모습, 수행할 작업, 그리고 자신의 몸에 대한 매우 명확한 정보를 가지고 있습니다. 수백만 개의 픽셀을 추측할 필요 없이, 그저 특정 움직임(예: "컵을 잡아라")을 결정하기만 하면 됩니다.

저자들은 이렇게 말합니다: "왜 우리는 단순한 1단계 퍼즐을 풀기 위해 10단계의 그림 그리기 과정을 사용하고 있나요?"

그들은 로봇이 결정을 내리는 '시점'을 바꿈으로써, 여러 단계를 거치는 느린 방식만큼이나 혹은 그보다 더 잘, 단 한 번의 단계만으로도 올바른 움직임을 찾아낼 수 있다는 것을 발견했습니다.


핵심 문제: "풍부한 조건, 단순한 타겟"의 불일치

이것이 왜 작동하는지 이해하려면, 이야기를 쓰는 것상식 퀴즈의 답을 맞히는 것의 차이를 생각해 보세요.

  1. 이미지 생성 (이야기 쓰기): 당신이 AI에게 "고양이"라는 프롬프트를 주면, AI는 고양이가 어떻게 생겼는지, 어디에 있는지, 조명은 어떤지, 털의 질감은 어떠한지 등 전체적인 이야기를 창조해야 합니다. 가능한 선택지가 무수히 많습니다. 따라서 선택지를 좁히기 위해 많은 단계가 필요합니다.
  2. 로봇 동작 (상식 퀴즈 답하기): 당신이 로봇에게 컵의 카메라 뷰, "컵을 집어라"라는 음성 명령, 그리고 팔의 위치 센서 값을 줍니다. 답은 매우 구체적입니다. 컵을 잡는 좋은 방법은 한두 가지뿐입니다. "타겟"이 작고 단순합니다.

논문에서는 이를 "조건-타겟(Condition-Target)" 불일치라고 부릅니다. 로봇은 풍부한 정보(조건)를 가지고 있지만, 아주 작은 양의 출력(동작)만을 예측하면 됩니다. 주어진 단서들이 매우 명확하기 때문에, AI는 이미지 생성에 사용되는 복잡한 다단계 "디노이징(denoising, 노이즈 제거)" 메커니리즘을 사용할 필요가 없습니다.

비법: "어둠 속에서" 학습하기

저자들은 로봇이 이 한 단계 동작 기술을 배울 수 있게 만드는 간단한 트릭을 발견했습니다.

비유: 깊은 곳에서 수영 배우기

  • 표준 학습: 보통 AI 모델은 점진적으로 학습하도록 가르쳐집니다. 약간의 노이즈(얕은 수영장)에서 시작하여, 최종 답을 예측할 수 있을 때까지 점점 더 많은 노이즈(깊은 물)를 다루는 법을 배웁니다.
  • 이 논문의 방식: 저자들은 로봇을 곧바로 깊은 곳에 던져 넣기로 했습니다. 그들은 입력값이 매우 노이즈가 심한(거의 무작위인) 상태일 때 로봇이 주로 연습하도록 학습 편향을 주었습니다.

이것이 왜 작동할까요?
친구의 전화번호를 맞히려고 노력한다고 상상해 보세요.

  • 만약 숫자 하나가 빠진 번호를 받게 된다면, 당신은 너무 깊게 생각하다가 틀릴 수도 있습니다.
  • 하지만 친구의 이름과 주소라는 (풍부한 맥락을) 바탕으로, 완전히 뒤섞인 무작위 숫자 배열을 보고 실제 번호를 맞춰야 한다면, 당신의 뇌는 노이즈를 무시하고 오직 단서에만 집중하도록 강요받을 것입니다.

입력이 혼란스러울 때(높은 노이зь)도 올바른 움직임을 예측하도록 로봇을 훈련함으로써, 로봇은 노이즈를 무시하고 맥락을 신뢰하는 법을 배웁니다. 마침내 실제 환경(깨끗한 입력값)에서 실행될 때, 로봇은 노이즈를 무시하고 맥락을 따르는 법을 배웠기에 단 한 단계만에 즉시 정답으로 "도약"할 수 있습니다.

실험: 실제로 효과가 있는가?

팀은 세 가지 방식으로 이 아이디어를 테스트했습니다.

  1. "토이(Toy)" 테스트 (MNIST 그리드): 이미지 생성(텍스트→이미지)의 반대인 이미지→텍스트 생성을 시뮬레이션했습니다. AI에게 손으로 쓴 숫자가 있는 깨끗한 그리드 이미지를 보여주면, AI는 그 이미지에 담긴 숫자 순서라는 짧은 텍스트를 예측해야 합니다. 여기서 노이즈는 이미지 자체가 아니라, 예측해야 할 텍스트(숫자 순서)의 데이터 표현(임베딩)에 적용되었습니다. 즉, '풍부한 조건(이미지)'과 '간결한 타겟(텍스트)'이라는 로봇 동작의 특성을 모방하기 위해 기존 설정을 반대로 뒤집은 것입니다. 이 방식으로 훈련했을 때, AI는 표준 방법보다 훨씬 더 정확하게 단 한 번의 시도로 숫자 순서를 맞혔습니다.
  2. 로봇 벤치마크 (LIBERO): 블록 쌓기나 물체 옮기기와 같은 표준 로봇 작업들을 테스트했습니다.
    • 결과: 이 "고노이즈(high-noise)" 방식으로 훈련된 로봇은 한 단계 만에 완벽한 동작을 수행할 수 있었습니다.
    • 비교: 이 1단계 로봇은 동작을 파악하는 데 10단계가 걸리는 로봇들과 대등하거나 때로는 더 나은 성능을 보였습니다.
    • 규모: 거대 모델(14억 개의 파라미터)에서도 이 1단계 방식은 긴 작업에서 95.6%의 성공률을 달성했습니다.
  3. 실제 로봇 테스트: 실제 물리적인 양손 로봇 팔을 사용하여 테스트했습니다. 로봇의 뇌를 바꾸지 않고도, 단지 사고방식(1단계 대신 10단계를 사용하는 것)을 바꾸는 것만으로도 병뚜껑을 돌려 끼우거나 탑을 쌓는 작업에서 기존의 느린 방식과 대등하거나 더 나은 성능을 보였습니다.

하지 않은 것 (주의사항)

비유의 정확성을 유지하기 위해, 이 논문이 하지 않은 일을 명시하는 것이 중요합니다.

  • 새로운 유형의 로봇 뇌를 발명하지 않았습니다.
  • 학생에게 보여주는 "선생님" 로봇을 사용하지 않았습니다(증류/distillation 과정 없음).
  • 복잡한 추가 훈련 단계를 추가하지 않았습니다.

그들은 단지 표준 학습 방법을 가져와서 "고노이즈" 시나리오에 더 집중하도록 "스케줄"을 변경했을 뿐입니다.

결론

이 논문의 핵심 메시지는 간단합니다: 호두를 깨기 위해 대포를 사용하지 마세요.

로봇의 동작은 복잡한 이미지와 달리 작고 구체적이기 때문에, 이미지 생성에서 개발된 무거운 다단계 메커니즘이 필요하지 않습니다. 연습 과정에서 혼돈(높은 노이즈)을 다루도록 훈련함으로써, 로봇은 단서를 신뢰하고 즉각적으로 올바른 움직임을 수행하는 법을 배웁니다. 이를 통해 복잡한 새 알고리즘 없이도 로봇을 더 빠르고 단순하게 훈련할 수 있습니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →