SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation

이 논문은 긴 시간 범위의 로봇 조작 작업을 위해 시간적 정보를 효율적으로 압축하고 필터링하는 자기 진화 게이트 어텐션 (SEGA) 모듈을 도입하여 기존 확산 정책의 한계를 극복하고, 대규모 모델보다 훨씬 적은 파라미터로 뛰어난 성능을 달성하는 'SeedPolicy'를 제안합니다.

Youqiang Gui, Yuxuan Zhou, Shen Cheng, Xinyang Yuan, Haoqiang Fan, Peng Cheng, Shuaicheng Liu

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🤖 1. 문제점: "기억력이 짧은 로봇의 고난"

기존의 로봇 학습법 (Diffusion Policy) 은 로봇에게 "지금 보고 있는 화면과 지난 몇 초의 화면"을 보여주고 행동을 결정하게 했습니다.

  • 비유: 마치 메모지를 5 장만 들고 있는 학생이라고 상상해 보세요.
    • 간단한 문제 (컵을 들어 올리기) 는 메모지를 보면 해결할 수 있습니다.
    • 하지만 긴 작업 (예: 책상 정리 → 물병 옮기기 → 쓰레기 버리기) 을 하려면, 5 장의 메모지로는 과거에 무엇을 했는지, 지금 어디까지 왔는지를 기억할 수 없습니다.
    • 그래서 로봇은 작업이 길어질수록 혼란에 빠지고, "아, 내가 방금 이 물건을 줬었지?" 같은 중요한 정보를 잊어버려서 실패합니다. 심지어 작업이 길어질수록 실수가 더 많아지는 기이한 현상이 발생했습니다.

💡 2. 해결책: "자라나는 씨앗과 지능적인 필터"

저자들은 이 문제를 해결하기 위해 SeedPolicy라는 새로운 방법을 고안했습니다. 이름처럼 '씨앗'이 자라나듯 로봇의 기억이 스스로 발전하도록 만든 것입니다.

핵심은 두 가지 아이디어입니다:

A. '시간을 따라 자라는 기억' (Self-Evolving Latent State)

  • 비유: 메모지 5 장을 계속 들고 다니는 대신, **한 권의 '일기장'**을 가지고 다니는 것입니다.
    • 로봇은 매 순간 새로운 일을 겪으면, 그 내용을 일기장에 요약해서 적어 넣습니다.
    • 과거의 모든 세부적인 영상 (화면) 을 다 기억할 필요 없이, "무엇을 했는지"라는 핵심 내용만 일기장에 축적됩니다.
    • 그래서 작업이 100 단계든 1,000 단계든, 로봇은 일기장만 보면 "내가 지금 어디까지 왔는지"를 정확히 알 수 있습니다.

B. '지능적인 필터' (Self-Evolving Gated Attention)

  • 비유: 일기장을 쓸 때 중요하지 않은 소음은 지우는 지능적인 필기 도구를 사용합니다.
    • 로봇이 일을 할 때 배경이 흔들리거나, 가구가 움직이는 등 중요하지 않은 시각적 소음이 많이 생깁니다.
    • 기존 기술은 이 소음까지 다 일기장에 적어 넣어서 혼란을 겪었습니다.
    • 하지만 SeedPolicy 는 **"이 정보는 중요하지 않으니 버려라"**라고 스스로 판단하는 **필터 (Gate)**를 달았습니다.
    • 그래서 로봇은 중요한 정보만 선별해서 일기장에 기록하므로, 주변이 아무리 시끄럽거나 복잡해도 집중력을 잃지 않습니다.

🚀 3. 결과: "작은 뇌로 거인 같은 성능"

이 기술을 적용한 결과 놀라운 성과가 나왔습니다.

  • 긴 작업의 대가: 작업이 길어질수록 기존 로봇은 실패율이 급증했지만, SeedPolicy 는 작업이 길어질수록 오히려 더 잘했습니다. (기억력이 길어질수록 더 똑똑해짐)
  • 효율성: 거대한 인공지능 (수십 억 개의 파라미터를 가진 VLA 모델) 과 비슷한 성능을 내면서도, 그보다 10~100 배 작은 크기로 작동합니다.
    • 비유: 거대한 슈퍼컴퓨터를 쓸 필요 없이, 가방에 들어갈 만한 작은 노트북으로도 세계 최고 수준의 퍼포먼스를 낸 것과 같습니다.

📝 4. 요약: 왜 이것이 중요한가요?

이 논문은 로봇이 오랜 시간 동안 복잡한 일을 할 때 겪는 '기억 상실'과 '주변 소음' 문제를 해결했습니다.

  • 기존: "지금 보이는 것만 보고 행동한다" → 작업이 길어지면 망함.
  • SeedPolicy: "과거의 핵심을 일기장에 요약하고, 소음은 걸러내며 행동한다" → 작업이 길어질수록 더 완벽해짐.

이 기술은 앞으로 로봇이 집안일을 하거나, 공장에서 복잡한 조립 작업을 할 때 인간처럼 오랫동안 집중하고 실수 없이 일할 수 있는 기반을 마련해 줍니다. 마치 로봇에게 **'장기 기억력'과 '집중력'**을 선물한 것과 같습니다.