SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation

Each language version is independently generated for its own context, not a direct translation.

🤖 1. 문제점: "기억력이 짧은 로봇의 고난"

기존의 로봇 학습법 (Diffusion Policy) 은 로봇에게 "지금 보고 있는 화면과 지난 몇 초의 화면"을 보여주고 행동을 결정하게 했습니다.

비유: 마치 메모지를 5 장만 들고 있는 학생이라고 상상해 보세요.
- 간단한 문제 (컵을 들어 올리기) 는 메모지를 보면 해결할 수 있습니다.
- 하지만 긴 작업 (예: 책상 정리 → 물병 옮기기 → 쓰레기 버리기) 을 하려면, 5 장의 메모지로는 과거에 무엇을 했는지, 지금 어디까지 왔는지를 기억할 수 없습니다.
- 그래서 로봇은 작업이 길어질수록 혼란에 빠지고, "아, 내가 방금 이 물건을 줬었지?" 같은 중요한 정보를 잊어버려서 실패합니다. 심지어 작업이 길어질수록 실수가 더 많아지는 기이한 현상이 발생했습니다.

💡 2. 해결책: "자라나는 씨앗과 지능적인 필터"

저자들은 이 문제를 해결하기 위해 SeedPolicy라는 새로운 방법을 고안했습니다. 이름처럼 '씨앗'이 자라나듯 로봇의 기억이 스스로 발전하도록 만든 것입니다.

핵심은 두 가지 아이디어입니다:

A. '시간을 따라 자라는 기억' (Self-Evolving Latent State)

비유: 메모지 5 장을 계속 들고 다니는 대신, **한 권의 '일기장'**을 가지고 다니는 것입니다.
- 로봇은 매 순간 새로운 일을 겪으면, 그 내용을 일기장에 요약해서 적어 넣습니다.
- 과거의 모든 세부적인 영상 (화면) 을 다 기억할 필요 없이, "무엇을 했는지"라는 핵심 내용만 일기장에 축적됩니다.
- 그래서 작업이 100 단계든 1,000 단계든, 로봇은 일기장만 보면 "내가 지금 어디까지 왔는지"를 정확히 알 수 있습니다.

B. '지능적인 필터' (Self-Evolving Gated Attention)

비유: 일기장을 쓸 때 중요하지 않은 소음은 지우는 지능적인 필기 도구를 사용합니다.
- 로봇이 일을 할 때 배경이 흔들리거나, 가구가 움직이는 등 중요하지 않은 시각적 소음이 많이 생깁니다.
- 기존 기술은 이 소음까지 다 일기장에 적어 넣어서 혼란을 겪었습니다.
- 하지만 SeedPolicy 는 **"이 정보는 중요하지 않으니 버려라"**라고 스스로 판단하는 **필터 (Gate)**를 달았습니다.
- 그래서 로봇은 중요한 정보만 선별해서 일기장에 기록하므로, 주변이 아무리 시끄럽거나 복잡해도 집중력을 잃지 않습니다.

🚀 3. 결과: "작은 뇌로 거인 같은 성능"

이 기술을 적용한 결과 놀라운 성과가 나왔습니다.

긴 작업의 대가: 작업이 길어질수록 기존 로봇은 실패율이 급증했지만, SeedPolicy 는 작업이 길어질수록 오히려 더 잘했습니다. (기억력이 길어질수록 더 똑똑해짐)
효율성: 거대한 인공지능 (수십 억 개의 파라미터를 가진 VLA 모델) 과 비슷한 성능을 내면서도, 그보다 10~100 배 작은 크기로 작동합니다.
- 비유: 거대한 슈퍼컴퓨터를 쓸 필요 없이, 가방에 들어갈 만한 작은 노트북으로도 세계 최고 수준의 퍼포먼스를 낸 것과 같습니다.

📝 4. 요약: 왜 이것이 중요한가요?

이 논문은 로봇이 오랜 시간 동안 복잡한 일을 할 때 겪는 '기억 상실'과 '주변 소음' 문제를 해결했습니다.

기존: "지금 보이는 것만 보고 행동한다" → 작업이 길어지면 망함.
SeedPolicy: "과거의 핵심을 일기장에 요약하고, 소음은 걸러내며 행동한다" → 작업이 길어질수록 더 완벽해짐.

이 기술은 앞으로 로봇이 집안일을 하거나, 공장에서 복잡한 조립 작업을 할 때 인간처럼 오랫동안 집중하고 실수 없이 일할 수 있는 기반을 마련해 줍니다. 마치 로봇에게 **'장기 기억력'과 '집중력'**을 선물한 것과 같습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

로봇 조작 (Robot Manipulation) 분야에서 모방 학습 (Imitation Learning, IL) 은 전문가의 시연을 통해 로봇이 기술을 습득하게 하는 핵심 패러다임입니다. 특히 확산 정책 (Diffusion Policy, DP) 은 인간 행동의 다중 모드 (multi-modal) 분포를 효과적으로 모델링하여 복잡한 작업에서 뛰어난 안정성과 정밀도를 보여왔습니다.

그러나 기존 확산 정책에는 관측 시간 범위 (Observation Horizon) 가 증가함에 따라 성능이 오히려 저하되는 치명적인 한계가 존재했습니다.

현상: 관측 창 (observation window) 을 늘려 더 긴 시간의 맥락을 제공하려 할 때, 기존 모델은 성능이 급격히 떨어졌습니다.
원인: 단순하게 이미지 프레임을 쌓아 (stacking) 입력으로 사용하는 방식은 복잡한 시간적 의존성 (temporal dependencies) 을 포착하지 못하며, 시간이 지날수록 관련 없는 정보 (배경 변화, 가려짐 등) 가 누적되어 노이즈로 작용하기 때문입니다.
한계: 이러한 문제는 장기 작업 (Long-horizon tasks) 을 수행할 때 로봇이 맥락을 잃거나 실행이 멈추는 (stagnation) 현상을 초래합니다.

2. 제안 방법론 (Methodology)

저자들은 확산 정책의 시간적 모델링 병목 현상을 해결하기 위해 자가 진화 게이트 어텐션 (Self-Evolving Gated Attention, SEGA) 모듈을 도입하여 SeedPolicy 를 제안했습니다.

핵심 구성 요소: SEGA

SEGA 는 시간의 흐름에 따라 진화하는 잠재 상태 (latent state) 를 유지하며, 긴 관측 범위를 고정된 크기의 표현으로 압축하고 불필요한 정보를 필터링합니다.

이중 스트림 구조 (Dual-stream Design):
- 상태 업데이트 (State Update): 새로운 관측 정보 ( $O_t$ ) 와 이전 잠재 상태 ( $S_{t-1}$ ) 를 상호작용시켜 새로운 상태 ( $S_t$ ) 로 업데이트합니다.
- 상태 검색 (State Retrieval): 역사적 맥락 ( $S_{t-1}$ ) 을 활용하여 현재 관측 정보를 강화된 특징 ( $EObst$ ) 으로 변환합니다. 이는 장기 의존성으로 인해 손실된 정보를 복원하는 역할을 합니다.
자가 진화 게이트 (Self-Evolving Gate, SEG):
- 기존 어텐션 메커니즘의 단점인 노이즈 누적을 방지하기 위해 도입되었습니다.
- 동작 원리: 크로스 어텐션 (Cross-Attention) 맵에서 추출된 어텐션 점수를 '관련성 신호 (relevance signal)'로 해석합니다. 이를 통해 시간적 희소성 (temporal sparsity) 을 강제하며, 의미 있는 정보만 잠재 상태에 통합하고 배경 이동이나 가려짐과 같은 노이즈는 동적으로 억제합니다.
- 효율성: 어텐션의 계산 비용이 관측 길이에 따라 2 차 함수적으로 증가하는 문제를 해결하기 위해, 재귀적 (recurrent) 업데이트 방식을 사용하여 고정된 크기의 잠재 상태를 유지함으로써 계산 오버헤드를 줄였습니다.
SeedPolicy 아키텍처:
- 입력 (RGB 이미지, 조인트 포즈) → 인코더 → SEGA 모듈 (잠재 상태 업데이트 및 강화된 특징 생성) → Diffusion Action Expert (미래 행동 시퀀스 예측).

3. 주요 기여 (Key Contributions)

SEGA 모듈 제안: 어텐션 메커니즘과 동적 게이팅을 결합하여 긴 시간 의존성을 포착하면서도 불필요한 시간적 노이즈를 필터링하는 컴팩트한 잠재 상태 진화 메커니즘을 개발했습니다.
Horizon Scaling 해결: 확산 기반 제어에서 관측 범위가 커질수록 성능이 떨어지던 문제를 역전시켰습니다. 관측 창을 늘릴수록 성능이 지속적으로 향상되는 Horizon Scaling 을 실현했습니다.
성능 및 효율성 입증:
- RoboTwin 2.0 벤치마크: 50 가지 조작 작업에서 기존 확산 정책 (DP) 및 다른 IL 베이스라인을 압도했습니다.
- 성능 향상: CNN 및 Transformer 백본을 평균했을 때, 깨끗한 환경에서 36.8%, 난이도가 높은 무작위 환경에서 169% 의 상대적 성능 향상을 기록했습니다.
- 파라미터 효율성: 12 억 (1.2B) 파라미터 규모의 거대 Vision-Language-Action (VLA) 모델 (RDT 등) 과 경쟁하는 성능을 1~2 자릿수 적은 파라미터로 달성하여 높은 효율성을 입증했습니다.

4. 실험 결과 (Results)

시뮬레이션 (RoboTwin 2.0): 50 가지 작업 중 45~44 개에서 베이스라인을 능가했습니다. 특히 작업 길이가 길어질수록 (Short → Medium → Long) SeedPolicy 와 베이스라인 간의 성능 격차가 급격히 벌어졌습니다.
- Long Length: 베이스라인은 맥락 상실로 인해 성능이 급락한 반면, SeedPolicy 는 16~22% 의 우위를 유지했습니다.
실제 로봇 (Dexmal Dos W1):
- 루핑 플레이스 - 회수 (Looping Place-Retrieval), 순차적 피킹 (Sequential Picking), 병 전달 (Bottle Handover) 과 같은 복잡한 장기 작업에서 실패 사례를 크게 줄였습니다.
- 실패 원인 해결:
  1. 실행 정지 및 상태 앨리어싱 (State Aliasing): 시각적 입력이 초기 상태와 유사할 때 로봇이 멈추는 현상을 해결했습니다. SEGA 는 역사적 맥락을 유지하여 작업 진행 상황을 인지하게 합니다.
  2. 깊이 정보 부족: 2D 카메라만 사용하더라도 시간적 맥락을 통해 3D 공간 기하학을 암시적으로 재구성하여 정밀한 위치 잡기 (air grabs 방지) 를 가능하게 했습니다.
Ablation Study:
- 단순 시간 어텐션 추가만으로는 효과가 제한적이었으나, 재귀적 상태 업데이트와 자가 진화 게이트 (SEG) 가 결합되었을 때 가장 높은 성능을 발휘했습니다.
- SEG 가 어텐션 점수를 게이팅 신호로 사용하는 방식이 MLP 기반 게이트보다 장기 작업에서 우월함을 입증했습니다.

5. 의의 및 결론 (Significance)

이 논문은 확산 정책 (Diffusion Policy) 의 가장 큰 약점인 장기 시간적 의존성 모델링의 한계를 해결했습니다. SeedPolicy 는 다음과 같은 의의를 가집니다:

효율적인 장기 작업 수행: 거대 모델 (Foundation Models) 에 의존하지 않고도, 적은 파라미터로 장기적이고 복잡한 로봇 조작 작업을 안정적으로 수행할 수 있는 새로운 기준을 제시했습니다.
실용성: 엣지 장치나 실시간 제어에 필요한 낮은 계산 비용과 높은 성능을 동시에 만족시켜 실제 로봇 적용 가능성을 높였습니다.
기술적 혁신: 시간적 차원에서의 선택적 정보 제어 (Temporal Gating) 가 신경망 아키텍처의 견고성과 표현력을 높이는 강력한 설계 원칙임을 증명했습니다.

결론적으로 SeedPolicy 는 모방 학습을 통한 로봇 조작 분야에서 State-of-the-Art (SOTA) 를 달성하며, 특히 긴 시간 범위의 작업을 수행해야 하는 실제 로봇 응용 분야에 혁신적인 방향을 제시합니다.

SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation

🤖 1. 문제점: "기억력이 짧은 로봇의 고난"

💡 2. 해결책: "자라나는 씨앗과 지능적인 필터"

A. '시간을 따라 자라는 기억' (Self-Evolving Latent State)

B. '지능적인 필터' (Self-Evolving Gated Attention)

🚀 3. 결과: "작은 뇌로 거인 같은 성능"

📝 4. 요약: 왜 이것이 중요한가요?

1. 문제 정의 (Problem)

2. 제안 방법론 (Methodology)

핵심 구성 요소: SEGA

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers