Demystifying Action Space Design for Robotic Manipulation Policies

Each language version is independently generated for its own context, not a direct translation.

이 논문은 로봇이 물건을 잡거나 옮기는 일을 배울 때, **"로봇에게 어떤 명령을 내리는 방식 (행동 공간 설계)"**이 얼마나 중요한지를 밝힌 연구입니다.

기존 연구들은 "데이터를 더 많이 모으자"거나 "모델을 더 크게 만들자"는 데 집중했지만, 이 논문은 **"로봇에게 말을 걸 때 쓰는 '언어' (명령어) 를 어떻게 정하느냐"**가 성공의 핵심이라고 말합니다. 마치 요리사가 재료를 많이 사 왔더라도, 레시피 (명령어) 가 잘못되면 맛있는 요리를 못 만드는 것과 같습니다.

저희는 이 복잡한 연구를 4 가지 핵심 비유로 쉽게 설명해 드리겠습니다.

1. 로봇의 '언어'를 정하기: 절대 위치 vs. 상대 이동

로봇에게 "손을 움직여"라고 할 때, 두 가지 방식이 있습니다.

절대 위치 (Absolute): "지금 네 손이 A 지점에 있는데, B 지점으로 가봐." (전체 지도를 보고 목표 좌표를 정함)
- 비유: "집에서 5km 떨어진 카페로 가봐."라고 말하는 것.
- 문제점: 로봇이 현재 위치를 정확히 알고 있어야 하며, 거리가 멀어질수록 헷갈리기 쉽습니다.
상대 이동 (Delta): "지금 손에서 앞으로 10cm만 더 움직여." (현재 상태 기준의 변화량)
- 비유: "지금 걷고 있는 방향으로 10 걸음 더 걸어봐."라고 말하는 것.
- 결과: 이 논문은 상대 이동 (Delta) 방식이 훨씬 더 안정적이고 배우기 쉽다고 결론 내렸습니다. 로봇이 "지금부터 얼마나 움직일지"만 생각하면, 복잡한 전체 지도를 외울 필요가 없기 때문입니다.

2. 명령의 '스케일': 한 번에 vs. 나누어서

로봇이 움직일 때, 한 번에 모든 움직임을 예측할지, 아니면 쪼개서 할지 고민해야 합니다.

한 번에 (Chunk-wise): "이 2 초 동안의 모든 움직임을 한 번에 예측해."
- 비유: 2 분짜리 영상을 한 번에 다 그려보라고 시키는 것.
순서대로 (Step-wise): "1 초 뒤엔 이렇게, 그다음 1 초 뒤엔 저렇게..."라고 하나씩 예측해.
- 비유: 1 초씩 끊어서 그림을 그리는데, 앞의 실수가 다음 그림에 계속 영향을 미쳐서 결국 엉망이 되는 것.
결과: **한 번에 예측하는 방식 (Chunk-wise)**이 훨씬 좋습니다. 작은 실수가 다음 단계로 계속 쌓여 커지는 '오류 증폭' 현상을 막아주기 때문입니다.

3. 로봇의 '관점': 관절 중심 vs. 손끝 중심

로봇이 자신의 몸을 어떻게 인식하느냐도 중요합니다.

관절 중심 (Joint-space): "어깨를 30 도, 팔꿈치를 45 도, 손목을 10 도..."라고 각 관절의 각도를 직접 제어합니다.
- 장점: 로봇의 몸 구조를 정확히 알 수 있어 안정적입니다.
- 단점: 복잡한 수학을 로봇 스스로 배워야 하므로 학습이 어렵습니다.
손끝 중심 (Task-space): "손끝을 저기 있는 컵으로 가져가."라고 3 차원 공간상의 위치를 직접 제어합니다.
- 장점: 사람이 보기에 직관적이고, 다른 로봇으로 옮길 때 (예: 6 개 팔 로봇에서 4 개 팔 로봇으로) 매우 유리합니다.
- 단점: 로봇의 몸 구조를 수학적으로 변환하는 과정에서 오차가 생길 수 있어 불안정할 수 있습니다.

4. 결론: 어떤 상황에서 무엇을 써야 할까?

이 논문은 13,000 번 이상의 실제 로봇 실험을 통해 다음과 같은 **'만능 레시피'**를 제시합니다.

일반적인 상황 (단일 로봇, 충분한 데이터):
- 가장 좋은 조합: 상대 이동 (Delta) + 관절 중심 (Joint) + 한 번에 예측 (Chunk)
- 이유: 로봇이 자신의 몸을 잘 이해하고, 작은 오차도 쌓이지 않게 하므로 가장 정확하고 강력합니다.
- 비유: 전문 요리사가 자신의 주방과 도구 (관절) 를 잘 알고, 재료를 조금씩 나누어 (상대 이동) 요리하는 것.
특별한 상황 (다른 로봇으로 옮기거나, 새로운 환경):
- 가장 좋은 조합: 상대 이동 (Delta) + 손끝 중심 (Task-space)
- 이유: 로봇의 몸통 (관절) 이 달라도, "손끝을 컵으로 가져가"라는 명령은 어떤 로봇에게나 통하기 때문입니다.
- 비유: 다른 주방 (다른 로봇) 으로 이동할 때, "칼을 저기 있는 양파로 가져가"라고 하면 어떤 주방에서도 통하는 것.

요약하자면

이 연구는 로봇 공학자들에게 **"무조건 데이터를 많이 모으는 것보다, 로봇에게 명령을 내리는 '언어'를 잘 고르는 것이 더 중요하다"**고 가르쳐 줍니다.

가장 추천하는 방법: 로봇이 "지금부터 얼마나 움직일지" (상대 이동) 를 "관절 각도"로 "한 번에 예측"하게 하세요.
예외: 만약 로봇을 다른 종류로 바꾸거나 다양한 로봇에게 적용하고 싶다면, "손끝 위치"를 기준으로 명령을 내리세요.

이처럼 단순해 보이는 '명령어 설계'가 로봇이 세상을 얼마나 똑똑하게 움직일지 결정하는 핵심 열쇠라는 것을 이 논문이 밝혀냈습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 문제 (Problem)

모호한 설계 기준: 로봇 조작 정책 학습에서 액션 공간 (예: 관절 공간 vs 작업 공간, 절대값 vs 상대값) 의 선택은 정책의 학습 가능성 (Learnability) 과 배포 안정성 (Stability) 을 결정짓는 핵심 요소임에도 불구하고, 현재까지 명확한 합의나 통일된 가이드라인이 부재합니다.
임의적 선택의 위험: 연구자들이 기존 코드베이스의 설정을 그대로 차용하거나 임의의 휴리스틱을 사용하여 액션 공간을 선택함으로써, '최고 성능 (SOTA)' 결과가 특정 undocumented 제어 선택과 혼동되거나 재현성이 떨어지는 문제가 발생합니다.
대규모 검증의 부재: 시뮬레이션의 한계와 실제 로봇 평가의 높은 비용으로 인해, 다양한 설계 선택지가 로봇 학습에 미치는 영향을 체계적으로 비교한 대규모 연구가 부족했습니다.

2. 방법론 (Methodology)

저자는 액션 공간 설계를 시간적 (Temporal) 과 공간적 (Spatial) 두 개의 직교하는 축으로 분해하여 체계적으로 분석했습니다.

A. 액션 추상화 분류 (Action Abstraction Taxonomy)

공간적 추상화 (Spatial Abstraction):
- 관절 공간 (Joint-space): 모터 토크나 관절 각도를 직접 제어. 역기구학 (IK) 해를 구할 필요가 없어 수치적 안정성이 높으나, 정책이 로봇의 복잡한 기구학적 구조를 학습해야 함.
- 작업 공간 (Task-space/EEF): 엔드 이펙터의 위치와 자세를 제어. 시각적 관찰과 직관적이지만, 배포 시 역기구학 솔버를 사용해야 하며 수치적 특이점 (Singularity) 과 오차 누적 문제가 발생 가능.
시간적 추상화 (Temporal Abstraction):
- 절대값 (Absolute/0-th order): 목표 상태 (Target State) 를 직접 예측.
- 상대값/델타 (Delta/1-st order): 상태 변화량 (Increment) 을 예측.
액션 청킹 (Action Chunking): 미래의 액션 시퀀스를 예측하는 기술. 이 경우 Step-wise Delta(이전 예측값 기준) 와 Chunk-wise Delta(청크 시작점 기준) 의 정렬 프레임 선택이 중요한 설계 변수로 작용함.

B. 실험 설정

규모: 13,000 회 이상의 실제 로봇 롤아웃 (Real-world rollouts), 500 개 이상의 훈련된 모델, 4 가지 시나리오 (단일 팔, 양손, 시뮬레이션 등) 에서 평가.
플랫폼: AgileX (단일/양손), AIRBOT, RoboTwin-2.0 (시뮬레이션).
모델: 회귀 기반 (ACT) 및 흐름 매칭 기반 (Diffusion Policy, Flow Matching) 정책.
평가 프로토콜: 공간적 커버리지를 보장하기 위해 그리드 기반 초기 조건 설정 및 통계적 유의성 확보를 위한 다중 트라이얼 수행.

3. 주요 기여 및 결과 (Key Contributions & Results)

A. 구현 세부 사항의 결정적 영향 (RQ1)

Chunk-wise Delta 의 우위: Step-wise Delta 는 예측 오차가 시간 축을 따라 누적되어 증폭되는 문제가 있음 (Proposition 4.1). 반면, Chunk-wise Delta(청크 시작점 기준) 는 오차 누적 없이 독립적인 오차 전파를 제공하여 모든 작업에서 Step-wise 보다 평균 10% 이상 높은 성능을 보임.
Horizon(k) 과의 상호작용:
- Absolute: 긴 실행 Horizon 을 선호 (전역적 일관성 유지).
- Delta: 짧은 실행 Horizon 을 선호 (오차 누적 및 드리프트 방지).
- 결론: 액션 추상화 유형에 따라 최적의 Horizon 을 다르게 설정해야 함.

B. 일반화 가능한 경향성 (RQ2)

시간적 추상화: 모든 학습 패러다임과 플랫폼에서 Delta(상대값) 표현이 Absolute(절대값) 보다 일관되게 우월함. 이는 고차원 시각 관찰에서 전역 좌표로 직접 매핑하는 것보다, 즉각적인 변위 (Displacement) 를 학습하는 것이 더 tractable 한 인ductive bias 를 제공하기 때문.
공간적 추상화:
- 일반적인 설정 (충분한 데이터/모델): Joint-space(관절 공간) 가 더 강력한 성능을 보임. 특히 Flow Matching(생성 모델) 과 결합 시, 복잡한 관절 공간의 다중 모드 분포를 효과적으로 학습하여 안정성과 성능을 극대화.
- 강력한 생성 모델 (Diffusion 등) 과의 시너지: Joint-space 는 모델의 표현력이 높을수록 그 이점이 더욱 부각됨.

C. 시스템적 견고성 및 확장성 (RQ3)

데이터 및 컴퓨팅 스케일링: 데이터 양과 학습 에포크가 증가할수록 Joint-space + Delta 조합의 우위가 더욱 뚜렷해짐.
전이 학습 및 크로스-에임보디먼트 (Cross-embodiment):
- 예외적인 발견: 로봇의 형태 (Morphology) 가 다른 환경으로 전이하거나 (Cross-embodiment), 사전 훈련된 기초 모델 (Foundation Model, 예: $\pi_0$ ) 을 사용할 때는 Task-space(작업 공간) 가 Joint-space 보다 우위를 점함.
- 이유: Task-space 는 로봇 고유의 기구학을 추상화하여 로봇 간 지식 전이를 용이하게 하기 때문.

4. 결론 및 실용적 가이드라인 (Significance & Guidelines)

이 연구는 액션 공간 설계가 단순한 구현 디테일이 아니라 정책 학습의 성패를 좌우하는 핵심 요소임을 입증했습니다. 저자는 다음과 같은 실용적 가이드라인을 제시합니다:

시간적 설계: 현대적인 정책 백본 (Backbone) 에서는 Chunk-wise Delta 방식을 사용해야 함. (Step-wise 는 피할 것).
공간적 설계 (표준 설정): 특정 하드웨어 플랫폼에서 최대 성능을 목표로 할 때 (충분한 데이터/학습 자원), Joint-space + Chunk-wise Delta 조합이 가장 강력하고 견고한 결과를 제공함.
공간적 설계 (일반화/전이 학습): 로봇 간 전이 (Cross-embodiment) 나 기초 모델 전이 학습이 목표일 때는 Task-space 가 더 나은 선택임.
Horizon 조정: Delta 방식은 짧은 실행 Horizon 을, Absolute 방식은 긴 Horizon 을 사용하는 것이 최적의 성능을 위한 필수 조건임.

5. 의의

이 논문은 로봇 조작 분야에서 '어떻게 액션을 표현할 것인가'에 대한 경험적 근거를 제공하여, 향후 기초 로봇 모델 (Foundation Models) 의 설계와 전이 학습 전략 수립에 중요한 기준을 마련했습니다. 특히 대규모 실증 데이터를 통해 시뮬레이션과 실제 로봇 간의 격차를 줄이고, 재현성 있는 로봇 학습 연구의 토대를 다졌습니다.