로봇에게 컵을 쌓거나 책상 위를 마우스를 미는 것과 같은 섬세한 작업을 수행하도록 가르친다고 상상해 보세요. 이를 위해 인간이 완벽하게 그 일을 수행하는 영상을 보여줍니다. 이를'행동 복제 (behavior cloning)'라고 합니다.

하지만 함정이 하나 있습니다: 인간은 완벽하지 않습니다. 우리가 매끄럽게 움직이려고 노력할지라도, 우리의 손에는 미세한 무의식적인 떨림, 멈춤, 그리고 진동이 존재합니다. 이는 신호 속의'고주파 노이즈'와 같습니다.

로봇이 이러한 영상들로부터 학습하려 할 때, 종종 좋은 습관과 함께 나쁜 습관도 그대로 복사합니다. 로봇은 인간이 그랬던 것처럼 떨리고 덜컥거리는 법을 배우게 됩니다. 이는 특히 **확산 정책 (Diffusion Policy)**이라고 불리는 AI 유형에게 치명적입니다. 확산 정책을 소조가 잡음과 정적으로 가득 찬 점토 덩어리에서 시작해 노이즈를 천천히 벗겨내어 조각상을 드러내는 조각가라고 생각해 보세요. 문제는 원래 점토 (인간 데이터) 에 기이하고 날카로운 균열이 있다면, 조각가가 무언가를 매끄럽게 하려다 실수로 그 균열을 더 크게 만들어 버릴 수 있다는 점입니다. 그 결과 로봇 팔은 덜컥거리고 불안정해집니다.

해결책: 주파수 안내 연산자 (Frequency Guidance Operator, FGO)

이 논문의 저자이자 Junlin Wang 이 이끄는 연구팀은 이를 해결하기 위해 **주파수 안내 연산자 (FGO)**라는 새로운 방법을 제안합니다. 몇 가지 간단한 비유를 통해 그 작동 원리를 설명해 보겠습니다.

1. "흐리게 하고 선명하게 하기"비유

인간의 손 움직임을 담은 사진이 있다고 상상해 보세요.

문제: 사진은 흐릿하지만 (저주파), 동시에 정적과 입자 (고주파 노이즈) 도 포함되어 있습니다. 만약 사진 전체를 한 번에 선명하게 하려 한다면, 입자가 증폭되어 이미지가 더 나빠집니다.
옛 방법: 기존 AI 는 전체 그림 (매끄러운 움직임 + 덜컥거리는 노이즈) 을 한 번에 학습하려 합니다.
FGO 방법: 이 새로운 방법은 AI 에게 사진을 층별로 보도록 가르칩니다. 먼저 크고 흐릿한 형태 (손의 일반적인 경로) 를 봅니다. 그 경로가 명확해지면, 천천히 세부 사항을 추가합니다. 결정적으로 세부 사항을 추가할 때"입자 (노이즈)"를 무시하는 법을 배웁니다.

2. "하위 주파수 다양체 (The Smooth Path)"

이 논문은"하위 주파수 다양체"에 대해 언급합니다. 산등성이 길을 상상해 보세요.

전체 경로: 길에는 주요 도로가 있지만, 많은 느슨한 돌, 구덩이, 날카로운 가장자리 (노이즈) 도 있습니다.
FGO 경로: AI 는 주요 길과 평행하게 달리는 일련의 매끄러운 포장된 길 위를 걷도록 훈련됩니다.
- 먼저, 일반적인 방향만 보여주는 매우 넓고 매끄러운 길 (저주파) 을 걷습니다.
- 그다음, 조금 더 세부적인 길로 이동합니다.
- 마지막으로, 완전한 세부 사항이 담긴 길로 이동합니다.
- 이러한"매끄러운 길"을 하나씩 밟아나가면서 AI 는 날카로운 돌 위에 발을 디디지 않고 목적지에 도달하는 법을 배웁니다. 이는 로봇의 근육 기억에 인간의 덜컥거리는 움직임이 포함되기 전에 효과적으로"필터링"해내는 것입니다.

3. "안내하는 조각가"

로봇의 사고 과정 (역방향 탈노이즈라고 함) 동안, AI 는 보통 순수한 노이즈를 기반으로 다음 움직임을 추측하려 합니다.

FGO 는 안내자처럼 작용합니다: AI 에게 속삭입니다."지금 저 작고 빠른 떨림은 걱정하지 마세요. 먼저 크고 느린 움직임에 집중하세요."
AI 가 결정을 내리는 것에 가까워질수록, 안내자는 천천히 말합니다."좋습니다, 이제 약간의 세부 사항을 추가할 수 있지만 매끄럽게 유지하세요."
이를 통해 로봇의 최종 움직임은 인간의 신경질적인 떨림을 덜컥거리는 그대로 복사하는 것이 아니라, 유동적이고 일관된 것이 됩니다.

그들은 무엇을 발견했나요?

연구자들은 간단한 블록 들어 올리기부터 교묘한 손으로 문손잡이를 돌리거나 못을 망치로 치는 복잡한 작업에 이르기까지 15 가지 다른 로봇 작업에서 이를 테스트했습니다. 이들은 컴퓨터 시뮬레이션과 실험실의 실제 로봇 팔에서 이를 테스트했습니다.

더 매끄러운 움직임: FGO 를 사용한 로봇은 훨씬 더 매끄럽게 움직였습니다. 덜컥거림과 멈춤이 적었습니다.
더 높은 성공률: 움직임이 더 매끄럽고 예측 가능했기 때문에, 로봇들은 기존 방법을 사용한 로봇들보다 실제로 작업을 더 자주 완료했습니다.
현실 세계 증명: 그들은 컵을 집고 마우스를 미는 실제 로봇 팔에서도 이를 테스트했으며, 기존 표준 방법보다 더 잘 작동했습니다.

트레이드오프

이 논문은 작은 단점 하나를 인정합니다: AI 가 움직임을 파악하기 위해 이러한 추가적인"매끄러운 단계"를 거쳐야 하기 때문에, 표준 방법보다 생각하는 데 아주 조금 더 많은 시간 (수 밀리초) 이 걸린다는 것입니다. 그러나 저자들은 매끄러움과 성공률의 향상이 이러한 미세한 지연을 감당할 가치가 있다고 주장합니다.

요약하자면: FGO 는 로봇이 인간으로부터 학습할 때"큰 그림"에 먼저 집중하고"신경질적인 떨림"을 필터링하도록 가르쳐, 로봇이 덜컥거리는 모방자가 아닌 우아한 무용수처럼 움직이게 합니다.

기술 요약: 서브-주파수 다양체 탐색을 통한 주파수 유도 액션 확산

문제 정의

행동 복제 (behavior cloning) 를 통한 시각-운동 정책 학습은 종종 인간 전문가 시연에 존재하는 고주파수 노이즈를 계승하는 "병리 현상"으로 고통받습니다. 자연스러운 인간 데이터는 필연적으로 간헐적인 경련, 정지, 그리고 액션 떨림을 포함합니다. 확산 기반 정책이 이러한 원시적인 전체 주파수 궤적을 직접 모방하도록 훈련될 때, 이러한 부수적인 고주파수 변화에 과적합하는 경향이 있습니다. 그 결과 배포 중에는 불안정하고 경련적인 모터 명령이 발생합니다.

이 문제는 확산 정책에서 특히 심각합니다. 개념적으로 거칠기에서 정밀함으로 가는 패러다임을 따르는 반복적 탈노이즈 과정이 의미 있는 세밀한 디테일을 희생하면서 고주파수 아티팩트를 부추길 수 있기 때문입니다. 표준 확산 모델은 노이즈에서 전체 주파수 데이터 다양체로의 직접적인 매핑을 학습하는데, 이는 저주파수 의도와 고주파수 세부 사항이 시간적으로 얽혀 있는 복잡하고 비선형적인 작업에서 매우 도전적인 광대역 목적 함수입니다.

방법론: 주파수 유도 연산자 (FGO)

이러한 한계를 해결하기 위해 저자들은 생성 과정에서 암묵적으로 주파수 위계를 강제하는 새로운 확산 유도 메커니즘인 주파수 유도 연산자 (Frequency Guidance Operator, FGO) 를 제안합니다. 핵심 아이디어는 노이즈가 있는 샘플을 직접 전체 주파수 다양체로 강제하는 대신, 확장되는 주파수 대역을 가진 중간 서브-주파수 다양체의 위계를 통해 역방향 탈노이즈 과정을 유도하는 것입니다.

1. 멀티-대역 매핑 학습 (훈련 단계)

FGO 는 전체 주파수 데이터 다양체를 직접 예측하도록 모델을 훈련하는 대신, 노이즈에서 서브-주파수 데이터 다양체로의 매핑을 학습하도록 노이즈 예측기를 훈련합니다.

주파수 잘라내기 (Frequency Truncation): 훈련 중 깨끗한 액션 청크 $A^0_t$ 는 차단 주파수 $f$ 로 정의된 이산 저역 통과 필터 뱅크 ( $L_f$ ) 를 통과합니다. 이로 인해 주파수가 잘린 시퀀스 $A^{0,f}_t$ 가 생성됩니다.
조건부 예측: 노이즈 예측기 $\epsilon_\theta$ 는 차단 주파수 $f$ 에 명시적으로 조건을 부여하도록 확장되어 $\epsilon_\theta(A^{k,f}_t, k, O_t, f)$ 형태를 취합니다.
샘플링 전략: 안정성을 보장하기 위해 차단 주파수 $f$ 는 확률 $p_{base}$ 로 기본 주파수 $f_{base}$ 와 같게 샘플링되거나, 그렇지 않으면 $[f_{base}, f_{max}]$ 에서 균일하게 샘플링됩니다. 이는 유도 과정에 필수적인 안정적인 저주파수 기준선을 확립합니다.
k-f 결합 (KFC) 샘플링: 고 노이즈 수준에서 고주파수 신호가 노이즈에 의해 지배되는 상황에서 모델이 고주파수 예측에 용량을 낭비하는 것을 방지하기 위해, 차단 주파수 $f_{max}$ 의 상한선은 확산 단계 $k$ 에 따라 동적으로 조정됩니다. 높은 노이즈 수준은 저주파수만 훈련하도록 제한하고, 낮은 노이즈 수준은 더 넓은 주파수 대역 훈련을 허용합니다.

2. 점진적 유도 (추론 단계)

역방향 탈노이즈 과정에서 FGO 는 합성 벡터장을 생성하여 전체 주파수 다양체로 궤적을 유도합니다.

벡터장 보간: 각 탈노이즈 단계 $k$ $k$ 에서 유도 메커니즘은 두 가지 조건부 노이즈 추정의 가중 조합을 계산합니다.
1. $\epsilon_{base}$ : 저주파수 $f_{base}$ -다양체로 향하는 벡터장.
2. $\epsilon_{fine}$ : 더 높은 차단 주파수를 가진 중간 $f_k$ -다양체로 향하는 벡터장.
합성 장: 최종 노이즈 추정은 $\tilde{\epsilon} = (1 - \omega_k)\epsilon_{base} + \omega_k \epsilon_{fine}$ 입니다.
점진적 확장: 탈노이즈 과정이 진행됨에 따라 ( $k$ 가 감소함에 따라), 차단 주파수 $f_k$ 와 유도 가중치 $\omega_k$ 는 선형적으로 증가하도록 스케줄링됩니다. 이는 노이즈가 있는 샘플을 저주파수 기반에서 확장된 서브-주파수 다양체를 거쳐 전체 주파수 데이터 다양체에 도달할 때까지 점진적으로 유도합니다.
근사화: 추론 중 깨끗한 액션 $A^0_t$ 는 알 수 없으므로, 주파수가 잘린 노이즈 입력 $A^{k,f}_t$ 는 현재 노이즈 상태 $A^k_t$ 에 저역 통과 필터를 직접 적용하여 근사화합니다.

주요 기여

새로운 확산 유도 패러다임: 이 논문은 생성 중 탐색되는 주파수 대역을 명시적으로 제어함으로써 탈노이즈 과정에서 고주파수 노이즈를 억제하는 주파수 기반 유도 메커니즘을 소개합니다.
멀티-대역 훈련 및 추론: 이 방법은 주파수가 잘린 액션의 스펙트럼으로 모델을 훈련하고, 추론 중 점진적 유도 전략을 사용하여 저주파수 구조에서 고주파수 세부 사항까지 액션을 재구성합니다.
포괄적인 평가: 저자들은 Robosuite, MimicGen, Adroit, DexArt, 그리고 실제 세계 xArm 설정을 포함한 5 개의 벤치마크에 걸친 15 개의 로봇 조작 작업에서 FGO 를 검증했습니다.
절대 연구 (Ablation Studies): 이 논문은 기본 주파수 샘플링, KFC 샘플링 전략, 그리고 유도 가중치의 선형 스케줄링의 필요성을 확인하는 상세한 절대 연구를 제공합니다.

실험 결과

성공률: FGO 는 베이스라인 (DP3, DiT-Policy, FreqPolicy) 에 비해 일관되게 우수하거나 동등한 성공률을 달성합니다. Robosuite 와 MimicGen 벤치마크에서 FGO 는 4 개의 기본 작업 중 3 개와 두 개의 복잡한 MimicGen 작업에서 경쟁자들을 능가했습니다. Adroit 와 DexArt 정교한 조작 벤치마크에서 FGO 는 7 개 작업 중 6 개에서 베이스라인을 능가했습니다.
액션 부드러움: FGO 는 시간적 일관성을 크게 향상시킵니다. Robosuite "Can" 작업에서 FGO 는 모든 베이스라인 대비 가장 낮은 액션 총 변동 (ATV) 을 달성했으며, 특히 JerkRMS 가 현저히 감소하여 더 부드럽고 덜 경련적인 실행을 나타냈습니다.
실제 세계 성능: xArm 매니퓰레이터 (Cup 및 Mouse 작업) 에 대한 실제 세계 실험에서 FGO 는 베이스라인 DP3 방법을 일관되게 능가하여 물리적 환경에서의 견고성을 검증했습니다.
계산 비용: FGO 는 훈련 시간을 거의 추가하지 않습니다. 그러나 유도 메커니즘으로 인해 추론 지연 시간은 베이스라인보다 약간 높으며, 이는 유도 기반 알고리즘의 알려진 트레이드오프입니다.

중요성과 주장

이 논문은 FGO 가 행동 복제의 근본적인 한계, 즉 확산 정책이 인간 시연에서 고주파수 노이즈를 계승하고 증폭하는 경향을 해결한다고 주장합니다. 서브-주파수 다양체의 위계를 통해 생성 과정을 명시적으로 유도함으로써, FGO 는 전역 운동 구조 (저주파수) 학습과 세밀한 디테일 (고주파수) 학습을 효과적으로 분리합니다.

저자들은 이 접근 방식이 작업 수행에서 더 성공적인 정책을 제공할 뿐만 아니라 매우 부드럽고 시간적으로 일관된 액션 궤적을 생성한다고 주장합니다. 종종 생성을 불안정하게 만들 수 있는 외삽 가중치를 필요로 하는 표준 유도 방법 (Classifier-Free Guidance 등) 과 달리, FGO 는 주파수 다양체 간의 보간 전략을 사용하여 벡터장의 안정적인 볼록 조합을 유지합니다. 이 연구는 주파수 영역의 귀납적 편향을 활용함으로써 시뮬레이션과 실제 세계 로봇 응용 분야 모두에서 시각 - 운동 정책의 품질과 신뢰성을 크게 향상시킬 수 있음을 보여줍니다.

Frequency-Guided Action Diffusion via Sub-Frequency Manifold Traversal