Diffusion Policy through Conditional Proximal Policy Optimization

Each language version is independently generated for its own context, not a direct translation.

1. 문제점: "한 가지 답만 찾는 똑똑한 학생" vs "여러 가지 가능성을 가진 천재"

기존의 강화학습 (RL) 은 로봇에게 행동을 가르칠 때, 가장 유력한 정답 하나를 찾아서 그쪽으로만 가도록 훈련시켰어요. 마치 시험에서 "A 가 정답이다"라고 외운 학생처럼요.
하지만 세상은 복잡합니다. 어떤 상황에서는 왼쪽으로 가는 게 정답일 수도 있고, 오른쪽으로 가는 게 정답일 수도 있죠. (예: 미로에서 여러 개의 출구가 있는 경우)
기존 방식은 이런 **복잡한 상황 (다중 모드)**에서 "A 와 B 사이 어딘가"라는 애매한 답을 내거나, 아예 움직이지 못하는 실수를 저지르곤 했습니다.

최근에는 **'확산 모델 (Diffusion Model)'**이라는 기술을 도입해서, 로봇이 "A, B, C 모두 가능성 있어!"라고 여러 가지 행동을 동시에 상상할 수 있게 만들었습니다. 하지만 이 기술을 학습시킬 때 엄청난 계산 비용이 들고, 특히 "에이전트가 얼마나 탐험을 해야 할지 (엔트로피)"를 조절하기가 매우 어려웠습니다.

2. 이 논문의 해결책: "조건부 PPO"라는 새로운 지도법

이 논문은 **"확산 모델의 복잡한 수학을 쓰지 않고도, 로봇이 여러 가지 행동을 할 수 있게 가르치는 방법"**을 제안합니다.

🍳 비유: "요리 레시피를 바꾸다"

기존 방식 (기존 확산 정책): 요리를 할 때, 재료를 섞고 끓이고 식히는 과정을 모두 역으로 거슬러 올라가며 "왜 이 재료를 넣었지?"라고 계산해야 했습니다. (매우 느리고 복잡함)
이 논문의 방식 (DP-CPPO): 요리를 할 때, **"기본 반죽 (기존 정책)"**을 준비하고, 그 위에 **"새로운 향신료 (보정 단계)"**를 살짝 뿌리는 방식으로 바꿨습니다.
- 이 '새로운 향신료'는 아주 간단한 **가우시안 분포 (정규분포)**로 계산됩니다.
- 즉, 복잡한 역산술을 할 필요 없이, **"기존 행동에서 조금만 더 잘하게 수정하자"**는 간단한 규칙만 적용하면 됩니다.

3. 핵심 아이디어 3 가지

① "한 번에 한 걸음씩" (조건부 PPO)

기존에는 전체 과정을 한 번에 계산해야 했지만, 이 방법은 정책을 업데이트할 때마다 확산 모델의 '한 단계'만큼만 생각하도록 만들었습니다.

비유: 산을 오를 때, 정상까지의 전체 경로를 미리 계산하는 대신, **"지금 발밑에서 가장 좋은 다음 발걸음"**만 매번 결정하는 것입니다. 이렇게 하면 계산이 훨씬 빨라지고 메모리도 적게 씁니다.

② "호기심 유지하기" (엔트로피 정규화)

로봇이 너무 일찍 정답을 찾으면 (최적해에 갇히면) 다른 더 좋은 방법을 못 찾을 수 있습니다. 그래서 로봇에게 **"호기심 (탐험)"**을 가지게 해야 합니다.

문제: 확산 모델은 호기심을 수치로 계산하기가 매우 어려웠습니다.
해결: 이 논문은 "복잡한 확산 모델의 호기심을 계산할 필요 없이, 간단한 수정 단계 (가우시안) 의 호기심만 계산하면 된다"고 증명했습니다. 덕분에 로봇이 새로운 것을 시도하도록 자연스럽게 유도할 수 있습니다.

③ "안정적인 학습" (스코어 기반 정규화)

확산 모델은 처음에 너무 엉뚱한 행동을 할 수 있습니다.

비유: 로봇이 춤을 추는데, 처음에 너무 과격하게 추면 넘어질 수 있죠. 그래서 **"기본적인 리듬 (기본 가우시안 분포)"**에서 너무 벗어나지 않도록 살짝 잡아주는 장치를 추가했습니다. 이렇게 하면 학습이 더 안정적이고 빠르게 수렴합니다.

4. 실험 결과: "실제 로봇에서도 통했다"

이론만 좋은 게 아니라, 실제 시뮬레이션 (IsaacLab, MuJoCo) 에서 테스트했습니다.

다중 목표 미로: 여러 출구가 있는 미로에서, 기존 방식은 갈팡질팡하거나 멈췄지만, 이 방법은 **"왼쪽 출구로 가거나 오른쪽 출구로 가는 두 가지 명확한 행동"**을 모두 잘 수행했습니다.
성능: 기존 방식보다 더 높은 점수를 얻었고, 학습 속도도 빨랐습니다.

5. 한 줄 요약

"복잡한 확산 모델로 로봇을 가르칠 때, 거창한 수학을 다 쓸 필요 없이 '간단한 수정'과 '호기심'만 잘 조절하면, 로봇이 훨씬 똑똑하고 유연하게 여러 가지 행동을 할 수 있다!"

이 방법은 로봇이 복잡한 현실 세계에서도 더 잘 적응할 수 있는 길을 열어준다고 할 수 있습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

강화 학습 (RL) 에서 확산 모델 (Diffusion Models) 을 정책 (Policy) 으로 활용하는 것은 다중 모드 (Multi-modal) 행동을 모델링하고 더 다양하고 유연한 행동 생성을 가능하게 한다는 점에서 큰 잠재력을 보여주고 있습니다. 그러나 기존 확산 정책과 온-폴리시 (On-policy) 강화 학습 알고리즘을 결합하는 데에는 다음과 같은 근본적인 어려움이 존재합니다.

로그 가능도 (Log-likelihood) 계산의 난해성: 온-폴리시 RL (예: PPO) 은 정책의 로그 가능도나 그 기울기를 계산해야 합니다. 그러나 확산 모델은 여러 단계의 탈노이즈 (Denoising) 과정을 거치기 때문에, 전체 과정을 거슬러 올라가 로그 가능도를 정확하게 계산하는 것은 계산 비용이 매우 크거나 수학적으로 불가능 (Intractable) 합니다.
기존 방법의 한계:
- 재파라미터화 트릭 (Reparameterization trick) 을 사용하는 방법들은 Q-value 기반의 오프-폴리시 알고리즘에는 적합하지만, 이득 함수 (Advantage function) 추정이 비미분 가능한 온-폴리시 알고리즘에는 적용하기 어렵습니다.
- 정확한 확산 역변환 (Diffusion inversion) 을 통해 로그 가능도를 계산하는 방법 (예: GenPo) 은 재귀적인 구조로 인해 메모리와 계산 효율성이 매우 낮습니다.
- 흐름 매칭 (Flow matching) 을 이용한 근사 방법 (예: FPO) 은 로그 가능도 비율을 근사하지만, RL 에서 탐색 (Exploration) 에 필수적인 엔트로피 정규화 (Entropy Regularization) 항을 처리하지 못한다는 치명적인 단점이 있습니다.

2. 제안 방법론 (Methodology)

저자들은 조건부 근접 정책 최적화 (Conditional Proximal Policy Optimization, CPPO) 라는 새로운 프레임워크를 제안하여 위 문제를 해결합니다. 핵심 아이디어는 정책 반복 (Policy Iteration) 과정과 확산 생성 과정을 정렬 (Align) 시키는 것입니다.

2.1. 확산 정책 파라미터화 (Diffusion Policy Parametrization)

기존의 확산 모델이 미리 정의된 SDE(Stochastic Differential Equation) 를 통해 분포를 변환하는 것과 달리, 저자들은 각 정책 반복 (Policy Iteration) 을 확산 모델의 한 단계 (Denoising step) 로 간주합니다.

새로운 정책 $\pi_\theta(a|s)$ 를 기준 정책 $\tilde{\pi}(a_0|s)$ 와 조건부 가우시안 커널 $p_\theta(a|a_0, s)$ 의 합성곱으로 정의합니다:
$\pi_\theta(a|s) = \int \tilde{\pi}(a_0|s) p_\theta(a|a_0, s) da_0$
여기서 $p_\theta(a|a_0, s)$ 는 가우시안 분포 $N(a; a_0 + \mu_\theta, \Sigma_\theta)$ 로 파라미터화됩니다. 이는 역 SDE 또는 랑베주 역학 (Langevin dynamics) 에서의 스코어 함수와 위너 과정 (Wiener process) 항에 대응됩니다.

2.2. 조건부 PPO (Conditional PPO)

이 파라미터화를 통해 복잡한 확산 모델의 로그 가능도 계산을 피하고, 단순한 가우시안 분포의 로그 가능도만 계산하면 됩니다.

목표 함수 변환: 원래의 정책 최적화 문제를 $a_0 \sim \tilde{\pi}$ 후 $a \sim p_\theta(a|a_0, s)$ 로 샘플링하는 형태로 변환합니다.
효율성: 이 변환을 통해 목적 함수의 기울기 계산이 가우시안 분포의 특성 덕분에 매우 쉬워지며, 기존 PPO 의 'Clip' 트릭을 $p_\theta(a|a_0, s)$ 와 기준 가우시안 $p_{\theta_{sample}}$ 사이의 비율에 적용하여 안정성을 확보합니다.
Flow Matching 활용: 실제 구현에서는 매 반복마다 모든 가우시안 커널을 저장하는 대신, 각 정책 개선 후 학습된 최적 정책 $\pi_{\theta^*}$ 를 단일 Flow Matching 모델로 피팅 (Fitting) 하여 최종 확산 정책을 생성합니다.

2.3. 정규화 (Regularizations)

엔트로피 정규화: 확산 정책의 엔트로피를 직접 계산하는 것은 어렵지만, 제안된 프레임워크에서는 가우시안 커널 $p_\theta$ 의 엔트로피 하한 (Lower bound) 을 최대화함으로써 효율적으로 엔트로피 정규화를 수행합니다. 이는 탐색을 촉진합니다.
스코어 기반 정규화 (Score-based Regularization): 확산 정책이 사전 분포 (Standard Gaussian) 에서 너무 멀어지는 것을 방지하고 학습을 안정화하기 위해, $\mu_\theta$ 가 표준 가우시안의 스코어 함수와 정렬되도록 하는 정규화 항을 추가합니다.

3. 주요 기여 (Key Contributions)

새로운 온-폴리시 프레임워크: 정책 반복과 확산 생성 과정을 정렬하는 새로운 파라미터화 방법을 제안하여, 확산 정책을 온-폴리시 RL 에서 효율적으로 학습할 수 있는 길을 열었습니다.
계산 효율성 및 엔트로피 처리: 복잡한 로그 가능도 계산을 피하고 가우시안 확률만 평가하여 계산을 경량화했으며, 이를 통해 RL 의 핵심 요소인 엔트로피 정규화를 자연스럽게 통합할 수 있게 되었습니다.
다중 모드 행동 표현 및 성능 입증: 다양한 벤치마크 (IsaacLab, MuJoCo Playground) 에서 제안된 방법 (DP-CPPO) 이 기존 가우시안 PPO 및 다른 확산 기반 방법들 (FPO, DPPO) 보다 우수한 성능을 보이며, 특히 다중 모드 행동을 효과적으로 학습함을 입증했습니다.

4. 실험 결과 (Results)

다중 모드성 (Multi-modality): "Multi-Goal" 환경에서 안장점 (Saddle point) 과 같은 복잡한 상황에서, 가우시안 정책이 평균화로 인해 행동이 무너지는 (Collapse) 반면, 제안된 확산 정책은 여러 목표 방향으로의 행동을 동시에 유지하여 더 높은 보상을 획득했습니다.
계산 효율성: IsaacLab 의 Ant 태스크에서 1,000 에포크 학습 시, 기존 방법 (GenPo 등) 에 비해 메모리 사용량은 거의 동일하면서 학습 시간은 표준 PPO 와 유사한 수준으로 유지되었습니다.
벤치마크 성능:
- IsaacLab: 8 가지 로봇 제어 태스크에서 표준 PPO 와 비교하여 대부분의 태스크에서 동등하거나 더 높은 최종 보상을 달성했습니다.
- Playground: FPO 와 비교하여 대부분의 태스크에서 더 높은 보상을 기록했습니다. 특히 엔트로피 정규화 항이 탐색과 성능 향상에 결정적인 역할을 함을 확인했습니다.
정규화 효과: 스코어 기반 정규화 항이 학습의 안정성을 크게 향상시키고 수렴 속도를 높이는 것을 확인했습니다.

5. 의의 및 결론 (Significance)

이 논문은 확산 모델의 강력한 생성 능력 (다중 모드성) 을 강화 학습의 온-폴리시 최적화 프레임워크에 성공적으로 통합한 획기적인 연구입니다.

이론적 기여: 확산 모델의 로그 가능도 계산이라는 난제를 우회하여, 가우시안 커널 기반의 효율적인 최적화 문제로 변환한 새로운 관점을 제시했습니다.
실용적 기여: 엔트로피 정규화를 포함한 안정적인 학습 프로세스를 제공함으로써, 복잡한 로봇 제어 및 의사결정 문제에서 기존 단일 모드 (Unimodal) 정책의 한계를 극복하고 더 유연하고 강력한 에이전트를 구축할 수 있는 실용적인 도구를 마련했습니다.

결론적으로, DP-CPPO는 확산 기반 정책 학습의 계산적 비효율성과 엔트로피 처리 문제를 동시에 해결하여, 차세대 강화 학습 알고리즘으로서의 확산 모델의 가능성을 크게 확장했습니다.