Diffusion Policy through Conditional Proximal Policy Optimization

이 논문은 확산 모델의 로그 가능도 계산 문제를 해결하기 위해 정책 반복과 확산 과정을 정렬하여 단순한 가우스 확률 평가만으로 온-정책 강화학습을 가능하게 하는 새로운 '조건부 근접 정책 최적화 (CPPO)' 방법을 제안하고, 이를 통해 다중 모드 행동을 생성하며 다양한 벤치마크에서 우수한 성능을 입증합니다.

Ben Liu, Shunpeng Yang, Hua Chen

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제점: "한 가지 답만 찾는 똑똑한 학생" vs "여러 가지 가능성을 가진 천재"

기존의 강화학습 (RL) 은 로봇에게 행동을 가르칠 때, 가장 유력한 정답 하나를 찾아서 그쪽으로만 가도록 훈련시켰어요. 마치 시험에서 "A 가 정답이다"라고 외운 학생처럼요.
하지만 세상은 복잡합니다. 어떤 상황에서는 왼쪽으로 가는 게 정답일 수도 있고, 오른쪽으로 가는 게 정답일 수도 있죠. (예: 미로에서 여러 개의 출구가 있는 경우)
기존 방식은 이런 **복잡한 상황 (다중 모드)**에서 "A 와 B 사이 어딘가"라는 애매한 답을 내거나, 아예 움직이지 못하는 실수를 저지르곤 했습니다.

최근에는 **'확산 모델 (Diffusion Model)'**이라는 기술을 도입해서, 로봇이 "A, B, C 모두 가능성 있어!"라고 여러 가지 행동을 동시에 상상할 수 있게 만들었습니다. 하지만 이 기술을 학습시킬 때 엄청난 계산 비용이 들고, 특히 "에이전트가 얼마나 탐험을 해야 할지 (엔트로피)"를 조절하기가 매우 어려웠습니다.

2. 이 논문의 해결책: "조건부 PPO"라는 새로운 지도법

이 논문은 **"확산 모델의 복잡한 수학을 쓰지 않고도, 로봇이 여러 가지 행동을 할 수 있게 가르치는 방법"**을 제안합니다.

🍳 비유: "요리 레시피를 바꾸다"

  • 기존 방식 (기존 확산 정책): 요리를 할 때, 재료를 섞고 끓이고 식히는 과정을 모두 역으로 거슬러 올라가며 "왜 이 재료를 넣었지?"라고 계산해야 했습니다. (매우 느리고 복잡함)
  • 이 논문의 방식 (DP-CPPO): 요리를 할 때, **"기본 반죽 (기존 정책)"**을 준비하고, 그 위에 **"새로운 향신료 (보정 단계)"**를 살짝 뿌리는 방식으로 바꿨습니다.
    • 이 '새로운 향신료'는 아주 간단한 **가우시안 분포 (정규분포)**로 계산됩니다.
    • 즉, 복잡한 역산술을 할 필요 없이, **"기존 행동에서 조금만 더 잘하게 수정하자"**는 간단한 규칙만 적용하면 됩니다.

3. 핵심 아이디어 3 가지

① "한 번에 한 걸음씩" (조건부 PPO)

기존에는 전체 과정을 한 번에 계산해야 했지만, 이 방법은 정책을 업데이트할 때마다 확산 모델의 '한 단계'만큼만 생각하도록 만들었습니다.

  • 비유: 산을 오를 때, 정상까지의 전체 경로를 미리 계산하는 대신, **"지금 발밑에서 가장 좋은 다음 발걸음"**만 매번 결정하는 것입니다. 이렇게 하면 계산이 훨씬 빨라지고 메모리도 적게 씁니다.

② "호기심 유지하기" (엔트로피 정규화)

로봇이 너무 일찍 정답을 찾으면 (최적해에 갇히면) 다른 더 좋은 방법을 못 찾을 수 있습니다. 그래서 로봇에게 **"호기심 (탐험)"**을 가지게 해야 합니다.

  • 문제: 확산 모델은 호기심을 수치로 계산하기가 매우 어려웠습니다.
  • 해결: 이 논문은 "복잡한 확산 모델의 호기심을 계산할 필요 없이, 간단한 수정 단계 (가우시안) 의 호기심만 계산하면 된다"고 증명했습니다. 덕분에 로봇이 새로운 것을 시도하도록 자연스럽게 유도할 수 있습니다.

③ "안정적인 학습" (스코어 기반 정규화)

확산 모델은 처음에 너무 엉뚱한 행동을 할 수 있습니다.

  • 비유: 로봇이 춤을 추는데, 처음에 너무 과격하게 추면 넘어질 수 있죠. 그래서 **"기본적인 리듬 (기본 가우시안 분포)"**에서 너무 벗어나지 않도록 살짝 잡아주는 장치를 추가했습니다. 이렇게 하면 학습이 더 안정적이고 빠르게 수렴합니다.

4. 실험 결과: "실제 로봇에서도 통했다"

이론만 좋은 게 아니라, 실제 시뮬레이션 (IsaacLab, MuJoCo) 에서 테스트했습니다.

  • 다중 목표 미로: 여러 출구가 있는 미로에서, 기존 방식은 갈팡질팡하거나 멈췄지만, 이 방법은 **"왼쪽 출구로 가거나 오른쪽 출구로 가는 두 가지 명확한 행동"**을 모두 잘 수행했습니다.
  • 성능: 기존 방식보다 더 높은 점수를 얻었고, 학습 속도도 빨랐습니다.

5. 한 줄 요약

"복잡한 확산 모델로 로봇을 가르칠 때, 거창한 수학을 다 쓸 필요 없이 '간단한 수정'과 '호기심'만 잘 조절하면, 로봇이 훨씬 똑똑하고 유연하게 여러 가지 행동을 할 수 있다!"

이 방법은 로봇이 복잡한 현실 세계에서도 더 잘 적응할 수 있는 길을 열어준다고 할 수 있습니다.