Wasserstein Proximal Policy Gradient

이 논문은 엔트로피 정규화 강화학습을 위한 새로운 알고리즘인 'Wasserstein 근사 정책 경사 (WPPG)'를 제안하며, 최적 수송과 가우시안 합성곱을 번갈아 적용하여 명시적 확률 정책 없이도 전역 선형 수렴을 보장하고 연속 제어 벤치마크에서 경쟁력 있는 성능을 달성함을 보여줍니다.

Zhaoyu Zhu, Shuhan Zhang, Rui Gao, Shuang Li

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 배경: 로봇이 배울 때 겪는 두 가지 문제

상상해 보세요. 로봇이 새로운 춤을 배우려 합니다.
기존의 학습법 (KL 발산 기반) 은 로봇에게 **"네가 지금 추는 춤과 다음에 추는 춤이 얼마나 다른지"**를 계산하게 합니다. 이때 중요한 전제는, 로봇이 **"내 춤 동작의 확률 분포를 수학적으로 완벽하게 설명할 수 있어야 한다"**는 것입니다.

하지만 현실은 어떻습니까?

  • 문제 1 (복잡한 춤): 로봇이 너무 복잡하고 자유로운 춤 (암시적 정책, Implicit Policy) 을 추고 싶다면, 그 춤을 수학 공식으로 설명하는 건 불가능에 가깝습니다.
  • 문제 2 (탐험의 필요성): 로봇이 너무 똑똑해져서 같은 동작만 반복하면 (수익은 좋지만), 새로운 것을 시도하지 못해 더 좋은 춤을 찾을 수 없습니다. 그래서 '엔트로피 (무작위성)'를 넣어주어 조금씩 엉뚱한 동작을 시도하게 해야 합니다.

2. WPPG 의 핵심 아이디어: "물방울의 흐름"과 "소금물"

이 논문은 이 문제를 해결하기 위해 **'워터스틴 거리 (Wasserstein Distance)'**라는 개념을 도입합니다.

비유 1: 물방울의 이동 (워터스틴 거리)

기존 방식은 "두 확률 분포가 얼마나 다른가?"를 단순히 숫자 차이로 봅니다. 하지만 WPPG 는 **"이 물방울 (현재 행동) 을 저 물방울 (목표 행동) 로 옮기려면 얼마나 많은 에너지를 써야 하는가?"**를 생각합니다.

  • 기존: "내 춤과 네 춤은 50% 다릅니다." (단순 비교)
  • WPPG: "네가 지금 오른손을 들었는데, 목표는 왼손을 드는 거야. 오른손을 왼쪽으로 부드럽게 이동시키는 데 드는 '비용'을 계산하자." (기하학적 이동)

이 방식은 행동 공간 (Action Space) 의 기하학적 구조를 자연스럽게 반영합니다. 예를 들어, '왼쪽'과 '오른쪽'은 거리가 멀지만, '왼쪽'과 '왼쪽 약간'은 가깝습니다. WPPG 는 이런 **친밀감 (Proximity)**을 잘 이해합니다.

비유 2: 소금물과 열기 (엔트로피 정규화)

학습 과정에서 로봇이 너무 경직되지 않게 하려면 '엔트로피 (무작위성)'를 추가해야 합니다. 보통은 수학적으로 복잡한 계산을 통해 이 무작위성을 추가합니다.
하지만 WPPG 는 아주 간단한 방법을 씁니다.

  • 방법: 로봇이 다음 행동을 결정할 때, 약간의 '소금물 (가우시안 잡음)'을 섞어줍니다.
  • 효과: 이 소금물이 섞이는 과정은 마치 뜨거운 물이 식으면서 퍼지는 것처럼, 자연스럽게 무작위성을 만들어냅니다. 이 과정을 수학적으로는 '열 방정식 (Heat Equation)'이라고 하는데, WPPG 는 이를 **가우시안 합성곱 (Gaussian Convolution)**이라는 쉬운 연산으로 처리합니다.

3. 혁신적인 점: "설명할 필요 없음"

가장 큰 장점은 수학적 설명 (확률 밀도 함수) 이 필요 없다는 점입니다.

  • 기존 방식: "네가 이 행동을 할 확률이 얼마야? 그 로그를 계산해 줘." (수학 공식이 있어야 함)
  • WPPG: "네가 이 행동을 할 때, 그 행동이 얼마나 좋은지 (Q 값) 알려주고, 그 방향으로 조금씩 움직여. 그리고 약간의 잡음을 섞어."

마치 요리사를 생각하세요.

  • 기존 요리사: "이 요리의 레시피 (공식) 를 정확히 적어줘야 내가 다음 요리를 만들 수 있어."
  • WPPG 요리사: "맛있는 요리를 만드는 '방향'을 알려주고, 재료를 섞는 '손맛 (잡음)'만 추가해. 레시피는 몰라도 돼!"

이 덕분에 **매우 복잡하고 표현력 있는 신경망 (암시적 정책)**을 사용하여 로봇이 훨씬 더 다양하고 창의적인 행동을 배울 수 있습니다.

4. 결과: 더 빠르고 안정적인 학습

논문은 이 방법이 수학적으로 **선형 수렴 (Linear Convergence)**한다는 것을 증명했습니다. 쉽게 말해, "이 방법을 쓰면 실수가 줄어들고 최적의 해답에 도달하는 속도가 일정하게 보장된다"는 뜻입니다.

실제 실험 (MuJoCo 시뮬레이션) 에서도:

  • 기존 방법 (PPO, SAC): 잘하지만, 복잡한 환경 (Humanoid 등) 에서는 학습이 불안정하거나 느립니다.
  • WPPG (특히 암시적 정책 버전): 복잡한 환경에서도 더 높은 점수를 기록하며, 더 안정적으로 학습했습니다.

5. 요약: 한 줄로 정리하면?

"WPPG 는 로봇이 복잡한 춤을 배울 때, 수학 공식으로 설명할 필요 없이 '행동의 흐름'과 '적당한 무작위성 (소금물)'만 섞어주면, 더 빠르고 창의적으로 최고의 춤을 추게 해주는 새로운 학습법입니다."

이 기술은 인공지능이 더 유연하고 강인하게 세상을 이해하고 행동하는 데 중요한 발걸음이 될 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →