Guided Policy Optimization under Partial Observability

이 논문은 부분 관측 환경에서의 강화학습 한계를 극복하기 위해, 특권 정보를 활용하는 가이더와 모방 학습을 수행하는 학습자를 공동으로 훈련시키는 '가이디드 정책 최적화 (GPO)' 프레임워크를 제안하고, 이론적 최적성 보장과 다양한 실험을 통해 기존 방법보다 우수한 성능을 입증했습니다.

Yueheng Li, Guangming Xie, Zongqing Lu

게시일 2026-03-16
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎓 비유: "눈이 잘 보이는 코치와 눈이 가린 학생"

상상해 보세요. 복잡한 미로에서 탈출해야 하는 **학생 (Learner)**이 있습니다. 학생은 미로의 전체 지도를 볼 수 없고, 앞쪽 몇 미터만 흐릿하게 보입니다. (이것이 부분 관측성입니다.)

그런데 옆에는 **코치 (Guider)**가 있습니다. 코치는 학생과 함께 미로를 걷지만, 코치는 전체 지도와 모든 정보를 볼 수 있습니다. (이것이 특권 정보입니다.)

❌ 기존의 문제점: "너무 잘하는 코치"

기존 방법들은 보통 이렇게 했습니다.

"코치가 전체 지도를 보고 최선의 길을 찾아서 학생에게 '이쪽으로 가!'라고 시키세요."

하지만 여기서 큰 문제가 생깁니다.

  • 코치는 너무 완벽합니다: 코치는 지도를 보니까 "왼쪽 구석에 있는 함정을 피해서 바로 오른쪽으로 가!"라고 합니다.
  • 학생은 혼란스럽습니다: 학생은 앞이 안 보이는데, 갑자기 "오른쪽으로 가!"라고 하면 "왜? 왼쪽에 뭐가 있는데?"라고 생각하며 길을 잃습니다.
  • 결과: 학생은 코치의 말을 그대로 따라 하려다 실패하거나, 코치가 너무 잘해서 따라 할 수 없게 되어 아예 학습이 안 됩니다. (논문의 'TigerDoor' 예시에서 코치는 호랑이 위치를 알지만, 학생은 문을 열기 전에 소리를 들어야 한다는 사실을 모릅니다.)

✅ 이 논문의 해결책: "GPO (가이드 정책 최적화)"

이 논문은 **"코치도 학생 수준에 맞춰서 가르쳐야 한다"**는 아이디어를 제시합니다. 이를 **GPO(Guided Policy Optimization)**라고 부릅니다.

1. 함께 걷고, 함께 성장한다 (Co-training)

  • 코치와 학생을 따로 가르치지 않고, 함께 학습시킵니다.
  • 코치가 지도를 보고 길을 찾지만, **"학생이 따라올 수 있는 범위"**를 벗어나지 않도록 스스로를 제한합니다.
  • 만약 코치가 너무 앞서 나가면, 학생이 따라오지 못하니까 코치는 잠시 뒤로 물러서거나 (Backtracking), 학생이 따라올 수 있도록 발걸음을 조절합니다.

2. "가능성 있는 좋은 코치" (Possibly Good Teacher)

  • 코치는 완벽하지 않아도 됩니다. 학생이 따라 할 수 있을 만큼만 잘하면 됩니다.
  • 코치는 학생이 "아, 이렇게 하면 되겠구나!"라고 이해할 수 있는 단계로 정보를 전달합니다.
  • 학생은 코치의 행동을 모방하면서, 동시에 "내가 직접 경험을 통해 보상 (성공) 을 얻는 것"도 배웁니다.

3. 왜 이것이 중요한가요?

  • 변동성 감소: 학생이 혼란스러운 정보 (노이즈) 만으로는 학습하기 어렵지만, 코치가 깨끗한 정보로 방향을 잡아주면 학습이 훨씬 안정적입니다.
  • 최적의 결과: 코치가 학생을 너무 앞서 가지 않게 조절하기 때문에, 학생은 결국 코치가 가진 '전체 지도'의 지혜를 모두 흡수하여 최선의 길을 찾을 수 있게 됩니다.

🚀 실제 실험 결과 (실생활 예시)

저자들은 이 방법을 다양한 시나리오에서 테스트했습니다.

  1. 소음 속의 로봇 (Brax 환경):

    • 로봇의 센서에 소음이 섞여 앞이 잘 안 보이는 상황입니다.
    • 기존 방법들은 소음 때문에 로봇이 넘어지거나 엉뚱한 곳으로 갔지만, GPO 를 쓰면 코치가 소음을 보정해 주면서 로봇이 완벽하게 걷는 법을 배웠습니다.
  2. 기억력 게임 (POPGym):

    • 과거의 정보를 기억해야 하는 게임입니다. (예: "3 번 전에 들었던 숫자가 뭐였지?")
    • 학생은 기억력이 부족할 수 있지만, 코치는 모든 과거 정보를 기억하고 있습니다.
    • GPO 는 코치가 학생의 기억력 한계를 고려해서 "너는 이 정도만 기억하면 돼"라고 힌트를 주면서, 학생이 복잡한 기억 과제를 해결하도록 도와줍니다.

💡 한 줄 요약

**"완벽한 코치가 학생을 무작정 몰아세우는 게 아니라, 학생이 따라올 수 있는 속도로 걸으며 함께 최선의 길을 찾아가는 새로운 학습법"**입니다.

이 방법은 로봇 공학, 자율 주행, 게임 AI 등 불완전한 정보 속에서 결정을 내려야 하는 모든 분야에 큰 도움을 줄 것으로 기대됩니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →