"모든 전환이 중요한 것은 아니다: PPO 에 대한 증거"라는 논문에 대한 설명을 일상적인 비유와 함께 간단한 개념으로 나누어 정리합니다.

큰 문제: 학습의"에코 챔버"

로봇이 걷는 법을 가르친다고 상상해 보세요. 표준 훈련 세션 (온-정책 강화 학습이라고 함) 에서 로봇은 몇 걸음 내딛고 넘어졌다가 일어나 다시 시도합니다. 그리고 이 시도의 긴 동영상을 기록합니다.

문제는 그 동영상 속의 모든 걸음이 이전 걸음과 인과적으로 연결되어 있다는 점입니다. 로봇이 왼쪽으로 기울면 다음 프레임에서도 왼쪽으로 기울어집니다. 이는 무작위적인 순간들의 모음이 아니라 연쇄 반응입니다.

로봇의"뇌"(신경망) 가 이 동영상에서 학습을 시도할 때, 동일한 패턴을 반복해서 보게 됩니다. 마치 50 번 연속으로 후렴구가 반복되는 노래를 듣는 것과 같습니다. 뇌는"이걸 해! 이걸 해! 이걸 해!"라는 신호를 받지만, 사실은 같은 지시가 반복된 것뿐입니다. 이로 인해 학습 과정이"얼어붙고"불안정해지지만, 로봇이 결국 임무를 수행하더라도 그렇습니다.

제안된 해결책:"하이라이트 릴"

저자 아제시 바스넷은 다음과 같은 간단한 질문을 던집니다:"만약 뇌가 학습을 시도하기 전에 동영상 프레임 중 일부를 삭제한다면 어떨까요?"

이 논문은 이를 수행하는 세 가지 방법을 테스트합니다. 감독에게 영화를 보여주기 전에 편집하는 것과 같습니다.

1."박자 건너뛰기"방법 (방법 1)

아이디어: 로봇이 한 걸음을 내딛을 때마다 다음 두 걸음을 건너뛰고 세 번째 걸음만 저장합니다.
결함: 이는 영화에서 세 번째 프레임마다 잘라내는 것과 같습니다. 단순한 영화 (막대기 균형 잡기 등) 에는 작동하지만, 복잡한 이야기 (우주선 착륙 등) 에는 줄거리를 망칩니다. 인과 관계의 연결고리가 끊어지기 때문에 뇌는"왜"무슨 일이 일어났는지 파악할 수 없습니다. 로봇은 어떤 행동이 보상으로 이어졌는지 혼란스러워합니다.

2."무작위 건너뛰기"방법 (방법 2)

아이디어: 매 세 번째 프레임을 건너뛰는 대신, 무작위로 프레임을 건너뜁니다.
결함: 이는 더 낫지만 여전히 같은 문제가 있습니다. 우리는 로봇이 A 지점에서 B 지점으로 이동한 방식을 설명하는"중간"순간들을 여전히 삭제하고 있습니다. 뇌는 여전히 인과 관계의 전체적인 이야기를 얻지 못합니다.

3."하이라이트 릴"방법 (방법 3) - 승자

아이디어: 이것이 마법과 같은 트릭입니다.
1. 먼저, 전체 동영상을 봅니다. 모든 단일 동작이 얼마나 좋았는지 나빴는지 정확히 계산합니다 (이를"어드밴티지 추정"이라고 합니다). 로봇에게 각 걸음에 대한 점수를 매깁니다.
2. 그런 다음, 그리고 오직 그 후에만 동영상 프레임의 25% 를 무작위로 버립니다.
3. 남은 75% 의 프레임을 학습을 위해 뇌에 공급합니다.
작동 원리: 아무것도 삭제하기 전에 점수를 계산했기 때문에, 뇌는 정확히 무슨 일이 일어났는지 여전히 알고 있습니다. 다만 더 작고 덜 반복적인 예제 세트에서 학습할 뿐입니다. 이는 교사가 학생의 전체 시험지를 검토하여 모든 문제에 점수를 매긴 후, 수업에서 가장 중요한 문제들만 논의하는 것과 같습니다. 학생은 여전히 자료를 학습하지만, 반복으로 인한 지루함은 없습니다.

결과: 적은 것이 더 많다

저자는 막대기 균형 잡기부터 한 발로 뛰기까지 다양한 비디오 게임과 유사한 환경 다섯 곳에서 이를 테스트했습니다.

발견: 점수를 매긴 후 훈련 데이터의 25% 를 무작위로 삭제함으로써, 로봇은 모든 데이터를 본 로봇만큼 잘 학습했습니다.
보너스: 더 적은 데이터를 본 로봇이 실제로 더안정적으로학습했습니다. 그"기분"(엔트로피) 과"확신"(KL 발산) 이 더 일정했습니다. 지나치게 자신감 있거나 지나치게 불확실한 상태 사이를 극단적으로 오가지 않았습니다.
적정점: 정확히 25% 의 데이터를 삭제하는 것이 완벽한 균형이었습니다. 이는 반복의"에코 챔버"를 깨뜨리면서도 로봇이 무엇을 해야 할지 잊을 정도로 데이터를 많이 제거하지는 않았습니다.

이것이 중요한 이유 (간단한 말로)

일반적으로 인공지능에서는"더 많은 데이터 = 더 나은 학습"이라고 생각합니다. 그러나 이 논문은 이러한 특정 유형의 학습에서는중복된 데이터가 실제로는 노이즈임을 증명합니다.

로봇의 행동이 짧은 순간에 매우 예측 가능하기 때문에, 로봇은 같은 것을 100 번 보게 됩니다. 이러한 뷰 중 4 분의 1 을 무작위로 잘라냄으로써, 우리는 뇌가 고리 속에 갇히는 대신 수업의 고유한 부분에 집중하도록 강요합니다.

핵심 교훈:
학생에게 장을 가르치기 위해 교과서의 모든 페이지를 보여줄 필요는 없습니다. 먼저 핵심 요점을 요약한 후, 남은 페이지 중 무작위로 선택된 부분을 공부하게 한다면, 그들은 더 빠르고 안정적으로 학습할 수 있습니다. 이 논문은 AI 로봇에게"하이라이트 릴"이 편집되지 않은 전체 영상보다 종종 더 좋음을 보여줍니다.

기술적 요약: 모든 전이가 중요한 것은 아님: PPO 에서의 증거

문제 제기

온-정책 강화학습, 특히 근접 정책 최적화 (PPO) 에서는 학습 데이터가 본질적으로 시간적으로 상관관계를 가집니다. 샘플이 독립적이고 동일하게 분포되어 있다고 가정하는 지도학습과 달리, 온-정책 트레젝토리는 인과적으로 연결되어 있습니다: 각 상태 $s_{t+1}$ 은 이전 상태 $s_t$ 와 에이전트의 행동에 의한 직접적인 결과입니다. 이 구조는 두 가지 주요 문제를 초래합니다:

기울기 중복성: 연속된 전이들은 거의 평행한 기울기 벡터를 생성합니다. 네트워크는 반복적인 신호를 받아 동일한 방향을 강화하며 학습 속도를 늦춥니다.
비정상 부트스트래핑: 정책이 업데이트됨에 따라 가치 네트워크 (크리틱) 는 훈련되지 않은 상태 분포에서 평가됩니다. 이는 구식 가치 추정치가 이득 신호를 오염시키고 에이전트를 크리틱이 정확하게 평가할 수 없는 새로운 상태 영역으로 밀어넣는 피드백 루프를 만듭니다. 이는 "치명적인 삼각형"(함수 근사, 부트스트래핑, 비정상 데이터) 의 발현입니다.

오프-정책 방법 (예: DQN, SAC) 은 경험 재생을 통해 이를 완화하지만, 온-정책 방법은 오래된 데이터를 재사용할 수 없습니다. 벡터화된 환경과 같은 일반적인 해결책은 상관관계를 줄이지만 상당한 메모리 및 계산 오버헤드 ( $N$ 개의 환경에 대해 $N$ 배의 비용) 를 수반합니다.

방법론

이 논문은 성능을 저하시키지 않으면서 전이를 부분 표본 추출하여 시간적 상관관계를 줄일 수 있는지 조사합니다. 세 가지 다른 접근 방식이 평가되었습니다:

1. 고정 K-스텝 샘플링 (방법 1)

전이는 매 $K$ 스텝마다만 저장되며, 중간 보상은 저장된 전이의 보상에 누적됩니다.

결과: 단순한 이산 환경 (CartPole-v1) 에서만 효과적입니다. Acrobot, LunarLander 와 같은 복잡한 환경에서는 실패합니다. 건너뜀 단계에 대한 보상을 합산하면 신용 부여에 필요한 세밀한 인과 신호가 파괴되기 때문입니다.

2. 무작위 적응형 K-스텝 샘플링 (방법 2)

점프 간격은 고정된 패리티 편향을 피하기 위해 무작위화됩니다 (예: 가우스 변수에 기반한 $k$ 또는 $k+1$ ).

결과: 방법 1 보다 개선되었지만 여전히 복잡한 환경에서는 실패합니다. 방법 1 과 마찬가지로 데이터 수집 중에 개입하여 건너뜀 단계에 걸친 보상을 합산하고 마르코프 가정을 위반함으로써 보상 신호를 오염시킵니다.

3. 무작위 P% 트레젝토리 부분 표본 추출 (방법 3)

이것이 제안된 성공적인 방법입니다. 이 방법은 이득 추정 이후에 개입하지만 기울기 업데이트 이전에 개입합니다.

절차:
1. 일반적인 방식으로 전체 트레젝토리 버퍼를 수집합니다.
2. 수정되지 않은 완전한 시퀀스에 대해 일반화된 이득 추정 (GAE) 과 반환을 계산합니다.
3. 무작위로 전이의 일부 $p$ (예: 75%) 를 비복원 추출하여 최적화 배치를 형성합니다.
4. 나머지 $(1-p)$ 전이는 가중치 업데이트 단계에서만 제외됩니다. 그들의 보상 기여도는 이미 이득 추정치에 포착되어 있습니다.
메커니즘: 신경망의 드롭아웃과 유사하게, 이는 기울기 업데이트의 순차적 구조를 깨기 위해 통제된 무작위성을 주입합니다. 이는 중복되고 공선적인 기울기 방향을 제거하면서도 실제 보상 신호를 보존합니다.

주요 기여

중복성 식별: 이 논문은 온-정책 롤아웃의 상당한 부분의 전이가 중복된 기울기 정보를 담고 있다는 실증적 증거를 제공합니다.
개입 시기: 상관관계 해소가 시기가 중요함을 보여줍니다. 이득 추정 전에 개입하는 것 (방법 1 및 2) 은 신용 부여를 파괴하는 반면, 그 후에 개입하는 것 (방법 3) 은 신호 무결성을 유지하면서 중복성을 줄입니다.
알고리즘적 단순성: 이 방법은 새로운 구성 요소가 필요 없으며, 핵심 PPO 목적 함수를 수정하거나 롤아웃 수집 과정을 변경하지 않습니다. 이는 모든 PPO 구현에 적용 가능한 단일 샘플링 단계입니다.
효율성: 이 방법은 벡터화된 환경과 유사한 상관관계 해소 효과를 달성하지만 단일 환경 롤아웃에서 이루어지므로 메모리 및 CPU 오버헤드를 크게 줄입니다.

결과

실험은 난이도가 증가하는 다섯 가지 환경 (CartPole-v1, Acrobot-v1, LunarLander-v2, HalfCheetah-v5, Hopper-v5) 에서 수행되었습니다.

성능: 방법 3 은 모든 환경에서 최종 평가 보상에서 바닐라 PPO(전체 전이 100%) 와 일치했습니다.
안정성: 방법 3 은 더 일관된 학습 역학을 생성했습니다. KL 발산, 정책 엔트로피, 가치 추정치와 같은 지표들은 기준선 대비 더 낮은 분산을 보였습니다.
최적 부분 표본 추출 비율: **25%**의 부분 표본 추출 비율 ( $p=75\%$ $p = 75%$ 유지) 이 "적정점"으로 확인되었습니다.
- $p=75\%$ 에서 모든 지표 (보상, 엔트로피, KL) 가 건강하게 유지되었으며 기준선과 일치했습니다.
- 75% 미만에서는 보상 곡선이 안정적으로 유지되었지만 엔트로피가 드리프트하기 시작하고 KL 발산이 더 노이즈가 많아져 안정적인 탐색에 필요한 신호 다양성의 손실을 나타냈습니다.
대안들의 실패: 방법 1 과 2 는 복잡한 작업 (LunarLander, Acrobot) 에서 실패하여 보상 신호의 무결성을 유지하는 것이 가장 중요함을 확인시켰습니다.

중요성과 주장

이 논문은 온-정책 롤아웃의 중복성이 종종 과소평가된다고 주장합니다. 핵심 발견은 이득 추정 이후에 전이의 고정된 비율 (특히 25%) 을 제거하는 것만으로도 반복적인 기울기 구조를 깨고 성능을 희생하지 않고 학습을 안정화할 수 있다는 것입니다.

이 중요성은 역설적인 결과에 있습니다: 전체 상관관계 배치는 그 크기가 시사하는 것보다 덜 독특한 기울기 신호를 기여합니다. 이 중복성을 제거함으로써 이 방법은 암묵적인 정규화제로 작용하여 최적화기가 단일 트레젝로의 지역적 중복성에 과적합되는 것을 방지합니다. 이 논문은 이 접근 방식이 벡터화된 환경의 리소스 오버헤드나 PPO 알고리즘의 복잡한 수정 없이 상관관계 해소를 위한 계산적으로 저렴한 경로를 제공한다고 결론지었습니다.

Not All Transitions Matter: Evidence from PPO