Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends

Each language version is independently generated for its own context, not a direct translation.

🎓 핵심 메시지: "그저 '그냥' 가르치는 게 아니라, '비밀스러운' 방법을 쓰고 있었다?"

이 논문의 제목인 **"GRPO 는 사실 은밀하게 '오프-폴리시 (Off-policy)' 알고리즘이다"**라는 말은 무슨 뜻일까요?

1. 기존 방식 (온-폴리시): "스승이 직접 시범을 보여야만 배운다"

기존의 AI 학습 방식 (PPO 나 GRPO 같은 것들) 은 마치 스승이 제자에게 직접 문제를 풀고, 그걸 본 제자가 따라 하는 방식이었습니다.

원리: 스승 (AI 모델) 이 문제를 풀고, 정답을 확인한 뒤, "이렇게 했으니 잘했어"라고 칭찬하거나 "이건 틀렸어"라고 지적합니다.
문제점: 스승이 새로운 문제를 풀고, 그 결과를 확인하고, 다시 가르치는 과정이 매우 느리고 비효율적입니다. 마치 요리사가 매번 재료를 사러 마트에 가면서 요리를 배우는 것과 비슷합니다. 또한, 스승이 실수한 걸 그대로 따라 하면 제자도 실수할 수 있어 위험합니다.

2. 이 논문의 발견: "과거의 요리책 (데이터) 도 쓸 수 있다!"

연구자들은 놀라운 사실을 발견했습니다. 우리가 GRPO라는 최신 알고리즘을 쓰면서, 사실은 **과거의 데이터 (스승이 예전에 풀었던 문제나 다른 사람이 푼 문제)**를 활용해도 된다는 것을 증명했습니다.

비유: 이제 AI 는 "내가 지금 당장 문제를 풀지 않아도, 과거에 내가 풀었던 요리 레시피나 다른 요리사의 레시피를 보고 배울 수 있다"는 뜻입니다.
핵심: 이 논문은 GRPO 가 가진 수학적 원리를 다시 해석해보니, 과거 데이터를 활용해도 자연스럽게 학습이 잘 된다는 것을 증명했습니다.

🛠️ 이 발견이 가져온 3 가지 큰 변화 (신비한 미스터리 해부)

이 논문은 기존에 "왜 이렇게 하는지"에 대한 오해들을 바로잡아 주었습니다.

① "가위 (Clipping) 가 진짜 영웅이다!"

오해: 사람들은 GRPO 가 잘 작동하는 이유가 '중요도 샘플링 (Importance Sampling)'이라는 복잡한 수학적 보정 때문이라고 생각했습니다. 마치 정밀한 저울로 무게를 재야만 정확한 요리가 나온다고 믿은 거죠.
진실: 연구진은 "아니요, 그 저울은 사실 필요 없어요!"라고 말합니다. 진짜 핵심은 **'가위 (Clipping)'**입니다.
- 비유: AI 가 너무 자신 있게 변해서 (과거의 스승과 너무 달라져서) 엉뚱한 짓을 하지 않도록, 가위로 너무 튀는 부분을 잘라내는 것이 가장 중요합니다.
- 결과: 가위질 범위를 기존보다 훨씬 넓게 해도 AI 는 안정적으로 잘 배우고, 오히려 더 빨리 배웁니다.

② "두 가지 최신 알고리즘 (OPMD, AsymRE) 의 정체는 '규칙'이었다"

오해: Kimi 나 Meta 가 발표한 최신 알고리즘들은 각각 완전히 새로운 원리라고 소개되었습니다.
진실: 이 논문은 이 둘이 사실은 **"기존 학습법 + 규칙 (정규화)"**이라는 것을 밝혀냈습니다.
- 비유: 마치 "요리할 때 맛을 내는 것 (학습) 에 더해, 너무 짜지 않게 소금 양을 조절하는 규칙을 추가한 것"과 같습니다.
- 의미: 복잡한 새로운 이론이 아니라, 기존 방식에 '규칙'을 조금만 더해주면 훨씬 잘 작동한다는 뜻입니다.

③ "나쁜 데이터는 버리고, 좋은 데이터는 더 많이 봐라!"

오해: 학습 데이터는 모두 공정하게 다뤄져야 한다고 생각했습니다.
진실: 이 논문은 **"나쁜 예시는 과감히 버리고, 좋은 예시는 더 집중해서 봐도 된다"**는 것을 수학적으로 증명했습니다.
- 비유: 요리 실습을 할 때, 타버린 요리 (나쁜 데이터) 는 쓰레기통에 버리고, 완벽한 요리 (좋은 데이터) 는 더 자세히 관찰하며 배우는 것이 더 효율적입니다.
- 효과: 이렇게 데이터를 골라서 학습하면 AI 가 훨씬 빠르게 성장합니다.

🚀 왜 이것이 중요한가요? (실생활 적용)

이 연구는 AI 개발자들에게 다음과 같은 큰 혜택을 줍니다.

속도 향상: AI 가 매번 새로운 데이터를 기다릴 필요 없이, 쌓여 있는 과거 데이터나 다른 AI 가 만든 데이터를 바로 활용할 수 있어 학습 속도가 빨라집니다.
비용 절감: 실시간으로 데이터를 수집하는 데 드는 막대한 비용과 시간을 아낄 수 있습니다.
안정성: "가위 (Clipping)"를 적절히 조절하면, AI 가 너무 변덕스러워지지 않고 안전하게 발전할 수 있습니다.

📝 한 줄 요약

"AI 를 가르칠 때, 스승이 매번 직접 시범을 보여야만 하는 건 아닙니다. 과거의 데이터를 활용해도 되며, 중요한 건 '너무 튀는 행동'을 잘라내는 규칙 (Clipping) 과 '좋은 예시'를 집중해서 보는 것입니다."

이 논문은 AI 학습의 복잡한 수학적 미스터리를 해부하여, 더 빠르고 효율적인 AI 개발의 길을 열어주었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

배경: LLM 의 RLHF 및 추론 능력 향상을 위해 강화 학습이 활발히 사용되고 있습니다. 그러나 실제 배포 환경에서는 데이터 수집 속도와 모델 학습 속도의 불일치, 지연된 보상 피드백, 과거 경험 재사용 (Replay) 등의 제약으로 인해 오프-폴리시 (Off-policy) 학습이 필수적입니다.
현황: 현재 LLM-RL 의 주류 알고리즘인 PPO 와 GRPO 는 본질적으로 온-폴리시 알고리즘입니다. 이들은 현재 정책 ( $\pi_\theta$ ) 에서 샘플링된 최신 데이터만을 사용하여 편향 없는 그래디언트 추정을 목표로 합니다.
한계: 오프-폴리시 학습을 위해 중요도 샘플링 (Importance Sampling, IS) 을 사용하지만, 정책 간 거리가 멀어지면 불안정해집니다. 또한, 기존 RL 인프라는 REINFORCE 스타일의 온-폴리시 알고리즘에 최적화되어 있어, 진정한 오프-폴리시 알고리즘 설계가 어렵고 기존 알고리즘의 작동 원리에 대한 오해 (Myths) 가 존재했습니다.

2. 방법론 (Methodology)

2.1. 그룹 상대적 REINFORCE 의 오프-폴리시 해석 (First-Principles Derivation)

저자들은 GRPO 와 유사한 구조를 가진 그룹 상대적 REINFORCE에 대해 새로운 해석을 제시합니다.

기존 관점: REINFORCE 는 현재 정책에서 샘플링된 데이터로 편향 없는 그래디언트를 추정하는 온-폴리시 방법입니다.
새로운 관점: 저자들은 **KL 정규화 (KL-regularized) 대리 목적 함수 (Surrogate Objective)**를 정의하고, 이를 이산화하여 **대리 손실 (Surrogate Loss)**을 유도했습니다.
1. 대리 목적 함수: $J(\theta; \pi_{\theta_t}) = E[r] - \tau \cdot D_{KL}(\pi_\theta || \pi_{\theta_t})$
2. 일관성 조건 (Consistency Condition): 최적 정책은 응답 쌍 $(y_i, y_j)$ 간에 $r_i - \tau \log \frac{\pi(y_i)}{\pi_{\theta_t}(y_i)} = r_j - \tau \log \frac{\pi(y_j)}{\pi_{\theta_t}(y_j)}$ 관계를 만족해야 합니다.
3. 손실 함수: 위 일관성 조건을 만족시키는 평균 제곱 오차 (MSE) 손실 함수를 정의합니다.
4. 유도: 이 손실 함수를 $\theta_t$ 에서 한 번의 경사 하강 (Gradient Step) 으로 업데이트하면, 중요도 샘플링 (IS) 가중치가 제거된 그룹 상대적 REINFORCE 업데이트 규칙과 정확히 일치함을 증명했습니다.
핵심 통찰: 이 유도 과정은 학습 데이터의 분포에 대한 특정 가정 (온-폴리시 가정) 을 필요로 하지 않으므로, GRPO 는 본질적으로 오프-폴리시 알고리즘으로 해석될 수 있습니다.

2.2. REINFORCE 강화를 위한 두 가지 원칙

오프-폴리시 환경에서 REINFORCE 를 안정적으로 적용하기 위해 두 가지 원칙을 제안합니다.

정책 업데이트 정규화 (Regularization): 하위 최적의 데이터 분포에서도 학습 궤적이 발산하지 않도록 업데이트 단계를 제한합니다. (예: Clipping, KL 패널티)
데이터 분포 능동적 조정 (Active Data Shaping): 학습 데이터의 가중치를 조정하여 정책 업데이트 방향을 유도합니다. (예: 저보상 샘플 제거, 고보상 샘플 가중치 증대)

3. 주요 기여 및 발견 (Key Contributions & Findings)

이 연구는 기존 알고리즘들의 작동 원리에 대한 신화 (Myths) 를 해명하고 새로운 알고리즘을 통합적으로 해석합니다.

F1: GRPO 의 핵심은 Clipping 이며 Importance Sampling 은 비필수적임
- 기존에는 GRPO 의 안정성이 중요도 샘플링 (IS) 에 기인한다고 여겨졌습니다.
- 발견: IS 를 제거하고 Clipping(Regularization) 만 남긴 알고리즘 (REC-ONESIDE-NOIS) 이 기존 GRPO 와 유사하거나 더 나은 성능을 보였습니다.
- 통찰: Clipping 범위를 기존 (0.2) 보다 훨씬 넓게 (예: 0.6 ~ 2.0) 설정하면 학습 속도가 빨라지고 안정성도 유지됩니다. 이는 IS 가 오프-폴리시 학습의 핵심이 아니라, Clipping 이 정규화 역할로 더 중요함을 의미합니다.
F2: OPMD 와 AsymRE 의 재해석
- Kimi 의 OPMD: 원래 논문에서는 Mirror Descent 로 설명되었으나, 본 연구에서는 REINFORCE 손실 + KL 정규화 손실의 형태로 재해석됩니다.
- Meta 의 AsymRE: 보편적 기준선 (Baseline) 조정이 아니라, REINFORCE 손실 + 정책 모방 (Imitation) 정규화로 해석됩니다.
F3: 데이터 가중치 전략 (Data-Weighting) 의 이론적 근거
- 저보상 샘플을 제거하거나 (RED-DROP), 고보상 샘플의 가중치를 높이는 (RED-WEIGHT) 휴리스틱 전략이 오프-폴리시 해석 하에서 자연스럽게 유도됨을 보였습니다.
- 이는 기존 정책 그래디언트 이론의 편향된 추정이라는 비판을 넘어, 정규화된 오프-폴리시 업데이트의 한 형태로 정당화됩니다.

4. 실험 결과 (Results)

실험 설정: Trinity-RFT 프레임워크를 사용하며, sync interval과 sync offset을 조절하여 온/오프-폴리시 시나리오 (GSM8k, MATH, ToolACE 등) 를 구현했습니다.
성능:
- GRPO vs REC-ONESIDE-NOIS: IS 를 제거하고 Clipping 범위를 넓힌 REC-ONESIDE-NOIS 가 다양한 오프-폴리시 설정 (지연된 피드백, 오프라인 데이터) 에서 GRPO 와 동등하거나 더 빠른 수렴을 보였습니다.
- RED 알고리즘: RED-WEIGHT 는 GRPO 보다 더 높은 보상을 달성하면서도 초기 정책과의 KL 발산 거리는 유사하게 유지했습니다.
- GSPO (Sequence-level IS): 시퀀스 수준의 중요도 샘플링 역시 필수 요소가 아니며, 시퀀스 수준의 Clipping 만으로도 효과적임을 확인했습니다.

5. 의의 및 결론 (Significance)

이론적 기여: REINFORCE 계열 알고리즘이 본질적으로 오프-폴리시 특성을 가질 수 있음을 수학적으로 증명하여, LLM-RL 의 이론적 기반을 확장했습니다.
실용적 기여:
- 인프라 친화적 설계: 기존 RL 인프라 (PPO/GRPO 기반) 를 크게 변경하지 않고도, Clipping 범위 조정이나 데이터 가중치 전략만으로도 오프-폴리시 학습을 효율적으로 수행할 수 있음을 보였습니다.
- 알고리즘 설계 가이드: 중요도 샘플링에 대한 과도한 의존을 줄이고, 정규화 (Clipping) 와 데이터 선택 전략에 초점을 맞춘 새로운 알고리즘 설계 패러다임을 제시합니다.
미래 전망: 이 연구는 LLM 의 오프-폴리시 강화 학습을 위한 체계적이고 이론적으로 타당한 알고리즘 설계의 길을 열었으며, 더 복잡한 오프라인 데이터나 전문가 데이터 활용에 대한 연구의 토대가 됩니다.

요약하자면, 이 논문은 GRPO 가 단순히 온-폴리시 알고리즘의 변형이 아니라, KL 정규화 기반의 오프-폴리시 업데이트로 해석될 수 있음을 증명하고, 이를 통해 Clipping 의 중요성을 부각시키고 IS 의 비필수성을 입증함으로써 LLM-RL 의 효율성과 안정성을 동시에 개선하는 새로운 방향을 제시했습니다.