Each language version is independently generated for its own context, not a direct translation.

🚀 "오프-폴리시 RL": AI 가 더 똑똑해지는 새로운 비법

이 논문은 거대한 언어 모델 (LLM, 예: 챗봇이나 코딩 AI) 이 수학 문제나 코딩을 더 잘 풀 수 있도록 가르치는 새로운 방법을 소개합니다. 기존에 쓰이던 방법의 문제점을 해결하고, 훨씬 더 빠르고 효율적으로 AI 를 훈련시킬 수 있는 **'OAPL'**이라는 새로운 기술을 제안했습니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 기존 방법의 문제점: "지시받은 대로만 해야 하는 학생"

기존의 AI 훈련 방식 (GRPO 나 PPO 라고 부릅니다) 은 마치 엄격한 교실과 같습니다.

상황: 선생님이 (훈련 프로그램) 학생 (AI) 에게 문제를 풀게 하고, 그 답을 채점해서 가르칩니다.
문제: 현대의 AI 시스템은 '선생님'과 '학생'이 서로 다른 컴퓨터에서 돌아가는 경우가 많습니다.
- 선생님은 최신 교재를 가지고 있습니다.
- 하지만 학생이 문제를 풀 때는 조금 구식인 교재 (이전 버전의 모델) 를 들고 있거나, 선생님의 설명 방식과 학생의 이해 방식이 미세하게 다릅니다.
결과: 선생님이 "이 답이 맞다"고 가르쳐도, 학생은 "아니요, 제 교재에는 다르게 적혀 있어요"라며 혼란을 겪습니다.
기존 해결책:
1. 중요도 샘플링 (Importance Sampling): 학생이 틀린 답을 내더라도 "아니, 그건 네가 잘못 계산한 거야. 이렇게 고쳐서 봐"라고 수학적 보정 계수를 붙여서 강제로 맞춘 척합니다. (하지만 이 보정이 너무 크면 계산이 불안정해집니다.)
2. 동기화: 학생이 문제를 풀 때마다 선생님이 즉시 최신 교재로 업데이트되게 합니다. (하지만 이렇게 하면 훈련 속도가 매우 느려집니다.)

2. 새로운 방법 (OAPL): "자유로운 탐험가"

이 논문은 **"왜 학생이 선생님과 완벽하게 일치해야만 배울 수 있을까?"**라고 질문합니다. 대신, 학생이 조금 뒤쳐져 있어도 괜찮다는 전제로 새로운 훈련 방식을 제안합니다.

비유: 요리사 (AI) 와 레시피 (모델)
- 기존 방식: 요리사가 레시피를 보고 요리를 하고, 요리사가 바로 레시피를 수정합니다. 레시피와 요리사가 항상 1:1 로 일치해야 합니다.
- 새로운 방식 (OAPL): 요리사가 어제 쓴 레시피로 요리를 만들어 봅니다. 그리고 오늘 만든 요리를 맛본 후, "어제 레시피를 기준으로 봤을 때 이 요리는 맛이 어때?"라고 평가합니다.
- 핵심 아이디어: 요리사 (훈련 모델) 는 어제 레시피 (이전 버전) 로 만든 요리를 보고, **"오늘의 레시피 (최신 모델) 로 만들었다면 얼마나 더 맛있었을지"**를 계산해서 스스로를 고칩니다.

이 방식은 **중요도 보정 (수학적 계수)**을 전혀 쓰지 않습니다. 대신, **"최적의 이점 (Optimal Advantage)"**이라는 개념을 사용합니다.

쉽게 말해, "네가 지금 한 행동이, 만약 네가 조금 더 똑똑해졌다면 얼마나 더 좋은 결과를 냈을까?"를 **제곱 오차 (Regression)**라는 간단한 수학 공식을 통해 직접 계산해 가르치는 것입니다.

3. OAPL 의 놀라운 성과

이 새로운 방식 (OAPL) 은 기존 방식보다 훨씬 훌륭했습니다.

더 빠른 훈련 (3 배 효율):
- 기존 방식은 학생이 문제를 풀 때마다 선생님이 바로 업데이트되어야 했지만, OAPL 은 선생님이 400 번이나 업데이트될 때까지 학생이 예전 레시피로 계속 문제를 풀어도 됩니다.
- 결과: 같은 성능을 내는데, 데이터를 3 배나 적게 사용했습니다. (시간과 돈 절약!)
더 안정적인 학습:
- 기존 방식은 학생이 너무 많이 뒤쳐지면 (레시피 차이가 크면) 학습이 망가져서 AI 가 멍청해지는 경우가 많았습니다 (엔트로피 붕괴).
- 하지만 OAPL 은 선생님과 학생의 거리가 멀어도 AI 가 스스로 균형을 잡으며 안정적으로 성장했습니다.
더 똑똑한 AI (Pass@k):
- Pass@k는 "AI 가 1 번에 정답을 낼 확률"이 아니라, **"10 번, 100 번 시도해 봤을 때 그중 하나라도 정답을 낼 확률"**을 의미합니다.
- OAPL 로 훈련된 AI 는 단순히 정답만 외우는 게 아니라, 여러 가지 시도를 해볼 때 정답을 찾을 확률이 훨씬 높았습니다. 즉, 더 창의적이고 유연하게 문제를 해결합니다.

4. 요약: 왜 이 논문이 중요한가요?

이 논문은 **"AI 를 가르칠 때, 선생님과 학생이 완벽하게 동기화될 필요는 없다"**는 사실을 증명했습니다.

과거: "학생이 선생님을 따라야만 배운다." (동기화 필요, 느림, 불안정)
현재 (OAPL): "학생이 조금 뒤쳐져 있어도, 과거의 경험을 바탕으로 스스로를 고치면 더 잘 배운다." (비동기 가능, 빠름, 안정적)

이 기술 덕분에 앞으로 더 적은 비용과 시간으로, 더 똑똑한 AI를 만들 수 있게 되었습니다. 마치 학생이 혼자서도 독학으로 명문대에 합격할 수 있는 방법을 찾아낸 것과 같습니다!

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

대규모 언어 모델 (LLM) 에 대한 강화학습 (RL) 후학습 (Post-training) 은 모델의 추론 능력을 향상시키는 핵심 기술입니다. 현재 DeepSeek-R1 등 주요 모델들은 **GRPO (Group Relative Policy Optimization)**와 같은 온-폴리시 (On-policy) 알고리즘을 기반으로 합니다. 그러나 실제 산업 환경에서 온-폴리시 가정을 유지하는 것은 매우 어렵습니다.

훈련과 추론의 불일치: 현대 RL 인프라에서는 훈련기 (Trainer, 예: HuggingFace) 와 추론 엔진 (Inference Engine, 예: vLLM) 이 분리되어 작동합니다. 동일한 가중치를 공유하더라도 커널 구현의 차이, 비동기 훈련 파이프라인 등으로 인해 두 엔진이 동일한 토큰 시퀀스에 대해 다른 로그 확률 (log-probabilities) 을 출력합니다.
오프-폴리시 데이터의 발생: 이로 인해 현재 정책을 최적화하는 데 사용되는 데이터가 실제로는 현재 정책이 아닌, 조금 이전의 정책 (또는 다른 엔진) 에 의해 생성된 오프-폴리시 (Off-policy) 데이터가 됩니다.
기존 해결책의 한계:
1. 중요도 표집 (Importance Sampling, IS): 데이터의 분포 차이를 보정하기 위해 가중치를 부여하지만, 이는 RL 손실 함수의 분산을 증가시키고 불안정성을 초래합니다.
2. 추론 엔진 수정: 훈련자와 추론 엔진을 동기화하거나 엔진을 수정하여 차이를 줄이려 하지만, 이는 추론 속도를 저하시키고 비동기 환경에서 완전한 동기화를 보장하기 어렵습니다.

2. 방법론 (Methodology): OAPL

저자들은 오프-폴리시 데이터를 수정하거나 피하는 대신, 이를 적극적으로 수용하는 새로운 알고리즘 **OAPL (Optimal Advantage-based Policy Optimization with Lagged Inference policy)**을 제안합니다.

핵심 아이디어: 훈련 정책 ( $\pi$ $π$ ) 과 추론 정책 ( $\pi_{vllm}$ $π_{v l l m}$ ) 간의 불일치를 **KL 정규화 (KL-regularized)**된 RL 문제로 재정의합니다.
- 목적 함수: $max_{\pi} E[r(x, y)] - \beta KL(\pi || \pi_{vllm})$
- 여기서 $\pi_{vllm}$ 은 현재 추론 엔진의 정책 (지연된 정책) 으로 사용됩니다.
수학적 유도:
- KL 정규화 RL 의 최적 해에 대한 폐쇄형 해 (closed-form solution) 를 활용합니다.
- 최적 가치 함수 $V^*$ 와 최적 이점 (Optimal Advantage) $A^*$ 를 추정합니다.
- $V^*$ 는 추론 정책 $\pi_{vllm}$ 에서 샘플링된 롤아웃 (rollout) 그룹을 기반으로 추정됩니다 ( $\hat{V}^*(x) = \beta \ln \frac{1}{G} \sum \exp(r(x, y_i)/\beta)$ ).
손실 함수 (Loss Function):
- 추정된 이점을 기반으로 한 제곱 회귀 (Squared Regression) 손실 함수를 사용합니다.
- $\min_{\pi} \sum (\beta \ln \frac{\pi(y_i|x)}{\pi_{vllm}(y_i|x)} - (r(x, y_i) - \hat{V}^*(x)))^2$
- 이 방식은 중요도 비율 (IS ratio) 이나 클리핑 (clipping) 연산자가 필요 없으며, 지연된 추론 정책에서 생성된 데이터를 직접 학습에 사용합니다.
동작 프로세스:
1. 훈련 정책 $\pi$ 와 추론 정책 $\pi_{vllm}$ 을 동기화합니다.
2. 추론 엔진이 비동기적으로 데이터를 생성하여 버퍼에 저장합니다.
3. 훈련기는 버퍼의 데이터를 사용하여 위 손실 함수로 정책을 업데이트합니다.
4. 특정 주기 (예: 50 또는 100 스텝) 마다 $\pi_{vllm}$ 을 $\pi$ 와 동기화하고 버퍼를 비웁니다.
- 동기화 사이에는 완전히 오프-폴리시 상태로 학습이 진행됩니다.

3. 주요 기여 (Key Contributions)

온-폴리시 불필요성 입증: RL 후학습에 온-폴리시 알고리즘이 필수적이지 않으며, 오프-폴리시 학습이 더 효율적이고 안정적일 수 있음을 이론적, 실험적으로 증명했습니다.
새로운 알고리즘 OAPL 제안: 중요도 표집이나 추론 엔진 수정 없이, 지연된 추론 정책을 KL 정규화 기준으로 활용하는 단순하고 확장 가능한 오프-폴리시 알고리즘을 개발했습니다.
극도의 오프-폴리시 환경에서의 안정성: 훈련 정책과 추론 정책 간의 격차가 400 개 이상의 그래디언트 스텝에 달해도 (기존 접근법보다 100 배 더 큰 오프-폴리시 정도) 학습이 안정적으로 이루어짐을 보여주었습니다.
샘플 효율성 극대화: DeepCoder 와 같은 기존 GRPO 기반 모델과 동등하거나 더 나은 성능을 내면서, 학습에 필요한 생성 (generation) 수를 3 배 줄였습니다.

4. 실험 결과 (Results)

저자는 수학 추론 벤치마크와 코드 생성 태스크에서 OAPL 을 평가했습니다.

수학 추론 벤치마크 (AIME 25, HMMT 25, BRUMO 25):
- OAPL 은 중요도 표집을 적용한 GRPO 베이스라인보다 모든 Pass@k (Pass@1, Pass@5, Pass@10 등) 지표에서 더 높은 정확도를 달성했습니다.
- 엔트로피 안정성: GRPO 는 학습 중 정책 엔트로피가 붕괴 (entropy collapse) 되는 경향이 있었으나, OAPL 은 엔트로피를 유지하며 Pass@k 스케일링 성능이 더 뛰어났습니다.
- 지연에 대한 강건성: 동기화 간격 (Lag) 을 100 스텝으로 늘려도 OAPL 은 안정적으로 학습을 계속했습니다.
코드 생성 (LiveCodeBench):
- OAPL 로 학습된 모델은 GRPO 와 추가 휴리스틱으로 학습된 공개 모델 DeepCoder와 동등하거나 더 나은 성능을 보였습니다.
- 샘플 효율성: DeepCoder 는 약 65 만 개의 샘플을 사용했으나, OAPL 은 약 20 만 개 (약 1/3) 만으로 동일한 성능을 달성했습니다.
- Pass@k 스케일링: RL 학습을 통해 베이스 모델 대비 Pass@k 성능이 크게 향상되었으며, OAPL 이 GRPO 보다 더 나은 스케일링 특성을 보였습니다.

5. 의의 및 결론 (Significance)

이 논문은 LLM 의 후학습 (Post-training) 패러다임에 중요한 전환점을 제시합니다.

인프라 효율성: 오프-폴리시 학습을 수용함으로써 비동기 분산 훈련을 완전히 가능하게 하여, 추론 엔진과 훈련기의 동기화 오버헤드를 제거하고 컴퓨팅 자원을 효율적으로 활용할 수 있습니다.
학습 안정성: 중요도 표집의 분산 문제와 클리핑의 한계를 극복하여, 더 넓은 범위에서 안정적인 RL 학습을 가능하게 합니다.
실용성: 400 스텝 이상의 정책 지연에서도 작동하는 OAPL 은 대규모 LLM 학습 환경에서 발생하는 실제적인 비동기 문제를 해결하는 실용적인 솔루션을 제공합니다.

결론적으로, OAPL은 복잡한 수정 없이도 오프-폴리시 데이터를 효과적으로 활용하여, 기존 온-폴리시 방법론 (GRPO) 보다 더 빠르고 안정적이며 확장 가능한 LLM 추론 학습을 가능하게 하는 획기적인 방법론입니다.

LLMs Can Learn to Reason Via Off-Policy RL

🚀 "오프-폴리시 RL": AI 가 더 똑똑해지는 새로운 비법

1. 기존 방법의 문제점: "지시받은 대로만 해야 하는 학생"

2. 새로운 방법 (OAPL): "자유로운 탐험가"

3. OAPL 의 놀라운 성과

4. 요약: 왜 이 논문이 중요한가요?

1. 문제 정의 (Problem)

2. 방법론 (Methodology): OAPL

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Entropy After for reasoning model early exiting

Alternatives to the Laplacian for Scalable Spectral Clustering with Group Fairness Constraints

A Benchmark of Classical and Deep Learning Models for Agricultural Commodity Price Forecasting on A Novel Bangladeshi Market Price Dataset

Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse

FLeX: Fourier-based Low-rank EXpansion for multilingual transfer