LLMs Can Learn to Reason Via Off-Policy RL

이 논문은 훈련 및 추론 정책 간의 지연으로 인해 필연적으로 발생하는 오프-폴리시 데이터를 수정하려 노력하는 기존 접근법 대신, '지연된 추론 정책에 기반한 최적 이점 정책 최적화 (OAPL)'라는 새로운 오프-폴리시 강화학습 알고리즘을 제안하여 기존 방법보다 적은 생성 횟수로 더 뛰어난 성능과 테스트 시간 확장성을 달성함을 보여줍니다.

Daniel Ritter, Owen Oertell, Bradley Guo, Jonathan Chang, Kianté Brantley, Wen Sun

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🚀 "오프-폴리시 RL": AI 가 더 똑똑해지는 새로운 비법

이 논문은 거대한 언어 모델 (LLM, 예: 챗봇이나 코딩 AI) 이 수학 문제나 코딩을 더 잘 풀 수 있도록 가르치는 새로운 방법을 소개합니다. 기존에 쓰이던 방법의 문제점을 해결하고, 훨씬 더 빠르고 효율적으로 AI 를 훈련시킬 수 있는 **'OAPL'**이라는 새로운 기술을 제안했습니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 기존 방법의 문제점: "지시받은 대로만 해야 하는 학생"

기존의 AI 훈련 방식 (GRPO 나 PPO 라고 부릅니다) 은 마치 엄격한 교실과 같습니다.

  • 상황: 선생님이 (훈련 프로그램) 학생 (AI) 에게 문제를 풀게 하고, 그 답을 채점해서 가르칩니다.
  • 문제: 현대의 AI 시스템은 '선생님'과 '학생'이 서로 다른 컴퓨터에서 돌아가는 경우가 많습니다.
    • 선생님은 최신 교재를 가지고 있습니다.
    • 하지만 학생이 문제를 풀 때는 조금 구식인 교재 (이전 버전의 모델) 를 들고 있거나, 선생님의 설명 방식과 학생의 이해 방식이 미세하게 다릅니다.
  • 결과: 선생님이 "이 답이 맞다"고 가르쳐도, 학생은 "아니요, 제 교재에는 다르게 적혀 있어요"라며 혼란을 겪습니다.
  • 기존 해결책:
    1. 중요도 샘플링 (Importance Sampling): 학생이 틀린 답을 내더라도 "아니, 그건 네가 잘못 계산한 거야. 이렇게 고쳐서 봐"라고 수학적 보정 계수를 붙여서 강제로 맞춘 척합니다. (하지만 이 보정이 너무 크면 계산이 불안정해집니다.)
    2. 동기화: 학생이 문제를 풀 때마다 선생님이 즉시 최신 교재로 업데이트되게 합니다. (하지만 이렇게 하면 훈련 속도가 매우 느려집니다.)

2. 새로운 방법 (OAPL): "자유로운 탐험가"

이 논문은 **"왜 학생이 선생님과 완벽하게 일치해야만 배울 수 있을까?"**라고 질문합니다. 대신, 학생이 조금 뒤쳐져 있어도 괜찮다는 전제로 새로운 훈련 방식을 제안합니다.

  • 비유: 요리사 (AI) 와 레시피 (모델)
    • 기존 방식: 요리사가 레시피를 보고 요리를 하고, 요리사가 바로 레시피를 수정합니다. 레시피와 요리사가 항상 1:1 로 일치해야 합니다.
    • 새로운 방식 (OAPL): 요리사가 어제 쓴 레시피로 요리를 만들어 봅니다. 그리고 오늘 만든 요리를 맛본 후, "어제 레시피를 기준으로 봤을 때 이 요리는 맛이 어때?"라고 평가합니다.
    • 핵심 아이디어: 요리사 (훈련 모델) 는 어제 레시피 (이전 버전) 로 만든 요리를 보고, **"오늘의 레시피 (최신 모델) 로 만들었다면 얼마나 더 맛있었을지"**를 계산해서 스스로를 고칩니다.

이 방식은 **중요도 보정 (수학적 계수)**을 전혀 쓰지 않습니다. 대신, **"최적의 이점 (Optimal Advantage)"**이라는 개념을 사용합니다.

  • 쉽게 말해, "네가 지금 한 행동이, 만약 네가 조금 더 똑똑해졌다면 얼마나 더 좋은 결과를 냈을까?"를 **제곱 오차 (Regression)**라는 간단한 수학 공식을 통해 직접 계산해 가르치는 것입니다.

3. OAPL 의 놀라운 성과

이 새로운 방식 (OAPL) 은 기존 방식보다 훨씬 훌륭했습니다.

  1. 더 빠른 훈련 (3 배 효율):

    • 기존 방식은 학생이 문제를 풀 때마다 선생님이 바로 업데이트되어야 했지만, OAPL 은 선생님이 400 번이나 업데이트될 때까지 학생이 예전 레시피로 계속 문제를 풀어도 됩니다.
    • 결과: 같은 성능을 내는데, 데이터를 3 배나 적게 사용했습니다. (시간과 돈 절약!)
  2. 더 안정적인 학습:

    • 기존 방식은 학생이 너무 많이 뒤쳐지면 (레시피 차이가 크면) 학습이 망가져서 AI 가 멍청해지는 경우가 많았습니다 (엔트로피 붕괴).
    • 하지만 OAPL 은 선생님과 학생의 거리가 멀어도 AI 가 스스로 균형을 잡으며 안정적으로 성장했습니다.
  3. 더 똑똑한 AI (Pass@k):

    • Pass@k는 "AI 가 1 번에 정답을 낼 확률"이 아니라, **"10 번, 100 번 시도해 봤을 때 그중 하나라도 정답을 낼 확률"**을 의미합니다.
    • OAPL 로 훈련된 AI 는 단순히 정답만 외우는 게 아니라, 여러 가지 시도를 해볼 때 정답을 찾을 확률이 훨씬 높았습니다. 즉, 더 창의적이고 유연하게 문제를 해결합니다.

4. 요약: 왜 이 논문이 중요한가요?

이 논문은 **"AI 를 가르칠 때, 선생님과 학생이 완벽하게 동기화될 필요는 없다"**는 사실을 증명했습니다.

  • 과거: "학생이 선생님을 따라야만 배운다." (동기화 필요, 느림, 불안정)
  • 현재 (OAPL): "학생이 조금 뒤쳐져 있어도, 과거의 경험을 바탕으로 스스로를 고치면 더 잘 배운다." (비동기 가능, 빠름, 안정적)

이 기술 덕분에 앞으로 더 적은 비용과 시간으로, 더 똑똑한 AI를 만들 수 있게 되었습니다. 마치 학생이 혼자서도 독학으로 명문대에 합격할 수 있는 방법을 찾아낸 것과 같습니다!

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →