RLP: Reinforcement as a Pretraining Objective

이 논문은 다음 토큰 예측을 위한 사전 학습 단계에 정보 이론적 보상을 기반으로 한 강화 학습 (RLP) 을 도입하여 체인 오브 씽킹을 탐험 행동으로 활용함으로써, 별도의 검증자 없이도 대규모 언어 모델의 추론 능력을 효과적으로 향상시키는 새로운 패러다임을 제시합니다.

Ali Hatamizadeh, Syeda Nahida Akter, Shrimai Prabhumoye, Jan Kautz, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Yejin Choi

게시일 2026-03-03
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧠 "생각하는 습관"을 미리 심어주는 AI 훈련법: RLP

이 논문은 거대 언어 모델 (LLM, 예: 챗봇) 을 어떻게 더 똑똑하게 만들 수 있는지에 대한 새로운 아이디어를 제시합니다. 제목은 **RLP(Reinforcement Learning Pre-training, 강화학습 기반 사전 학습)**입니다.

기존 방식과 새로운 방식의 차이를 이해하기 위해, **"요리 학교"**와 **"요리사"**의 비유를 들어 설명해 보겠습니다.


1. 기존 방식: "무작위 시도는 나중에 배워라" (기존 훈련)

지금까지 AI 를 가르치는 방식은 다음과 같았습니다.

  • 1 단계 (사전 학습): AI 에게 책, 뉴스, 위키피디아 등 엄청난 양의 텍스트를 보여줍니다. 이때 AI 는 **"다음에 어떤 단어가 나올까?"**를 계속 예측하는 연습만 합니다.
    • 비유: 요리 학교 학생이 레시피 책만 수백 권 읽으며 "다음에 들어갈 재료가 뭐지?"라고 외우는 단계입니다. 하지만 그 재료가 들어가는지, 어떻게 요리하는지 깊이 생각하지는 않습니다.
  • 2 단계 (후기 훈련): AI 가 기본적인 언어 감각을 익힌 후, 인간이 "이건 좋은 답변, 저건 나쁜 답변"이라고 가르치거나 (SFT), 정답이 있는 수학 문제를 풀게 하며 점수를 매겨줍니다 (RLHF).
    • 비유: 요리사가 된 후, "이 요리는 맛이 없으니 다시 해봐"라는 피드백을 받으며 비로소 생각하는 법을 배웁니다.

문제점: AI 는 "다음 단어 예측"만 하다 보니, 복잡한 문제를 풀 때 **생각하는 과정 (Chain-of-Thought)**을 생략하고 바로 답만 내놓으려 합니다. 마치 요리를 하다가 재료를 섞는 과정을 생략하고 바로 접시에 담으려 하는 것과 같습니다.


2. 새로운 방식 (RLP): "생각하는 습관을 미리 심어주자"

이 논문은 **"왜 나중에 배울까? 처음부터 생각하는 법을 가르치자!"**라고 제안합니다.

🌟 핵심 아이디어: "생각"을 하나의 행동으로 간주하다

RLP 는 AI 가 다음 단어를 말하기 전에, 잠시 **"생각 (CoT)"**을 하도록 강요합니다.

  • 상황: AI 가 "사과"라는 단어를 보았습니다.
  • 기존: 바로 "사과" 다음에 무엇이 올지 예측.
  • RLP 방식:
    1. AI 는 먼저 <생각> 태그를 열고, "사과가 왜 나왔지? 아마 과일 이야기인가? 아니면 건강 이야기인가?"라고 내부적으로 생각합니다.
    2. 그 생각 내용을 바탕으로 다음 단어를 예측합니다.
    3. 보상 (Reward): 만약 AI 의 "생각"이 다음 단어를 맞추는 데 도움이 되었다면, AI 는 보상을 받습니다.
      • 비유: 요리사가 "아, 이 요리는 감칠맛을 내야 하니까 소금을 먼저 넣어야겠다"라고 생각한 후 소금을 넣어서 요리를 성공시켰다면, 그 생각 과정 자체를 칭찬하고 점수를 줍니다.

🏆 보상은 어떻게 매길까? (검증자 없는 보상)

기존 강화학습은 정답을 알려주는 '검증자 (Verifier)'가 필요했습니다. 하지만 RLP 는 검증자가 없습니다.

  • 원리: "생각을 안 했을 때보다, 생각을 했을 때 다음 단어를 맞출 확률이 더 높아졌다면?" -> 성공!
  • 비유: 요리사가 "생각 없이 재료를 넣었을 때보다, 생각해서 재료를 넣었을 때 요리의 맛이 더 좋아졌다면?" 그 자체로 점수를 줍니다. 정답을 미리 알 필요 없이, 예측 능력이 향상되었는지만 보면 됩니다.

3. 왜 이것이 혁신적인가?

🚀 1. "생각"이 본능이 됩니다

기존 방식은 AI 가 "생각"을 하려면 나중에 다시 가르쳐야 했지만, RLP 는 처음부터 "생각하면 더 잘 맞는다"는 것을 학습합니다.

  • 결과: AI 는 복잡한 수학 문제나 과학 문제를 풀 때, 답을 바로 외우지 않고 스스로 논리적으로 추론하는 습관을 갖게 됩니다.

📈 2. 데이터 효율성 (적은 데이터로 더 큰 효과)

논문 실험 결과, RLP 를 적용한 모델은 기존 방식보다 훨씬 적은 데이터로도 훨씬 뛰어난 성능을 보였습니다.

  • 비유: 같은 양의 재료를 가지고 요리할 때, RLP 를 배운 요리사는 "생각"을 통해 더 맛있는 요리를 만들어냅니다. 반면, 기존 방식의 요리사는 재료를 35 배나 더 써도 그 정도 맛밖에 내지 못했습니다.

🌍 3. 어떤 분야든 통합니다

기존 방식은 수학 문제만 풀게 하면 수학은 잘하지만, 과학이나 일반 상식은 못 풀었습니다. 하지만 RLP 는 어떤 텍스트 (논문, 웹페이지, 교과서) 를 읽든 "생각하는 법"을 배우기 때문에, 수학뿐만 아니라 과학, 일반 상식 등 모든 분야에서 실력이 향상되었습니다.


4. 요약: RLP 가 가져온 변화

구분 기존 방식 (Next-Token Prediction) 새로운 방식 (RLP)
학습 목표 "다음 단어가 뭐지?" (기억) "생각해서 다음 단어를 맞추자" (이해)
생각 과정 나중에 따로 가르침 (후기 훈련) 처음부터 습관화 (사전 학습)
보상 방식 정답이 맞아야 함 (검증자 필요) 예측이 더 잘되면 됨 (검증자 불필요)
결과 답만 외우는 AI 스스로 추론하는 AI

🎯 결론

이 논문은 **"AI 가 똑똑해지려면, 단순히 많은 책을 읽게 하는 것만으로는 부족하다. 책 읽는 도중 '왜?'라고 생각하며 다음 내용을 예측하는 훈련을 처음부터 시켜야 한다"**는 것을 증명했습니다.

RLP 는 AI 에게 **"생각하는 근육"**을 키우는 새로운 운동법을 제시한 셈입니다. 이제 AI 는 단순히 정보를 나열하는 것을 넘어, 인간처럼 논리적으로 사고하고 추론하는 능력을 더 자연스럽게 습득하게 되었습니다.