Each language version is independently generated for its own context, not a direct translation.

🧠 "생각하는 습관"을 미리 심어주는 AI 훈련법: RLP

이 논문은 거대 언어 모델 (LLM, 예: 챗봇) 을 어떻게 더 똑똑하게 만들 수 있는지에 대한 새로운 아이디어를 제시합니다. 제목은 **RLP(Reinforcement Learning Pre-training, 강화학습 기반 사전 학습)**입니다.

기존 방식과 새로운 방식의 차이를 이해하기 위해, **"요리 학교"**와 **"요리사"**의 비유를 들어 설명해 보겠습니다.

1. 기존 방식: "무작위 시도는 나중에 배워라" (기존 훈련)

지금까지 AI 를 가르치는 방식은 다음과 같았습니다.

1 단계 (사전 학습): AI 에게 책, 뉴스, 위키피디아 등 엄청난 양의 텍스트를 보여줍니다. 이때 AI 는 **"다음에 어떤 단어가 나올까?"**를 계속 예측하는 연습만 합니다.
- 비유: 요리 학교 학생이 레시피 책만 수백 권 읽으며 "다음에 들어갈 재료가 뭐지?"라고 외우는 단계입니다. 하지만 왜 그 재료가 들어가는지, 어떻게 요리하는지 깊이 생각하지는 않습니다.
2 단계 (후기 훈련): AI 가 기본적인 언어 감각을 익힌 후, 인간이 "이건 좋은 답변, 저건 나쁜 답변"이라고 가르치거나 (SFT), 정답이 있는 수학 문제를 풀게 하며 점수를 매겨줍니다 (RLHF).
- 비유: 요리사가 된 후, "이 요리는 맛이 없으니 다시 해봐"라는 피드백을 받으며 비로소 생각하는 법을 배웁니다.

문제점: AI 는 "다음 단어 예측"만 하다 보니, 복잡한 문제를 풀 때 **생각하는 과정 (Chain-of-Thought)**을 생략하고 바로 답만 내놓으려 합니다. 마치 요리를 하다가 재료를 섞는 과정을 생략하고 바로 접시에 담으려 하는 것과 같습니다.

2. 새로운 방식 (RLP): "생각하는 습관을 미리 심어주자"

이 논문은 **"왜 나중에 배울까? 처음부터 생각하는 법을 가르치자!"**라고 제안합니다.

🌟 핵심 아이디어: "생각"을 하나의 행동으로 간주하다

RLP 는 AI 가 다음 단어를 말하기 전에, 잠시 **"생각 (CoT)"**을 하도록 강요합니다.

상황: AI 가 "사과"라는 단어를 보았습니다.
기존: 바로 "사과" 다음에 무엇이 올지 예측.
RLP 방식:
1. AI 는 먼저 <생각> 태그를 열고, "사과가 왜 나왔지? 아마 과일 이야기인가? 아니면 건강 이야기인가?"라고 내부적으로 생각합니다.
2. 그 생각 내용을 바탕으로 다음 단어를 예측합니다.
3. 보상 (Reward): 만약 AI 의 "생각"이 다음 단어를 맞추는 데 도움이 되었다면, AI 는 보상을 받습니다.
  - 비유: 요리사가 "아, 이 요리는 감칠맛을 내야 하니까 소금을 먼저 넣어야겠다"라고 생각한 후 소금을 넣어서 요리를 성공시켰다면, 그 생각 과정 자체를 칭찬하고 점수를 줍니다.

🏆 보상은 어떻게 매길까? (검증자 없는 보상)

기존 강화학습은 정답을 알려주는 '검증자 (Verifier)'가 필요했습니다. 하지만 RLP 는 검증자가 없습니다.

원리: "생각을 안 했을 때보다, 생각을 했을 때 다음 단어를 맞출 확률이 더 높아졌다면?" -> 성공!
비유: 요리사가 "생각 없이 재료를 넣었을 때보다, 생각해서 재료를 넣었을 때 요리의 맛이 더 좋아졌다면?" 그 자체로 점수를 줍니다. 정답을 미리 알 필요 없이, 예측 능력이 향상되었는지만 보면 됩니다.

3. 왜 이것이 혁신적인가?

🚀 1. "생각"이 본능이 됩니다

기존 방식은 AI 가 "생각"을 하려면 나중에 다시 가르쳐야 했지만, RLP 는 처음부터 "생각하면 더 잘 맞는다"는 것을 학습합니다.

결과: AI 는 복잡한 수학 문제나 과학 문제를 풀 때, 답을 바로 외우지 않고 스스로 논리적으로 추론하는 습관을 갖게 됩니다.

📈 2. 데이터 효율성 (적은 데이터로 더 큰 효과)

논문 실험 결과, RLP 를 적용한 모델은 기존 방식보다 훨씬 적은 데이터로도 훨씬 뛰어난 성능을 보였습니다.

비유: 같은 양의 재료를 가지고 요리할 때, RLP 를 배운 요리사는 "생각"을 통해 더 맛있는 요리를 만들어냅니다. 반면, 기존 방식의 요리사는 재료를 35 배나 더 써도 그 정도 맛밖에 내지 못했습니다.

🌍 3. 어떤 분야든 통합니다

기존 방식은 수학 문제만 풀게 하면 수학은 잘하지만, 과학이나 일반 상식은 못 풀었습니다. 하지만 RLP 는 어떤 텍스트 (논문, 웹페이지, 교과서) 를 읽든 "생각하는 법"을 배우기 때문에, 수학뿐만 아니라 과학, 일반 상식 등 모든 분야에서 실력이 향상되었습니다.

4. 요약: RLP 가 가져온 변화

구분	기존 방식 (Next-Token Prediction)	새로운 방식 (RLP)
학습 목표	"다음 단어가 뭐지?" (기억)	"생각해서 다음 단어를 맞추자" (이해)
생각 과정	나중에 따로 가르침 (후기 훈련)	처음부터 습관화 (사전 학습)
보상 방식	정답이 맞아야 함 (검증자 필요)	예측이 더 잘되면 됨 (검증자 불필요)
결과	답만 외우는 AI	스스로 추론하는 AI

🎯 결론

이 논문은 **"AI 가 똑똑해지려면, 단순히 많은 책을 읽게 하는 것만으로는 부족하다. 책 읽는 도중 '왜?'라고 생각하며 다음 내용을 예측하는 훈련을 처음부터 시켜야 한다"**는 것을 증명했습니다.

RLP 는 AI 에게 **"생각하는 근육"**을 키우는 새로운 운동법을 제시한 셈입니다. 이제 AI 는 단순히 정보를 나열하는 것을 넘어, 인간처럼 논리적으로 사고하고 추론하는 능력을 더 자연스럽게 습득하게 되었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

현재 대규모 언어 모델 (LLM) 의 주류 훈련 방식은 방대한 데이터에 대한 다음 토큰 예측 (Next-Token Prediction, NTP) 손실 함수를 기반으로 한 사전 학습으로 시작합니다. 이후 복잡한 추론 능력을 유도하기 위해 지도 미세 조정 (SFT) 과 인간/검증 피드백을 통한 강화 학습 (RLHF, RLVR) 을 마지막 단계에서 적용합니다.

이러한 접근법의 한계는 다음과 같습니다:

선형적 토큰 생성의 한계: 인간의 이해 과정이 입력과 기존 지식을 병렬적으로 통합하는 과정인 반면, 기존 NTP 는 단순한 토큰 단위의 선형 예측에 의존합니다.
추론의 지연: 추론 능력 (Chain-of-Thought, CoT) 이 사전 학습 단계에서는 명시적으로 장려되지 않아, 모델이 추론을 '배우는' 시점이 너무 늦습니다.
검증자 의존성: 기존 RL 기반 방법론은 정답이 있는 데이터나 외부 검증자 (Verifier) 가 필요하여, 웹 크롤링과 같은 일반 텍스트 데이터에 적용하기 어렵습니다.

핵심 질문: "강화학습을 사후 학습의 마지막 단계로만 두는 것이 최적의 훈련 방식인가?"

2. 방법론 (Methodology: RLP)

저자들은 RLP (Reinforcement Learning Pretraining) 를 제안합니다. 이는 CoT(Chain-of-Thought) 생성을 다음 토큰 예측 전의 명시적인 '행동 (Action)'으로 간주하고, 그 행동이 예측에 제공하는 정보 이득 (Information Gain) 을 기반으로 보상을 계산하는 사전 학습 목적 함수입니다.

2.1 핵심 아이디어

탐색으로서의 CoT: 모델이 다음 토큰을 예측하기 전에 내부적으로 '생각 (Thought)'을 생성하는 과정을 탐색 행동으로 간주합니다.
검증자 없는 밀집 보상 (Verifier-free Dense Reward): 외부 정답이나 검증자가 필요 없습니다. 보상 신호는 관측된 다음 토큰의 로그 가능도 (Log-likelihood) 증가분으로 정의됩니다.
- $r(c_t) = \log p_\theta(x_t | x_{<t}, c_t) - \log \bar{p}_\phi(x_t | x_{<t})$
- 여기서 $c_t$ 는 샘플링된 CoT, $\bar{p}_\phi$ 는 CoT 없이 예측하는 EMA(Exponential Moving Average) 기반선입니다.
- CoT 를 통해 다음 토큰 예측 확률이 높아지면 양의 보상을 받습니다.

2.2 아키텍처 및 최적화

단일 모델: 사고 정책 (Thought Policy) 과 예측기 (Predictor) 는 동일한 네트워크 파라미터 $\theta$ 를 공유합니다.
EMA 기반선 (EMA Baseline): 현재 모델의 EMA 버전 ( $\phi$ ) 을 '생각하지 않는 (No-think)' 대조군으로 사용합니다. 이는 보상 해킹 (Reward Hacking) 을 방지하고 안정적인 학습을 유도합니다.
그룹 상대적 이득 (Group-relative Advantages): 각 컨텍스트에서 $G$ 개의 CoT 를 샘플링하여 그룹 내 평균 보상을 기준으로 상대적 이득을 계산합니다. 이는 분산을 줄이고 편향된 업데이트를 방지합니다.
클립된 서로게이트 손실 (Clipped Surrogate Loss): PPO(Proximal Policy Optimization) 와 유사하게, 사고 토큰의 확률 업데이트를 클립하여 안정성을 확보합니다.

2.3 이론적 보장

크로스 엔트로피 감소: 기대 보상 (Expected Reward) 을 최대화하는 것은 CoT 를 사용한 예측기의 크로스 엔트로피를 No-think 기반선에 비해 감소시키는 것과 수학적으로 동치입니다.
위치별 크레딧 할당: 문서의 모든 위치에서 밀집된 보상이 계산되므로, 특정 토큰만 선택하거나 고엔트로피 토큰만 필터링할 필요가 없습니다.

3. 주요 기여 (Key Contributions)

검증자 없는 정보 이득 목적 함수 도입: CoT 의 예측 유용성에 비례하여 사고를 보상하는 RLP 를 제안하여, 사전 학습 단계에서 추론 능력을 주입합니다.
실용적이고 안정적인 훈련 알고리즘: 그룹 상대적 이득, 클립된 서로게이트, EMA 기반선을 결합하여 NTP 와 RL 업데이트를 안정적으로 교차 학습 (Interleave) 하는 알고리즘을 개발했습니다.
이론적 증명: 기대 보상이 크로스 엔트로피 감소와 연관되며, 계산 가능한 하한선 (Lower Bound) 을 가진다는 것을 증명했습니다.
광범위한 실험적 검증: 다양한 데이터셋, 도메인, 아키텍처 (Transformer, Hybrid Mamba-Transformer), 모델 크기 (1.7B ~ 14B) 에서 RLP 의 효과와 확장성을 입증했습니다.

4. 실험 결과 (Results)

4.1 Qwen3-1.7B-Base 모델

성능 향상: RLP 를 적용한 모델 (MRLP) 은 기존 베이스 모델 (Mbase) 대비 평균 19% 향상, 연속 사전 학습 (MCPT) 대비 17% 향상을 보였습니다.
추론 특화 벤치마크: AIME25, MMLU-Pro 등 고난이도 추론 작업에서 가장 큰 개선을 보였습니다.
사후 학습과의 시너지: 강력한 SFT + RLVR 사후 학습을 거친 후에도 RLP 의 이점이 유지되며, 오히려 누적되어 최종 모델이 기존 방식보다 7~8% 더 높은 점수를 기록했습니다.

4.2 NEMOTRON-NANO-12B-V2 (하이브리드 아키텍처)

확장성: 12B 파라미터의 Mamba-Transformer 하이브리드 모델에 적용 시, 전체 평균이 **42.81% 에서 61.32%**로 급격히 상승했습니다.
데이터 효율성: 20T 토큰으로 훈련된 베이스 모델 대비, RLP 는 단 2.5 억 토큰 (약 0.125% 데이터) 만으로 35% 의 상대적 개선을 달성했습니다.

4.3 비교 실험 (RPT 및 CPT)

RPT (Reinforcement Pre-training) 대비: RPT 는 희소 이진 보상과 보조 모델 필터링에 의존하는 반면, RLP 는 모든 위치에서 밀집된 정보 이득 보상을 제공합니다. 계산 자원 (FLOPs) 을 맞춘 조건에서 RLP 는 RPT 보다 20% 이상 우수한 성능을 보였습니다.
CPT (Continuous Pretraining) 대비: 고품질 추론 데이터로 CPT 를 수행하더라도 RLP 가 일관되게 우위를 점했습니다. 이는 RLP 의 이득이 단순히 데이터 품질 때문이 아니라 알고리즘적 설계에서 비롯됨을 의미합니다.

4.4 일반화 능력

도메인 무관성: 수학 전용 데이터뿐만 아니라 학술 논문, 교과서, 일반 웹 크롤링 데이터 등 다양한 소스에서 RLP 를 적용했을 때 일관된 성능 향상을 보였습니다. 이는 RLP 가 특정 도메인에 국한되지 않고 일반화된 추론 능력을 학습함을 시사합니다.

5. 의의 및 결론 (Significance & Conclusion)

이 연구는 강화학습을 사전 학습의 핵심 목적 함수로 재정의했다는 점에서 중요한 의의를 가집니다.

패러다임 전환: "생각하기 (Thinking)"를 사후 학습이 아닌, 언어 모델이 세계 지식을 학습하는 초기 단계부터 장려하는 방식으로 전환했습니다.
검증자 불필요: 외부 정답이나 검증자가 없어도 일반 텍스트 데이터에서 추론 능력을 학습할 수 있어, 웹 규모의 데이터 활용도가 극대화됩니다.
효율성과 확장성: 계산 자원을 더 많이 사용하는 기존 방법들보다 데이터 효율성이 뛰어나며, 다양한 모델 아키텍처와 크기에 적용 가능합니다.
지속 가능한 추론: RLP 로 사전 학습된 모델은 사후 학습 (Alignment) 을 거친 후에도 그 이점이 소멸되지 않고 오히려 증폭되어, 더 강력하고 견고한 추론 능력을 갖춘 모델을 생성합니다.

결론적으로, RLP 는 NTP 기반의 확률적 예측과 CoT 기반의 추론 사이의 간극을 메우는 원칙적이고 일반적인 대안으로, 차세대 추론 모델 개발의 새로운 기준을 제시합니다.

RLP: Reinforcement as a Pretraining Objective