Post-Training with Policy Gradients: Optimality and the Base Model Barrier

이 논문은 정책 경사 (PG) 기반 후학습이 베이스 모델의 지원 (support) 내에서는 최적의 효율성을 보이지만, 이를 벗어날 때는 차원의 저주에 직면한다는 한계를 규명하고, 이를 극복하기 위해 토큰 수준의 가능도 분위수 (LQ) 에 의존하는 과정 보상 모델을 제안합니다.

Alireza Mousavi-Hosseini, Murat A. Erdogdu

게시일 Tue, 10 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎓 비유: "명문대 출신의 학생과 새로운 문제"

이 논문의 주인공은 **기존에 공부한 학생 (Base Model, 사전 학습 모델)**과 **새로운 시험 (Post-training, 후속 학습)**입니다.

1. 상황: 학생이 새로운 문제를 풀어야 합니다.

학생은 이미 수만 권의 책을 읽었습니다 (사전 학습). 이제 시험관 (보상 모델) 이 문제를 내주고, 정답을 맞히면 점수 (보상) 를 줍니다. 학생은 이 점수를 보고 더 잘 풀 수 있도록 노력합니다 (정책 경사법, PG).

2. 성공적인 경우: "이미 배운 문제" (Base Model Support)

만약 시험 문제가 학생이 이미 책에서 본 내용과 비슷하다면, 학생은 금방 정답을 찾아냅니다.

  • 논문 내용: 사전 학습 모델이 정답을 낼 확률 (Likelihood) 이 이미 어느 정도 있다면, 보상 점수만 받으면 모델은 그 확률을 1 에 가깝게까지 높일 수 있습니다.
  • 비유: "아, 이 문제는 책 300 페이지에 있잖아!"라고 기억해내서 순식간에 해결하는 경우입니다.

3. 실패하는 장벽: "완전히 새로운 문제" (Off-Support Barrier)

하지만 시험관이 학생이 절대 본 적 없는 완전히 새로운 문제를 내면 어떻게 될까요?

  • 문제점: 학생은 정답을 전혀 모릅니다. 책 (사전 학습 데이터) 에 없는 내용이라서, 정답을 찾으려면 무작위로 모든 가능성을 시도해봐야 합니다.
  • 결과: 문제의 길이가 길어질수록 (N 이 커질수록), 정답을 찾을 확률은 기하급수적으로 줄어듭니다. 예를 들어, 10 자의 암호를 맞추려면 k10k^{10}번을 시도해야 할 수도 있습니다.
  • 논문 내용: 보상만 주는 방식 (Outcome Reward) 을 쓰면, 사전 학습 모델이 정답을 전혀 모르는 영역에서는 정답을 찾기 위해 기하급수적으로 많은 시도 (Reward Queries) 가 필요해집니다. 이는 현실적으로 불가능한 시간 (컴퓨팅 파워) 이 걸린다는 뜻입니다.
  • 비유: "이 문제는 책에 없는데, 정답이 10 자리 숫자 조합이라니! 0000000000 부터 9999999999 까지 다 입력해봐야 하나?"라고 좌절하는 상황입니다.

4. 해결책: "단계별 피드백" (Process Reward Model)

그렇다면 어떻게 해야 할까요? 논문은 **'과정 보상 (Process Reward)'**을 제안합니다.

  • 방식: 시험관이 "정답을 다 맞췄니?"라고 한 번에 묻는 게 아니라, **글자 하나를 쓸 때마다 "지금까지 쓴 글자가 맞니?"**라고 중간중간 확인해줍니다.
  • 효과: 학생은 틀린 글자를 쓰면 바로 고칠 수 있습니다. 전체를 다 맞출 필요 없이, 한 글자씩만 정확하면 됩니다.
  • 논문 내용: 이렇게 하면 기하급수적인 어려움이 사라지고, 문제의 길이에 비례하는 선형적인 노력만으로도 정답에 도달할 수 있습니다.
  • 비유: "10 자리 암호를 다 입력하고 '틀렸습니다'라고 하는 게 아니라, 첫 번째 숫자만 입력하면 '아직은 맞네', 두 번째 숫자를 입력하면 '틀렸네'라고 바로 알려주는 것"입니다. 이렇게 하면 학생은 실수를 바로 수정하며 정답을 찾아갈 수 있습니다.

💡 핵심 요약 (3 가지 포인트)

  1. 기존 지식의 한계 (Base Model Barrier):
    AI 는 이미 알고 있는 지식 범위 안에서는 아주 잘 배우지만, 완전히 새로운 영역으로 넘어가려면 보상만으로는 너무 비효율적입니다. 마치 "이미 배운 것만 반복하는 것"과 다를 바가 없습니다.

  2. 확률의 장벽 (Likelihood Quantile):
    사전 학습 모델이 정답을 낼 확률이 너무 낮으면 (0 에 가까우면), 그걸 1 로 만들려면 우주 나이만큼 걸리는 시간이 필요합니다. 이는 모델의 '기초 체력'이 부족하면 후속 학습이 무의미할 수 있음을 의미합니다.

  3. 단계별 확인의 힘 (Process Rewards):
    전체 정답을 한 번에 확인하는 대신, 단어 하나하나를 중간중간 확인해주면 (Process Reward), AI 는 새로운 지식도 효율적으로 배울 수 있습니다. 이는 '과정'을 중요시하는 학습 방식이 왜 필요한지 수학적으로 증명합니다.

🚀 결론

이 논문은 **"AI 가 더 똑똑해지려면, 단순히 정답만 알려주는 것 (Outcome Reward) 보다, 풀이 과정을 하나하나 점검해주는 것 (Process Reward) 이 훨씬 효과적"**임을 수학적으로 증명했습니다. 특히 AI 가 기존 지식의 범위를 벗어나 새로운 것을 배울 때, 이 '과정 보상'이 필수적이라는 것을 보여줍니다.