How Far Can Unsupervised RLVR Scale LLM Training?

이 논문은 검증 가능한 보상을 활용한 비지도 강화학습 (URLVR) 이 초기 모델의 분포를 강화하는 메커니즘을 통해 학습이 일시적으로 향상되다가 결국 붕괴된다는 이론적·실험적 한계를 규명하고, 이를 극복하기 위한 외부 보상 기반 접근법의 가능성을 제시합니다.

Bingxiang He, Yuxin Zuo, Zeyuan Liu, Shangziqi Zhao, Zixuan Fu, Junlin Yang, Cheng Qian, Kaiyan Zhang, Yuchen Fan, Ganqu Cui, Xiusi Chen, Youbang Sun, Xingtai Lv, Xuekai Zhu, Li Sheng, Ran Li, Huan-ang Gao, Yuchen Zhang, Bowen Zhou, Zhiyuan Liu, Ning Ding

게시일 2026-03-10
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"대규모 언어 모델 (LLM) 을 더 똑똑하게 만들기 위해, 정답이 없는 상태에서 스스로 학습할 수 있을까?"**라는 질문에 대한 답을 찾는 연구입니다.

기존에는 수학 문제나 코딩 문제를 풀 때, 정답 (Ground Truth) 을 알려주는 사람이 있어야 모델이 "맞았나요? 틀렸나요?"를 배우고 발전했습니다. 하지만 정답을 알려주는 사람은 한정되어 있고 비용도 비쌉니다. 그래서 연구자들은 **"정답 없이 모델 스스로가 '내가 이걸 맞췄을 것 같아'라는 느낌 (신뢰도) 을 reward(보상) 로 삼아 학습하는 방법"**을 시도했습니다. 이를 '비지도 강화 학습 (URLVR)'이라고 합니다.

이 논문은 이 방법이 얼마나 잘 작동하는지, 그리고 어디까지 확장 가능한지 파헤쳤습니다. 핵심 내용을 쉬운 비유로 설명해 드릴게요.


1. 핵심 발견: "자신감"은 양날의 검이다

연구자들은 모델이 스스로 정답을 고르는 과정에서 **"내가 이걸 맞췄을 거야!"라고 확신하는 정도 (신뢰도)**를 보상으로 주었습니다.

  • 초반의 성공: 모델이 처음에 이미 알고 있는 문제라면, 이 방법은 아주 잘 작동합니다. 모델이 "아, 이거 내가 잘 풀 수 있어!"라고 확신하는 방향으로 학습을 강화해서 성능이 오릅니다.
  • 나중의 붕괴 (Model Collapse): 하지만 학습이 계속되면 문제가 생깁니다. 모델이 틀렸는데도 "내가 맞았어!"라고 너무 확신하게 되는 경우가 생깁니다. 이때 모델은 틀린 답을 고집하며 스스로를 더 똑똑한 척하지만, 실제로는 엉뚱한 길로 빠져버립니다. 이를 **'모델 붕괴'**라고 부릅니다.

🍎 비유: "자신감 있는 바보"
Imagine you are teaching a student who doesn't know the answer to a math problem.

  • 초반: 학생이 "아, 이거 2+2 는 4 야!"라고 자신 있게 말하면, 당신은 "좋아! 그거 맞네!"라고 칭찬합니다. 학생은 더 자신감을 얻습니다.
  • 후반: 학생이 "2+2 는 5 야!"라고 틀리게 말해도, "아니, 내가 5 라고 확신해!"라고 너무 자신 있게 말하면, 당신은 그 '자신감'을 보고 "오, 이 학생은 확신이 있구나!"라고 착각하고 칭찬해 줍니다.
  • 결과: 학생은 2+2 가 5 라는 것을 믿게 되고, 더 이상 올바른 답을 찾지 못하게 됩니다. 이것이 바로 자신감 (신뢰도) 과 정답이 일치하지 않을 때 발생하는 붕괴입니다.

2. 왜 이런 일이 일어날까? (이론적 설명)

논문은 이 현상을 **"초기 성향의 강화 (Sharpening)"**라고 설명합니다.

  • 모델은 새로운 지식을 배우는 게 아니라, 처음부터 가지고 있던 '내성 (성향)'을 더 강하게 만드는 것입니다.
  • 처음에 "이게 맞다"라고 생각했다면, 그걸 더 확신하게 되어 정답을 잘 찾습니다.
  • 하지만 처음에 "이게 맞다"라고 잘못 생각했다면, 그 잘못된 생각을 더 강하게 믿게 되어 틀린 답을 고집하게 됩니다.
  • 결국, 모델이 처음에 얼마나 정확한지 (초기 신뢰도와 정답의 일치 여부) 에 따라 성공할지 실패할지가 결정됩니다.

3. 이 방법을 안전하게 쓸 수 있는 곳: "시험 시간 훈련"

그렇다면 이 방법은 쓸모없는 걸까요? 아닙니다. 작은 데이터셋이나 **시험 시간 (Test-Time)**에는 아주 유용합니다.

  • 작은 데이터의 힘: 학습 데이터가 아주 적으면 (예: 문제 32 개만 학습), 모델이 전체적인 지식을 망가뜨리지 않고 그 작은 문제들만 "외워버리는" 수준에서 멈춥니다. 이렇게 되면 붕괴가 일어나지 않습니다.
  • 시험 시간 훈련 (Test-Time Training): 문제를 풀기 직전에, 그 문제만 보고 잠시 학습을 시키는 방식입니다. 데이터가 적고 특정 문제에만 집중하므로, 모델이 망가지지 않고 그 문제 해결 능력을 높일 수 있습니다.

🎯 비유: "시험 직전 요점 정리"
시험을 보기 직전에, 전체 교과서를 다시 다 읽는 게 아니라 (그건 너무 오래 걸리고 망가질 수 있음), 오늘 나올 문제 30 개만 집중해서 "내가 이거 맞출 수 있어!"라고 연습하는 것입니다. 이 방법은 시험 점수를 높이는 데 아주 효과적입니다.

4. 새로운 지표: "붕괴 시점 (Model Collapse Step)"으로 예측하기

연구자들은 **"어떤 모델이 이 방법으로 학습하기 좋은지"**를 미리 알 수 있는 방법을 고안했습니다.

  • 기존 방식: 모델을 실제로 학습시켜서 점수가 오르는지 확인해 보려면, 시간과 돈이 너무 많이 듭니다.
  • 새로운 방법 (Model Collapse Step): 모델을 아주 짧게 학습시켜서, **"언제부터 틀린 답을 확신하기 시작하는가?"**를 봅니다.
    • 붕괴가 늦게 오면 = 이 모델은 학습하기 좋습니다 (초기 신뢰도가 정답과 잘 맞음).
    • 붕괴가 빨리 오면 = 이 모델은 학습하기 어렵습니다.
  • 이 방법은 정답 (Ground Truth) 없이도 모델을 고를 수 있게 해줍니다. 마치 "이 학생은 시험을 치기 전에 5 분만 연습해도 성적이 오를까?"를 미리 예측하는 것과 같습니다.

5. 미래의 해결책: "외부 검증"으로 넘어가기

논문은 결론적으로 말합니다. "모델 스스로의 느낌 (내부 신호) 에만 의존하는 건 한계가 있다."

  • 내부 신호의 한계: 모델이 "내가 맞을 거야"라고 느끼는 것만으로는, 모델이 이미 알고 있는 지식의 범위 밖으로 나가기 어렵습니다.
  • 외부 신호의 가능성: 정답을 직접 확인해 주는 **컴퓨터 프로그램 (코드 실행, 수학 계산기 등)**이나 외부 검증 도구를 사용하는 방법이 더 좋습니다.
    • 예: 코드를 짜면 컴퓨터가 "실행 성공/실패"를 알려줍니다. 모델이 틀려도 컴퓨터는 거짓말을 안 하죠.
    • 이렇게 모델의 느낌과 상관없이 객관적으로 검증 가능한 방법이 앞으로의 대안입니다.

📝 한 줄 요약

"모델이 스스로 '내가 맞다'고 믿는 것만으로는 한계가 있다. 틀린 답을 믿게 되면 망가진다. 하지만 작은 문제집으로 시험 직전 연습을 하거나, 컴퓨터처럼 객관적으로 정답을 확인해 주는 도구를 쓴다면, 정답 없이도 모델을 더 똑똑하게 만들 수 있다."

이 연구는 AI 가 스스로 배우는 길에서 우리가 어디까지 갈 수 있는지, 그리고 어디에서 멈춰야 하는지 명확한 지도를 그려준 중요한 논문입니다.