Learning to Reason without External Rewards

이 논문은 외부 보상 없이 모델의 자체 확신도를 보상 신호로 활용하는 'Intuitor'라는 방법을 제안하여, 수학 벤치마크에서 기존 RLVR 기법과 동등한 성능을 내면서도 도메인 간 일반화 능력을 향상시킨다는 결과를 제시합니다.

Xuandong Zhao, Zhewei Kang, Aosong Feng, Sergey Levine, Dawn Song

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 기존 방식: "엄마의 채점"과 "정답지"의 한계

지금까지 AI 를 가르치는 두 가지 주요 방법이 있었습니다.

  • RLHF (사람의 피드백): AI 가 답을 쓰면, 사람이 "이건 좋아, 저건 나빠"라고 직접 채점해 주는 방식입니다.
    • 비유: 아이가 숙제를 하면 엄마가 직접 채점해 주는 것과 같습니다.
    • 문제점: 엄마 (사람) 가 항상 옆에 있을 수 없으니 비용이 많이 들고, 엄마의 취향에 따라 편견이 생길 수 있습니다.
  • RLVR (검증 가능한 점수): 수학 문제나 코딩 문제처럼 정답이 명확한 경우, AI 가 낸 답이 정답과 일치하는지 컴퓨터가 자동으로 체크해 주는 방식입니다.
    • 비유: 정답지가 있는 시험을 치는 것입니다.
    • 문제점: 정답지가 있는 문제 (수학, 코딩) 만 가능합니다. "이 그림을 그려줘"나 "이 소설을 써줘"처럼 정답이 명확하지 않은 문제는 가르칠 수 없습니다.

2. 새로운 방식 (INTUITOR): "스스로의 확신"을 믿는 AI

이 논문은 **"정답지도, 채점해 줄 사람도 없이 AI 가 스스로 학습할 수 있을까?"**라는 질문에서 시작합니다.

저자들은 AI 가 **"내가 이 답을 얼마나 확신하는가?" (Self-certainty)**를 점수 삼아 학습하게 했습니다.

  • 핵심 아이디어: AI 가 문제를 풀 때, 답을 내는 과정에서 매우 자신 있게 (높은 확률로) 단어를 선택한다면 그 답을 '좋은 답'으로 간주하고 보상합니다. 반대로 헷갈려서 (낮은 확률로) 선택했다면 '나쁜 답'으로 간주합니다.
  • 비유:
    • 기존 방식은 **"정답을 맞췄니?"**를 물어보는 것입니다.
    • 이 방식은 **"네가 이 답을 얼마나 확신하니?"**를 물어보는 것입니다.
    • 마치 음악 경연대회에서 심사위원이 없는 상황을 상상해 보세요. 대신 참가자들이 **"내가 이 노래를 얼마나 완벽하게 부를 수 있다고 믿는가?"**를 점수로 삼아 연습합니다. 자신감이 높은 노래를 더 많이 부르고, 자신 없는 노래는 고쳐 부르게 됩니다.

3. 이 방법이 놀라운 이유: "의외의 능력" 발견

이론적으로는 '자신감'만으로는 정답을 맞출 수 없을 것 같지만, 실험 결과는 놀라웠습니다.

  1. 수학 문제에서도 잘함: 정답지를 주고 학습한 AI 와 비교해도, 수학 문제 풀이 실력이 거의 비슷했습니다.
  2. 코딩 문제에서도 대박: 정답지가 전혀 없는 '코딩' 영역에서도, 수학 문제만 학습시켰는데도 코딩 실력이 급상승했습니다.
    • 이유: AI 가 "자신 있는 답"을 찾으려다 보니, 논리적으로 단계를 차근차근 설명하는 (Reasoning) 습관을 들이게 된 것입니다. 코딩은 논리가 중요하므로, 논리력을 기른 AI 는 코딩도 잘하게 된 것입니다.
  3. 말하는 법을 배움: 처음에는 엉뚱한 말만 하던 AI 가, 학습을 거치며 "이건 이렇게 생각했고, 결론은 이렇습니다"라고 구조화된 답변을 하기 시작했습니다.

4. 결론: AI 의 "자기 성찰" 시대

이 논문이 말하고자 하는 바는 매우 중요합니다.

  • 외부 의존 탈출: AI 는 더 이상 인간이 채점해 주거나 정답지를 제공해 줄 필요 없이, 스스로의 내면 (자신감) 을 믿고 발전할 수 있습니다.
  • 미래의 AI: 앞으로 AI 가 인간의 이해를 넘어서는 복잡한 일을 하게 되면, 인간이 채점해 줄 수 없게 됩니다. 그때 이 기술은 AI 가 스스로를 가르치고 (Self-improvement) 더 똑똑해지는 핵심 열쇠가 될 것입니다.

한 줄 요약:

"정답지를 주지 않아도, AI 가 **'내가 이걸 확신해!'**라고 말할 때 그 믿음을 점수로 삼아 스스로 더 똑똑하고 논리적으로 변할 수 있다."

이 기술은 AI 가 인간의 감독 없이도 독립적으로 성장할 수 있는 길을 열어주는, 매우 혁신적인 시도입니다.