Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions

이 논문은 강화학습 (RL) 의 한계를 보완하고 새로운 지식 습득을 가능하게 하기 위해 RL 과 온라인 파인튜닝을 교차적으로 수행하는 'ReLIFT'라는 새로운 훈련 방식을 제안하며, 이를 통해 기존 모델의 능력을 넘어선 추론 성능 향상과 데이터 효율성을 입증했습니다.

Lu Ma, Hao Liang, Meiyi Qiang, Lexiang Tang, Xiaochen Ma, Zhen Hao Wong, Junbo Niu, Chengyu Shen, Runming He, Yanhao Li, Bin Cui, Wentao Zhang

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧠 "ReLIFT": AI가 혼자서 못 하는 걸 배우게 하는 새로운 방법

이 논문은 최근 화제가 되고 있는 **거대 언어 모델 (LLM)**이 어떻게 더 똑똑해지고, 특히 수학이나 논리 문제를 잘 풀 수 있게 되는지에 대한 새로운 방법을 제안합니다.

기존의 방식과 이 새로운 방식의 차이를 이해하기 위해, **'수학 공부하는 학생'**과 **'코칭을 받는 학생'**의 비유를 들어 설명해 보겠습니다.


1. 기존 방식의 한계: "혼자서 노력하는 학생 (RL)"

최근 AI 가 똑똑해진 비결은 **강화학습 (RL)**이라는 기술 덕분입니다.

  • 비유: 학생이 문제를 풀고, 정답을 맞히면 "잘했어!"라는 칭찬 (보상) 을 받고, 틀리면 "아쉽네"라는 피드백을 받습니다. 이 과정을 수만 번 반복하며 스스로 학습합니다.
  • 장점: 이미 알고 있는 문제나, 조금만 노력하면 풀 수 있는 문제는 훨씬 더 빠르고 정확하게 풀게 됩니다.
  • 단점: 자신이 처음부터 모르고 있던 개념은 절대 배울 수 없습니다. 마치 "이미 알고 있는 공식을 더 잘 적용하는 법"만 배우지, "새로운 공식을 처음부터 배우는 법"은 익히지 못하는 것과 같습니다. AI 는 기존 지식의 범위 안에서만 최적화될 뿐, 그 범위를 넘어서는 '진짜 새로운 능력'을 얻기 어렵습니다.

2. 기존 방식의 또 다른 한계: "정답지를 외우는 학생 (SFT)"

반대로 **지도학습 (SFT)**이라는 방법도 있습니다.

  • 비유: 선생님이 아주 잘 풀린 '정답지 (해설)'를 보여주고, 학생이 그걸 따라 쓰게 하는 것입니다.
  • 장점: 처음 보는 아주 어려운 문제도, 좋은 해설을 보면 그 방식을 배워 풀 수 있게 됩니다.
  • 단점: 정답지를 너무 많이 외우면, 새로운 유형의 문제가 나오면 당황합니다. 또한, 아주 쉬운 문제도 해설을 따라 쓰느라 불필요하게 길고 복잡한 설명을 늘어놓는 경향이 있습니다.

3. 이 논문이 제안하는 해결책: "ReLIFT" (혼자 노력 + 맞춤형 코칭)

이 논문은 "혼자서 노력하는 것 (RL)"과 "맞춤형 코칭 (SFT)"을 적절히 섞어서, 두 방식의 단점은 없애고 장점만 취하자고 제안합니다. 이를 ReLIFT라고 부릅니다.

🚀 ReLIFT 가 어떻게 작동할까요? (창의적인 비유)

ReLIFT 는 마치 스스로 공부하는 학생에게 '맞춤형 튜터'가 붙는 과정과 같습니다.

  1. 혼자서 도전 (RL 단계): 학생이 먼저 문제를 풀어봅니다. 대부분의 문제는 스스로 해결합니다.
  2. 막히는 곳 발견 (난이도 체크): 그런데 아주 어렵거나, 학생이 전혀 풀 수 없는 문제 (Hardest Questions) 가 나옵니다.
  3. 맞춤형 코칭 (Online Fine-Tuning): 이때, 튜터 (더 똑똑한 AI 나 인간 전문가) 가 그 특정 난이도 높은 문제의 완벽한 해설을 가져옵니다.
  4. 즉시 학습 (Interleaved): 학생은 그 해설을 바로 보고, "아, 이런 식으로 접근하는구나!"라고 배우고 다시 문제를 풉니다.
  5. 반복: 이 과정을 반복하며, 혼자서 해결할 수 있는 문제는 스스로 더 잘 풀게 되고, 혼자서 못 하던 문제는 튜터의 도움을 받아 새로운 능력을 얻게 됩니다.

✨ ReLIFT 의 핵심 장점

  • 효율성: 모든 문제에 해설을 주는 게 아니라, 정말 막히는 문제만 골라서 해설을 줍니다. 그래서 해설 데이터 (정답지) 가 훨씬 적어도 됩니다.
  • 간결함: 단순히 해설을 외우는 게 아니라, 스스로 해결하는 능력을 키우기 때문에 불필요한 긴 설명 없이 핵심만 짚어서 답을 내놓습니다.
  • 진정한 성장: 기존에 없던 새로운 문제 해결 능력을 얻으면서도, 기존에 잘하던 실력은 잃지 않습니다.

4. 실제 결과: "기존 방식들을 압도하다"

이론만 좋은 게 아니라, 실제 실험 결과도 놀라웠습니다.

  • **수학 경시대회 (AIME, MATH 등)**와 **생각이 필요한 다양한 문제 (OOD)**에서 기존에 가장 잘하던 방법들보다 평균 6.7 점 이상 더 높은 점수를 받았습니다.
  • 특히, GPU(컴퓨터) 사용 시간필요한 학습 데이터 양은 기존 방법보다 훨씬 적으면서도 더 좋은 결과를 냈습니다.

📝 한 줄 요약

"AI 가 혼자서 해결할 수 있는 문제는 스스로 더 잘 풀게 하고, 혼자서 해결할 수 없는 아주 어려운 문제는 좋은 해설을 통해 새로운 능력을 배우게 하는, 가장 효율적인 '혼합 학습' 방법 (ReLIFT) 을 제안합니다."

이 방법은 AI 가 단순히 "기억"하거나 "반복"하는 것을 넘어, 진짜로 새로운 지식을 습득하고 더 똑똑해지는 길을 열어줍니다.