Learn Hard Problems During RL with Reference Guided Fine-tuning

이 논문은 강화학습 (RL) 중 발생하는 보상 희소성 문제를 해결하기 위해 인간이 작성한 참조 해답을 모델의 추론 공간에 맞게 부분적으로 활용하여 긍정적 학습 경로를 생성하는 '참조 유도 미세 조정 (ReGFT)' 방법을 제안하고, 이를 통해 수학 추론 성능과 RL 학습 효율성을 동시에 향상시킨다는 것을 보여줍니다.

Yangzhen Wu, Shanda Li, Zixin Wen, Xin Zhou, Ameet Talwalkar, Yiming Yang, Wenhao Huang, Tianle Cai

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"어려운 수학 문제를 풀 때, AI 가 스스로 답을 찾지 못하면 어떻게 해야 할까?"**라는 질문에 대한 해법을 제시합니다.

핵심 아이디어는 **"참고서를 보되, 직접 생각해서 풀게 하는 것"**입니다. 이를 **ReGFT(참고서 유도 미세 조정)**라고 부릅니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제 상황: "아무도 답을 모르는 시험"

상상해 보세요. AI(학생) 가 아주 어려운 수학 시험을 치고 있습니다.

  • 기존 방식 (RL): AI 는 답을 맞출 때까지 무작위로 문제를 푼다고 가정해 봅시다. 하지만 문제가 너무 어려워서 AI 가 단 한 번도 정답을 맞춘 적이 없습니다.
  • 결과: AI 는 "내가 틀렸구나"라는 신호는 받지만, "내가 맞췄구나"라는 **기쁨의 신호 (보상)**를 전혀 받지 못합니다.
  • 비유: 마치 어둠 속에서 미로를 헤매는데, 출구를 찾은 적이 한 번도 없어서 "여기가 출구야!"라고 알려주는 사람이 없는 상황입니다. AI 는 어디로 가야 할지 몰라 방황만 합니다.

2. 기존 실패한 방법: "참고서 그대로 외우기"

그런데 문제지 옆에 **정답이 적힌 참고서 (Human Reference)**가 있습니다.

  • 시도: AI 에게 이 참고서를 보여주고 "이걸 그대로 따라 해봐"라고 시켰습니다.
  • 실패: AI 는 참고서의 논리를 이해하지 못합니다. 마치 초등학생에게 대학 수준의 미적분 해설서를 보여주고 "이걸 외워서 써봐"라고 하는 것과 같습니다. AI 는 그 논리를 자신의 머릿속에 맞게 소화하지 못해, 나중에 비슷한 문제가 나오면 또 틀립니다.

3. 이 논문의 해결책: ReGFT (참고서 유도 미세 조정)

저자들은 **"참고서를 보여주되, AI 가 직접 생각하게 하라"**는 새로운 방법을 고안했습니다.

🍳 요리 비유로 설명하면?

  • 상황: AI 는 요리를 못 하는 초보 셰프입니다.
  • 참고서: 유명한 셰프의 레시피 (정답) 가 있습니다.
  • 기존 실패 (SFT): 레시피를 그대로 복사해서 요리를 시킵니다. → AI 는 레시피를 외웠지만, 재료가 조금만 달라도 실패합니다.
  • 이 논문의 방법 (ReGFT):
    1. 레시피의 **처음 80% (재료 준비와 기본 조리법)**만 보여줍니다.
    2. **"이제 너가 나머지 20% (마무리와 맛내기) 를 네 생각대로 해봐"**라고 말합니다.
    3. AI 는 레시피의 흐름을 따라가면서, 자신의 방식으로 나머지 부분을 채웁니다.

이렇게 하면 AI 는 참고서의 정답을 얻으면서도, 자신의 두뇌 (논리) 를 직접 사용하게 됩니다.

4. 왜 이것이 효과적인가?

이 과정을 거친 AI 는 다음과 같은 변화를 겪습니다.

  1. 정답을 더 많이 찾음: 원래는 풀 수 없던 어려운 문제도, 참고서의 힌트를 받으면 정답을 맞출 확률이 높아집니다.
  2. 보상 신호가 생김: AI 가 정답을 맞추니, "잘했어!"라는 보상 신호를 받기 시작합니다.
  3. RL(강화 학습) 이 꽃을 피움: 이제 AI 는 "어떻게 하면 더 잘할까?"라고 스스로 학습할 수 있는 **데이터 (보상)**가 생깁니다.

5. 결론: "스스로 생각한 정답이 진짜 실력이다"

이 논문의 핵심 메시지는 다음과 같습니다.

"AI 가 어려운 문제를 풀 수 있게 하려면, 정답을 그냥 주면 안 됩니다. 정답의 '방향'을 알려주고, AI 가 그 방향으로 스스로 길을 찾아오게 해야 합니다. 그래야 AI 는 그 길을 기억하고, 나중에 혼자서도 그 길을 갈 수 있게 됩니다."

한 줄 요약:

ReGFT 는 AI 에게 "정답을 직접 찾아보라"고 강요하거나 "정답을 그대로 베끼라"고 하지 않고, "정답의 힌트를 보고 네 생각으로 풀어봐"라고 가르쳐서, AI 가 어려운 문제도 스스로 해결할 수 있는 능력을 키워주는 방법입니다.

이 방법을 쓰니, AI 는 수학 경시대회 (AIME 등) 에서 훨씬 더 높은 점수를 받았고, 더 복잡한 문제도 해결할 수 있게 되었다고 합니다.