Each language version is independently generated for its own context, not a direct translation.
이 논문은 **"어려운 수학 문제를 풀 때, AI 가 스스로 답을 찾지 못하면 어떻게 해야 할까?"**라는 질문에 대한 해법을 제시합니다.
핵심 아이디어는 **"참고서를 보되, 직접 생각해서 풀게 하는 것"**입니다. 이를 **ReGFT(참고서 유도 미세 조정)**라고 부릅니다.
이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.
1. 문제 상황: "아무도 답을 모르는 시험"
상상해 보세요. AI(학생) 가 아주 어려운 수학 시험을 치고 있습니다.
- 기존 방식 (RL): AI 는 답을 맞출 때까지 무작위로 문제를 푼다고 가정해 봅시다. 하지만 문제가 너무 어려워서 AI 가 단 한 번도 정답을 맞춘 적이 없습니다.
- 결과: AI 는 "내가 틀렸구나"라는 신호는 받지만, "내가 맞췄구나"라는 **기쁨의 신호 (보상)**를 전혀 받지 못합니다.
- 비유: 마치 어둠 속에서 미로를 헤매는데, 출구를 찾은 적이 한 번도 없어서 "여기가 출구야!"라고 알려주는 사람이 없는 상황입니다. AI 는 어디로 가야 할지 몰라 방황만 합니다.
2. 기존 실패한 방법: "참고서 그대로 외우기"
그런데 문제지 옆에 **정답이 적힌 참고서 (Human Reference)**가 있습니다.
- 시도: AI 에게 이 참고서를 보여주고 "이걸 그대로 따라 해봐"라고 시켰습니다.
- 실패: AI 는 참고서의 논리를 이해하지 못합니다. 마치 초등학생에게 대학 수준의 미적분 해설서를 보여주고 "이걸 외워서 써봐"라고 하는 것과 같습니다. AI 는 그 논리를 자신의 머릿속에 맞게 소화하지 못해, 나중에 비슷한 문제가 나오면 또 틀립니다.
3. 이 논문의 해결책: ReGFT (참고서 유도 미세 조정)
저자들은 **"참고서를 보여주되, AI 가 직접 생각하게 하라"**는 새로운 방법을 고안했습니다.
🍳 요리 비유로 설명하면?
- 상황: AI 는 요리를 못 하는 초보 셰프입니다.
- 참고서: 유명한 셰프의 레시피 (정답) 가 있습니다.
- 기존 실패 (SFT): 레시피를 그대로 복사해서 요리를 시킵니다. → AI 는 레시피를 외웠지만, 재료가 조금만 달라도 실패합니다.
- 이 논문의 방법 (ReGFT):
- 레시피의 **처음 80% (재료 준비와 기본 조리법)**만 보여줍니다.
- **"이제 너가 나머지 20% (마무리와 맛내기) 를 네 생각대로 해봐"**라고 말합니다.
- AI 는 레시피의 흐름을 따라가면서, 자신의 방식으로 나머지 부분을 채웁니다.
이렇게 하면 AI 는 참고서의 정답을 얻으면서도, 자신의 두뇌 (논리) 를 직접 사용하게 됩니다.
4. 왜 이것이 효과적인가?
이 과정을 거친 AI 는 다음과 같은 변화를 겪습니다.
- 정답을 더 많이 찾음: 원래는 풀 수 없던 어려운 문제도, 참고서의 힌트를 받으면 정답을 맞출 확률이 높아집니다.
- 보상 신호가 생김: AI 가 정답을 맞추니, "잘했어!"라는 보상 신호를 받기 시작합니다.
- RL(강화 학습) 이 꽃을 피움: 이제 AI 는 "어떻게 하면 더 잘할까?"라고 스스로 학습할 수 있는 **데이터 (보상)**가 생깁니다.
5. 결론: "스스로 생각한 정답이 진짜 실력이다"
이 논문의 핵심 메시지는 다음과 같습니다.
"AI 가 어려운 문제를 풀 수 있게 하려면, 정답을 그냥 주면 안 됩니다. 정답의 '방향'을 알려주고, AI 가 그 방향으로 스스로 길을 찾아오게 해야 합니다. 그래야 AI 는 그 길을 기억하고, 나중에 혼자서도 그 길을 갈 수 있게 됩니다."
한 줄 요약:
ReGFT 는 AI 에게 "정답을 직접 찾아보라"고 강요하거나 "정답을 그대로 베끼라"고 하지 않고, "정답의 힌트를 보고 네 생각으로 풀어봐"라고 가르쳐서, AI 가 어려운 문제도 스스로 해결할 수 있는 능력을 키워주는 방법입니다.
이 방법을 쓰니, AI 는 수학 경시대회 (AIME 등) 에서 훨씬 더 높은 점수를 받았고, 더 복잡한 문제도 해결할 수 있게 되었다고 합니다.