Learn Hard Problems During RL with Reference Guided Fine-tuning

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"어려운 수학 문제를 풀 때, AI 가 스스로 답을 찾지 못하면 어떻게 해야 할까?"**라는 질문에 대한 해법을 제시합니다.

핵심 아이디어는 **"참고서를 보되, 직접 생각해서 풀게 하는 것"**입니다. 이를 **ReGFT(참고서 유도 미세 조정)**라고 부릅니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 문제 상황: "아무도 답을 모르는 시험"

상상해 보세요. AI(학생) 가 아주 어려운 수학 시험을 치고 있습니다.

기존 방식 (RL): AI 는 답을 맞출 때까지 무작위로 문제를 푼다고 가정해 봅시다. 하지만 문제가 너무 어려워서 AI 가 단 한 번도 정답을 맞춘 적이 없습니다.
결과: AI 는 "내가 틀렸구나"라는 신호는 받지만, "내가 맞췄구나"라는 **기쁨의 신호 (보상)**를 전혀 받지 못합니다.
비유: 마치 어둠 속에서 미로를 헤매는데, 출구를 찾은 적이 한 번도 없어서 "여기가 출구야!"라고 알려주는 사람이 없는 상황입니다. AI 는 어디로 가야 할지 몰라 방황만 합니다.

2. 기존 실패한 방법: "참고서 그대로 외우기"

그런데 문제지 옆에 **정답이 적힌 참고서 (Human Reference)**가 있습니다.

시도: AI 에게 이 참고서를 보여주고 "이걸 그대로 따라 해봐"라고 시켰습니다.
실패: AI 는 참고서의 논리를 이해하지 못합니다. 마치 초등학생에게 대학 수준의 미적분 해설서를 보여주고 "이걸 외워서 써봐"라고 하는 것과 같습니다. AI 는 그 논리를 자신의 머릿속에 맞게 소화하지 못해, 나중에 비슷한 문제가 나오면 또 틀립니다.

3. 이 논문의 해결책: ReGFT (참고서 유도 미세 조정)

저자들은 **"참고서를 보여주되, AI 가 직접 생각하게 하라"**는 새로운 방법을 고안했습니다.

🍳 요리 비유로 설명하면?

상황: AI 는 요리를 못 하는 초보 셰프입니다.
참고서: 유명한 셰프의 레시피 (정답) 가 있습니다.
기존 실패 (SFT): 레시피를 그대로 복사해서 요리를 시킵니다. → AI 는 레시피를 외웠지만, 재료가 조금만 달라도 실패합니다.
이 논문의 방법 (ReGFT):
1. 레시피의 **처음 80% (재료 준비와 기본 조리법)**만 보여줍니다.
2. **"이제 너가 나머지 20% (마무리와 맛내기) 를 네 생각대로 해봐"**라고 말합니다.
3. AI 는 레시피의 흐름을 따라가면서, 자신의 방식으로 나머지 부분을 채웁니다.

이렇게 하면 AI 는 참고서의 정답을 얻으면서도, 자신의 두뇌 (논리) 를 직접 사용하게 됩니다.

4. 왜 이것이 효과적인가?

이 과정을 거친 AI 는 다음과 같은 변화를 겪습니다.

정답을 더 많이 찾음: 원래는 풀 수 없던 어려운 문제도, 참고서의 힌트를 받으면 정답을 맞출 확률이 높아집니다.
보상 신호가 생김: AI 가 정답을 맞추니, "잘했어!"라는 보상 신호를 받기 시작합니다.
RL(강화 학습) 이 꽃을 피움: 이제 AI 는 "어떻게 하면 더 잘할까?"라고 스스로 학습할 수 있는 **데이터 (보상)**가 생깁니다.

5. 결론: "스스로 생각한 정답이 진짜 실력이다"

이 논문의 핵심 메시지는 다음과 같습니다.

"AI 가 어려운 문제를 풀 수 있게 하려면, 정답을 그냥 주면 안 됩니다. 정답의 '방향'을 알려주고, AI 가 그 방향으로 스스로 길을 찾아오게 해야 합니다. 그래야 AI 는 그 길을 기억하고, 나중에 혼자서도 그 길을 갈 수 있게 됩니다."

한 줄 요약:

ReGFT 는 AI 에게 "정답을 직접 찾아보라"고 강요하거나 "정답을 그대로 베끼라"고 하지 않고, "정답의 힌트를 보고 네 생각으로 풀어봐"라고 가르쳐서, AI 가 어려운 문제도 스스로 해결할 수 있는 능력을 키워주는 방법입니다.

이 방법을 쓰니, AI 는 수학 경시대회 (AIME 등) 에서 훨씬 더 높은 점수를 받았고, 더 복잡한 문제도 해결할 수 있게 되었다고 합니다.

Each language version is independently generated for its own context, not a direct translation.

논문 개요

이 논문은 수학적 추론을 위한 강화 학습 (RL) 에서 발생하는 보상 희소성 (Reward Sparsity) 문제를 해결하기 위해 제안된 새로운 방법론인 **참조 가이드 미세 조정 (Reference-Guided Fine-tuning, ReGFT)**을 소개합니다. 기존 RL 은 모델이 스스로 정답을 도출하지 못하는 난이도 높은 문제에서는 학습 신호 (긍정적 보상) 를 얻지 못해 학습이 멈추는 한계가 있었습니다. ReGFT 는 인간이 작성한 참조 솔루션 (Reference Solutions) 을 활용하되, 이를 단순히 모방하는 것이 아니라 모델의 추론 공간 내에서 모델이 스스로 추론을 생성하도록 유도하여 RL 의 초기화를 강화합니다.

1. 문제 정의 (Problem)

보상 희소성 (Reward Sparsity): RL 기반 수학적 추론 (RLVR) 에서 모델이 난이도 높은 문제 (예: 올림피아드 수학 문제) 를 풀지 못해 정답을 생성하지 못하면, 검증기 (Verifier) 로부터 긍정적인 보상을 받지 못합니다. 이 경우 기울기 신호가 소실되어 RL 학습이 비효율적이거나 중단됩니다.
기존 방법의 한계:
- 직접 미세 조정 (Direct SFT): 인간이 작성한 정답 (Reference CoT) 을 그대로 학습시키는 것은 모델의 내재된 추론 패턴과 불일치하여 일반화 성능이 떨어집니다.
- ReFT (Reinforced Fine-Tuning): 모델이 스스로 생성한 정답만 학습하는 방식은 모델이 이미 풀 수 있는 문제에는 효과적이지만, 모델의 초기 능력 범위를 벗어난 '풀 수 없는 문제'에 대해서는 학습 신호를 생성하지 못해 무용지물입니다.

2. 제안 방법론: ReGFT (Methodology)

ReGFT 는 RL 학습 전에 수행되는 지도 미세 조정 (SFT) 단계로, 모델이 스스로 풀지 못하는 난이도 높은 문제를 해결할 수 있도록 초기 역량을 강화합니다.

핵심 아이디어: 인간이 작성한 참조 솔루션을 단순히 복사하는 것이 아니라, '힌트'로 활용합니다.
구체적 프로세스:
1. 부분 참조 제공: 문제와 함께 인간이 작성한 정답의 일부 (예: 전체의 80%) 를 모델에게 힌트로 제공합니다.
2. 모델 생성 유도: 모델은 이 힌트를 바탕으로 스스로 추론 경로를 완성하도록 요청받습니다. (단순히 나머지 20% 를 채우는 것이 아니라, 전체적인 논리 흐름을 모델이 재구성하도록 유도).
3. 학습 데이터 구성: 이렇게 생성된 '참조 가이드 추론 경로 (Reference-Guided Trajectories)'와 모델이 스스로 성공적으로 풀 수 있는 '자체 생성 경로 (Self-Generated Trajectories)'를 혼합하여 모델을 미세 조정합니다.
목적: 모델이 난이도 높은 문제에서도 정답을 생성할 확률 (Pass Rate) 을 높여, 이후 RL 학습 시 더 밀도 높고 의미 있는 보상 신호를 받을 수 있게 합니다.

3. 주요 기여 (Key Contributions)

보상 희소성 극복: 모델이 스스로 풀지 못하는 문제에서도 참조 솔루션을 힌트로 활용하여 정답 생성 확률을 높임으로써, RL 학습 시작 전부터 학습 가능한 문제의 범위를 확장했습니다.
모델-정렬된 추론 (Model-Aligned Reasoning): 인간 솔루션을 직접 학습하는 것이 아니라, 모델의 추론 공간 (Reasoning Space) 내에서 인간 솔루션을 가이드로 사용하여 모델 고유의 추론 스타일을 유지하면서도 정답을 얻는 방법을 제시했습니다. 이는 일반화 성능을 보장합니다.
RL 초기화 강화: ReGFT 로 초기화된 모델은 RL 학습 시 더 빠른 수렴 속도와 더 높은 최종 성능을 달성함을 실험적으로 증명했습니다.

4. 실험 결과 (Results)

실험은 OmniMath (학습 데이터), AIME'24, AIME'25, Beyond-AIME (평가 벤치마크) 에서 수행되었으며, RL 알고리즘으로 DAPO를 사용했습니다.

RL 성능 향상 (Fig 2, 3):
- ReGFT 로 초기화된 모델은 Raw(원본) 모델 및 ReFT 모델보다 모든 벤치마크에서 더 높은 정확도를 보였습니다.
- 학습 초기 단계에서 더 빠른 성능 향상을 보이며, 최종 성능의 상한선 (Plateau) 이 높았습니다.
추론 시간 확장 (Inference-Time Scaling, Fig 5):
- pass@k 평가에서 ReGFT + DAPO 는 $k$ 가 커질수록 성능이 지속적으로 향상되었습니다.
- 반면, ReFT 는 초기 $k$ 에서는 개선되지만 $k$ 가 커지면 성능 향상이 정체되는 경향을 보였습니다. 이는 ReGFT 가 모델의 근본적인 문제 해결 능력을 확장했음을 시사합니다.
비교 분석 (Fig 4):
- 인간 솔루션을 그대로 학습한 모델 (Direct SFT) 은 RL 학습 후에도 경쟁력 있는 성능을 내지 못했습니다. 이는 모델이 스스로 추론 과정을 생성하는 과정이 필수적임을 보여줍니다.
샘플링 규모 효과 (Table 2):
- 문제당 샘플링 수 (16 vs 64) 를 늘리는 것만으로는 부족하며, ReGFT 로 초기화된 모델이 더 큰 샘플링 규모와 결합되었을 때 가장 강력한 성능을 발휘했습니다.

5. 의의 및 결론 (Significance)

RL 의 전제 조건 강화: 이 연구는 RL 알고리즘 자체를 개선하는 것뿐만 아니라, RL 학습 전 모델의 초기 역량 (Competence) 을 높이는 것이 보상 희소성 문제를 해결하는 핵심임을 증명했습니다.
효율적인 학습 파이프라인: ReGFT 는 RL 학습에 필요한 계산 자원을 낭비하지 않고, 학습 가능한 데이터의 양을 늘려 RL 의 효율성을 극대화합니다.
일반적인 적용 가능성: 이 방법은 수학뿐만 아니라 복잡한 추론이 필요한 다른 도메인에서도, 인간 전문가의 지식을 모델의 학습 공간에 효과적으로 주입하는 새로운 패러다임을 제시합니다.

요약하자면, ReGFT 는 "모델이 스스로 풀 수 없는 문제를 인간 솔루션의 힌트를 통해 스스로 풀 수 있게 만든 후, 이를 바탕으로 강화 학습을 수행함"으로써, 기존 RL 의 한계를 극복하고 더 강력하고 안정적인 수학적 추론 능력을 갖춘 모델을 만드는 데 성공한 방법론입니다.

Learn Hard Problems During RL with Reference Guided Fine-tuning

1. 문제 상황: "아무도 답을 모르는 시험"

2. 기존 실패한 방법: "참고서 그대로 외우기"

3. 이 논문의 해결책: ReGFT (참고서 유도 미세 조정)

🍳 요리 비유로 설명하면?

4. 왜 이것이 효과적인가?

5. 결론: "스스로 생각한 정답이 진짜 실력이다"

논문 개요

1. 문제 정의 (Problem)

2. 제안 방법론: ReGFT (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers