On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

Each language version is independently generated for its own context, not a direct translation.

1. 문제: "무조건 따라 하기"의 함정 (기존 SFT 의 한계)

지금까지 AI 를 가르칠 때 가장 많이 쓰인 방법은 **SFT(Supervised Fine-Tuning)**입니다. 이는 마치 유치원 선생님이 아이에게 정답을 보여주고 "이것을 그대로 따라 해라"라고 가르치는 방식입니다.

장점: 배우기 쉽고, 빠르게 전문가처럼 행동할 수 있습니다.
단점: 아이는 정답을 외우기만 할 뿐, 왜 그 답이 맞는지 깊이 이해하지 못합니다. 그래서 시험지가 조금만 바뀌거나 (새로운 문제), 정답을 외운 적이 없는 어려운 문제 (올림피아드 수학 등) 가 나오면 당황해서 엉뚱한 답을 내놓습니다.

논문은 이 현상을 수학적으로 분석했습니다. 그리고 놀라운 사실을 발견했습니다.

"기존 방식은 AI 가 정답을 확신하지 못할 때 (확률이 낮을 때), 오히려 너무 큰 소리로 '틀렸다! 고쳐라!'라고 혼을 내서 학습을 불안정하게 만든다."

이는 마치 학생이 시험을 볼 때, 모르는 문제를 맞출 확률이 1% 라면 선생님이 그 학생을 100 배 더 심하게 혼내서, 학생이 공황 상태에 빠지게 만드는 것과 같습니다. 결과적으로 학생은 더 이상 공부할 의욕을 잃거나, 엉뚱한 곳에 에너지를 쏟게 됩니다.

2. 해결책: "동적 미세조정 (DFT)" - 한 줄의 마법

저자들은 이 문제를 해결하기 위해 **DFT(Dynamic Fine-Tuning)**라는 새로운 방법을 제안했습니다. 핵심 아이디어는 **"AI 가 정답을 확신할 때와 확신하지 못할 때, 혼내는 강도를 똑같이 맞춰라"**는 것입니다.

비유: 기존 방식은 "정답을 잘 맞추면 칭찬, 못 맞추면 100 배 더 혼내기"였다면, DFT 는 **"정답을 맞추는 것 자체에 집중해서, 확신 여부와 상관없이 일관된 강도로 가르치는 것"**입니다.
구현: 이 방법은 기존 코드를 단 한 줄만 수정하면 됩니다. (AI 가 정답을 예측할 확률을 계산해서, 학습 손실 함수에 곱해주는 아주 간단한 작업입니다.)

3. 결과: 왜 이것이 더 좋은가?

이 간단한 수정이 가져온 변화는 놀라웠습니다.

기억이 아닌 이해: AI 는 더 이상 정답을 단순히 외우는 것을 넘어, 논리적으로 추론하는 능력을 키웠습니다.
어려운 문제 공략: 기존 방식 (SFT) 이 실패했던 아주 어려운 수학 문제 (올림피아드, AIME 등) 에서 DFT 는 성능을 크게 향상시켰습니다. 마치 어려운 수학 경시대회에서도 잘 풀어나가는 학생이 된 것입니다.
코드 작성 및 멀티모달: 수학뿐만 아니라 코딩이나 이미지 이해 같은 다른 분야에서도 똑같은 효과를 보였습니다.
강화학습 (RL) 의 대안: 보통 AI 를 더 똑똑하게 만들려면 '강화학습 (RL)'이라는 비싸고 복잡한 방법을 써야 했습니다. 하지만 DFT 는 RL 없이도 RL 과 비슷한, 혹은 그 이상의 성능을 내면서 계산 비용은 훨씬 적게 듭니다.

4. 한 가지 주의할 점 (한계)

이 방법이 만능은 아닙니다.

사실 정보 학습에는 SFT 가 더 낫습니다: 만약 AI 에게 "파리는 프랑스의 수도다" 같은 단순한 사실 정보를 주입해야 한다면, 기존 방식 (SFT) 이 더 안정적입니다. DFT 는 AI 가 이미 알고 있는 것을 더 잘 활용하도록 도와주지만, 완전히 새로운 사실을 처음부터 가르칠 때는 오히려 방해가 될 수 있습니다.
비유: DFT 는 수학 경시대회 준비에는 최고의 코치지만, 사전을 외우는 암기 시험에는 기존 방식이 더 나을 수 있습니다.

5. 요약: 이 논문이 주는 메시지

이 논문은 **"AI 학습의 핵심은 '무조건 따라 하게 하는 것'이 아니라, '학습 과정에서의 불균형을 바로잡는 것'"**임을 증명했습니다.

기존의 복잡한 강화학습 (RL) 을 도입하지 않고도, 학습 알고리즘의 미세한 균형을 맞춰주는 것만으로도 AI 는 훨씬 더 똑똑하고 유연해질 수 있다는 것을 보여준 것입니다. 마치 비행기 엔진을 교체하지 않고, 연료 분사량을 미세하게 조절하여 속도와 연비를 동시에 개선한 것과 같습니다.

결론: "단 한 줄의 코드 수정으로, AI 가 더 이상 '외우는 로봇'이 아니라 '생각하는 친구'로 변할 수 있다."는 것이 이 논문의 핵심 메시지입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

SFT 의 일반화 한계: 대규모 언어 모델 (LLM) 의 표준적인 후속 학습 (Post-training) 방식인 지도 미세 조정 (Supervised Fine-Tuning, SFT) 은 전문가 데이터 (Expert Demonstrations) 를 모방하는 데 효율적이지만, 강화 학습 (Reinforcement Learning, RL) 에 비해 일반화 (Generalization) 능력이 현저히 낮음이 관찰됨.
기존 접근법의 한계:
- RL 은 명시적인 보상 신호를 통해 다양한 전략을 탐색하고 더 강력한 일반화를 달성하지만, 계산 비용이 크고 보상 모델 설계가 필요하며 실제 환경 적용이 어려움.
- 기존 하이브리드 방법 (SFT + RL) 은 두 접근법의 장점을 결합하려 하지만, 데이터에 부정적 샘플이나 보상 모델이 없는 경우 (순수 긍정적 시연 데이터만 존재) SFT 자체를 근본적으로 개선할 수 있는 방법은 부족함.
핵심 질문: "RL 없이 SFT 자체를 어떻게 근본적으로 개선하여 일반화 능력을 RL 수준으로 높일 수 있는가?"

2. 방법론 (Methodology)

저자들은 SFT 와 RL 의 수학적 연결 고리를 분석하여 새로운 방법론인 **동적 미세 조정 (Dynamic Fine-Tuning, DFT)**을 제안합니다.

2.1 이론적 분석: SFT 와 RL 의 연결

SFT 를 RL 관점에서 해석: SFT 의 그래디언트 업데이트를 중요도 샘플링 (Importance Sampling) 을 통해 온-폴리시 (On-policy) RL 의 정책 그래디언트 (Policy Gradient) 형태로 재해석함.
문제점 규명: 이 해석에 따르면, 표준 SFT 는 암묵적으로 다음과 같은 보상 구조를 가짐:
- 희소 보상 (Sparse Reward): 전문가의 정답과 정확히 일치할 때만 보상이 1 이고, 그 외에는 0.
- 역확률 가중치 (Inverse Probability Weighting): 보상이 모델이 해당 토큰을 예측할 확률 ( $\pi_\theta$ ) 에 반비례하여 가중치 ( $1/\pi_\theta$ ) 가 부여됨.
부정적 영향: 모델이 전문가의 정답 토큰을 예측할 확률이 낮을 때, 가중치가 과도하게 커져 불안정한 그래디언트와 **잘못된 보상 지형 (Ill-posed Reward Landscape)**을 생성함. 이는 모델이 희귀한 정답 토큰에 과도하게 적합 (Overfitting) 되어 일반화 능력을 저해하는 주원인임.

2.2 제안 방법: DFT (Dynamic Fine-Tuning)

핵심 아이디어: SFT 목적 함수를 동적으로 재조정하여 역확률 가중치로 인한 왜곡을 제거함.
구현 방식:
- 각 토큰에 대해 모델의 예측 확률 ( $\pi_\theta$ ) 을 목적 함수에 곱하여 보상을 보정함.
- 수식: 기존 교차 엔트로피 손실 $-\log \pi_\theta(y^*|x)$ $- lo g π_{θ} (y^{*} ∣ x)$ 대신, $-\text{sg}(\pi_\theta(y^*|x)) \cdot \log \pi_\theta(y^*|x)$ 를 사용함.
  - 여기서 $\text{sg}(\cdot)$ 는 그래디언트 흐름을 차단 (Stop-gradient) 하는 연산자임.
- 이를 통해 실제 그래디언트 업데이트는 $-\nabla_\theta \pi_\theta(y^*|x)$ 형태가 되어, **모든 전문가 시나리오에 대해 균일한 보상 (Reward = 1)**을 갖는 RL 과 유사한 동작을 하게 됨.
효과:
- 낮은 확률 토큰에 대한 과도한 그래디언트 폭주를 방지하여 학습 안정성을 확보.
- 단순한 한 줄의 코드 변경으로 구현 가능.
- 추가적인 샘플링, 보상 모델, 참조 모델 (Reference Model) 이 불필요함.

3. 주요 기여 (Key Contributions)

이론적 통찰: SFT 를 정책 그래디언트 공간에서의 특수한 RL 로 수학적으로 정립하고, SFT 의 일반화 실패 원인이 '역확률 가중치'에 의한 보상 왜곡임을 증명함.
간결한 해결책 (DFT): 복잡한 RL 파이프라인 없이, SFT 손실 함수에 토큰 확률을 곱하는 단순한 수정으로 일반화 능력을 획기적으로 개선하는 방법 제시.
광범위한 실험 검증: 수학 추론, 코드 생성, 멀티모달 추론 등 다양한 작업과 모델 (Qwen, LLaMA, DeepSeek 등) 에서 SFT 를 압도하는 성능 입증.
오프라인 RL 환경에서의 우수성: DFT 가 기존 오프라인 RL 방법 (DPO, RFT) 및 온라인 RL 방법 (PPO, GRPO) 보다도 우수한 성능을 보임.

4. 실험 결과 (Results)

수학 추론 (Math Reasoning):
- NuminaMath-CoT 데이터셋으로 Qwen2.5-Math, LLaMA, DeepSeekMath 등 다양한 모델을 학습시켰을 때, DFT 는 표준 SFT 대비 평균 1.5 배~5.9 배 더 큰 성능 향상을 보임.
- 특히 Olympiad Bench, AIME 2024, AMC 2023과 같은 난이도 높은 벤치마크에서 표준 SFT 는 성능이 저하되거나 미미한 개선만 보인 반면, DFT 는 일관된 성능 향상을 기록함 (예: Qwen2.5-Math-1.5B 의 Olympiad Bench 점수는 SFT 대비 12.63 → 27.08 로 대폭 상승).
- 학습 효율성: DFT 는 SFT 보다 훨씬 빠른 수렴 속도를 보이며, 초기 학습 단계 (10~20 스텝) 에서도 SFT 의 최종 성능을 능가함.
오프라인 RL 설정 (Offline RL):
- 거부 샘플링 (Rejection Sampling) 을 통해 생성된 데이터로 실험한 결과, DFT 는 오프라인 방법 (DPO, RFT) 은 물론, 온라인 RL 방법 (PPO, GRPO) 보다도 더 높은 평균 점수를 기록함.
- 예: Qwen2.5-Math-1.5B 기준, DFT 는 평균 35.43 점으로 GRPO(32.00) 보다 우세함.
코드 생성 및 멀티모달:
- 코드 생성 (HumanEval, MultiPL-E): Qwen2.5-Coder 모델에서 DFT 가 SFT 대비 HumanEval 점수를 12.8 포인트 이상 향상시킴.
- 멀티모달 추론 (MathVerse, MathVision): 텍스트 기반 추론뿐만 아니라 시각적 추론 영역에서도 SFT 대비 일관된 개선 효과 확인.
한계점 분석:
- 사실적 지식 (Factual Knowledge): Natural Questions 데이터셋 실험 결과, DFT 는 모델의 기존 신념을 강화하는 경향이 있어, 모델이 지식을 전혀 모르는 새로운 사실적 정보를 학습해야 하는 경우에는 오히려 SFT 보다 성능이 떨어질 수 있음. 이는 DFT 가 모델의 기존 역량과 잘 맞는 추론 작업에 더 적합함을 시사함.

5. 의의 및 결론 (Significance)

SFT 의 재정의: 이 연구는 SFT 가 단순히 '모방 학습'이 아니라, 특정 보상 구조를 가진 RL 의 일종으로 볼 수 있음을 보여주며, 이를 통해 SFT 의 불안정성과 일반화 한계를 설명함.
실용적 가치: 복잡한 RL 파이프라인 (보상 모델 학습, 온라인 샘플링 등) 없이도 단순한 코드 수정 한 줄로 LLM 의 일반화 능력을 획기적으로 높일 수 있음을 입증함. 이는 리소스가 제한된 환경이나 대규모 모델 학습에 매우 효율적인 대안이 됨.
미래 방향: DFT 는 추론 (Reasoning) 과 구조화된 예측 작업에 특히 강력하며, 사실적 지식 학습에는 SFT 가 여전히 유효함을 보여줌. 향후 데이터의 품질을 고려한 가중치 조정이나 비균일 보상 할당 등으로 확장 가능성이 있음.

요약하자면, 이 논문은 SFT 의 수학적 결함을 RL 관점에서 규명하고, 이를 해결하는 단순하지만 강력한 방법론 (DFT) 을 제안하여, 복잡한 RL 없이도 LLM 의 일반화 능력을 극대화할 수 있음을 증명했습니다.

On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

1. 문제: "무조건 따라 하기"의 함정 (기존 SFT 의 한계)

2. 해결책: "동적 미세조정 (DFT)" - 한 줄의 마법

3. 결과: 왜 이것이 더 좋은가?

4. 한 가지 주의할 점 (한계)

5. 요약: 이 논문이 주는 메시지

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

2.1 이론적 분석: SFT 와 RL 의 연결

2.2 제안 방법: DFT (Dynamic Fine-Tuning)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank