NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

Each language version is independently generated for its own context, not a direct translation.

🎓 핵심 비유: "틀린 문제를 버리지 않는 학생"

과거의 인공지능 (LLM) 학습 방식은 다음과 같았습니다.

기존 방식 (RL - 강화학습):
- 학생이 문제를 풀고 정답을 맞히면 "잘했다!" (보상), 틀리면 "아이고, 다시 해봐" (재시도) 라고 합니다.
- 문제점: 틀린 답안지는 그냥 쓰레기통에 버립니다. 학생은 "내가 왜 틀렸는지"를 깊이 생각할 기회를 못 얻고, 단순히 정답만 외우거나 운 좋게 맞히는 법만 배웁니다.
- 이 방식은 **강화학습 (RL)**이라고 부르며, 최근 수학 문제 해결 능력 향상에 큰 역할을 했지만, 계산 비용이 매우 비싸고 복잡합니다.
기존의 다른 방식 (SL - 지도학습, RFT):
- 학생이 푼 문제 중 정답만 모아두고, 그 정답만 다시 보고 공부합니다.
- 문제점: 틀린 답안지는 아예 무시합니다. "내가 왜 틀렸는지"를 분석하지 못하므로, 실수를 반복할 수 있습니다.

🚀 이 논문의 혁신: "NFT(부정적 인식 미세 조정)"

이 논문은 **"틀린 답안지도 버리지 말고, 왜 틀렸는지 분석해서 공부하자!"**라고 제안합니다.

아이디어: 학생이 틀린 답을 낼 때, 단순히 "틀렸다"고만 하지 않고, **"이 답이 왜 틀린지, 그리고 정답은 왜 맞는지"**를 동시에 학습합니다.
비유:
- 기존 방식: 정답지 (A) 만 보고 외운다.
- NFT 방식: 정답지 (A) 를 보고 외우면서도, **내가 쓴 오답지 (B)**를 꺼내서 "아, 내가 여기서 실수했구나. 다음엔 이렇게 해야겠다"라고 스스로 반성합니다.
- 핵심: 이 반성 과정은 별도의 '외부 선생님 (강화학습의 보상 모델)'이 필요 없이, 학생 스스로가 자신의 실수를 분석하며 학습합니다.

🔍 왜 이것이 중요한가요? (세 가지 포인트)

1. "틀린 것"에서 배우는 힘 (Negative Feedback)

기존에는 틀린 답을 버리는 것이 당연했습니다. 하지만 이 논문은 **틀린 답 (Negative Data)**을 학습에 활용하면, 학생이 실수를 더 잘 인지하고 고칠 수 있다고 말합니다.

비유: 축구 선수가 실수한 장면을 다시 보며 "왜 골이 안 들어갔지?"라고 분석하면, 다음 경기에서 실수를 줄일 수 있는 것과 같습니다.

2. "복잡한 선생님" 없이도 가능 (Supervised Learning)

기존의 강화학습 (RL) 은 정답을 알려주는 '외부 선생님'이 필요하고 계산이 매우 복잡했습니다. 하지만 NFT 는 **지도학습 (SL)**이라는 더 간단하고 저렴한 방법으로, 스스로 반성하는 능력을 길러줍니다.

결과: 복잡한 RL 방법 (GRPO, DAPO 등) 과 맞먹거나 더 좋은 성능을 내면서도, 학습 비용은 훨씬 적게 듭니다.

3. 이론적으로도 "동일한" 방법 (Theoretical Equivalence)

논문의 가장 놀라운 발견은, **NFT(지도학습)**와 **GRPO(강화학습)**라는 완전히 다른 이론을 가진 두 방법이, 실제로는 동일한 원리로 작동한다는 것을 수학적으로 증명했다는 점입니다.

비유: "동쪽에서 간 사람"과 "서쪽에서 간 사람"이 결국 같은 목적지에 도착했다는 것을 증명해낸 것과 같습니다. 이는 인공지능 학습의 두 큰 흐름 (지도학습 vs 강화학습) 을 하나로 연결해 줍니다.

📊 실제 성과

이 방법을 70 억 (7B) 과 320 억 (32B) 개의 파라미터를 가진 최신 수학 모델에 적용했습니다.

결과: 기존에 정답만 보고 학습한 방법 (RFT) 보다 훨씬 성능이 좋아졌고, 복잡한 강화학습 (RL) 방법들보다도 더 빠르고 정확하게 수학 문제를 풀 수 있게 되었습니다.

💡 한 줄 요약

"정답만 외우는 게 아니라, '내가 왜 틀렸는지'를 스스로 분석하며 배우는 새로운 학습법 (NFT) 을 개발했고, 이 방법이 기존에 비싸고 복잡한 강화학습보다 더 효율적이고 강력하다는 것을 증명했습니다."

이제 인공지능은 단순히 정답을 외우는 '암기왕'이 아니라, 실수를 통해 스스로 성장하는 '반성하는 학생'이 될 수 있게 되었습니다.

Each language version is independently generated for its own context, not a direct translation.

논문 개요: NFT (Negative-aware Fine-Tuning)

이 논문은 수학 추론 (Math Reasoning) 분야에서 최근 대두된 '검증 기반 학습 (Verification-driven training)'의 패러다임에 대해 기존 Reinforcement Learning (RL) 만이 유일한 해법이라는 통념을 깨고, Supervised Learning (SL) 의 관점에서 새로운 접근법을 제안합니다. 저자들은 **NFT (Negative-aware Fine-Tuning)**라는 새로운 알고리즘을 통해 LLM 이 스스로의 실패 (Negative answers) 에서 학습하고 반성할 수 있도록 하여, 외부 교사 없이도 자율적으로 성능을 향상시킬 수 있음을 증명했습니다.

1. 문제 정의 (Problem)

배경: 최근 LLM 의 수학 추론 능력 향상은 인간이 제공한 정답을 모방하는 것에서, 이진 (Binary) 검증기 (Verifier) 를 통해 스스로 생성한 답의 정오를 판단하고 개선하는 '자기 개선 (Self-improvement)' 패러다임으로 전환되면서 이루어졌습니다.
기존 한계:
- RL 의 우세: PPO, GRPO 와 같은 강화학습 알고리즘은 이진 보상 신호 (정답/오답) 를 최대화하는 데 자연스럽게 적합하여 주류를 이루고 있습니다.
- SL 의 부재: 기존 지도학습 (Supervised Learning) 은 정답 데이터 (Positive data) 만을 학습하는 데 초점을 맞추어, 모델이 자신의 실수 (Negative data) 를 반성하고 학습하는 능력을 갖기 어렵다고 여겨졌습니다.
- Rejection Fine-Tuning (RFT) 의 한계: 기존 SL 기반의 RFT 는 생성된 오답을 단순히 폐기하고 정답만 학습합니다. 이는 모델이 이미 잘하는 것을 강화할 뿐, 실수를 통해 새로운 통찰을 얻는 '자기 반성' 능력을 배제합니다.

2. 방법론 (Methodology)

저자들은 **NFT (Negative-aware Fine-Tuning)**를 제안하여 SL 프레임워크 내에서 오답 데이터를 효과적으로 활용하는 방법을 제시합니다.

핵심 아이디어: 암시적 부정 정책 (Implicit Negative Policy)

기존 RFT 는 오답을 버리는 반면, NFT 는 오답을 모델링하기 위해 **암시적 부정 정책 (Implicit Negative Policy, $\pi^-$ )**을 구축합니다.

수학적 기반: 베이지안 규칙을 활용하여 정답 분포 ( $\pi^+$ ) 와 오답 분포 ( $\pi^-$ ) 는 원래 생성 정책 ( $\pi_{old}$ ) 과 정답률 ( $r_q$ ) 을 통해 다음과 같이 연결됨을 증명합니다.
$\pi_{old}(a|q) = r_q \pi^+(a|q) + (1-r_q) \pi^-(a|q)$
구현: 이 관계를 역으로 사용하여, 오답 데이터 ( $D^-$ ) 를 학습할 때 목표 정책인 $\pi^+$ 를 직접 최적화할 수 있도록 합니다. 즉, 오답을 학습하는 것은 정답 정책을 개선하는 것과 수학적으로 동등한 효과를 가집니다.

알고리즘 흐름 (Algorithm 1)

데이터 생성: 현재 모델로 질문에 대한 $K$ 개의 답을 생성하고, 검증기를 통해 정답/오답 라벨 ( $r \in \{0, 1\}$ ) 을 부여합니다.
손실 함수 구성:
- 정답 ( $r=1$ ): 기존 지도학습과 유사하게 정답 확률을 최대화합니다.
- 오답 ( $r=0$ ): 정답 확률을 최소화하는 것이 아니라, 위에서 유도된 암시적 부정 정책을 통해 오답 확률을 모델링하고, 이를 통해 정답 정책의 파라미터를 업데이트합니다.
- 클리핑 (Clipping): 오답에 대한 확률비가 너무 커져 학습이 불안정해지는 것을 방지하기 위해, 음수 로그 가능도 비율에 대한 하한값 ( $\epsilon$ ) 을 적용하고 Straight-through 그라디언트를 사용합니다.
메모리 효율성: RL 방법론 (PPO 등) 과 달리 별도의 Critic 모델이나 과거 정책의 복사본을 저장할 필요가 없어, 단일 모델만 유지하며 학습이 가능합니다.

3. 주요 기여 및 이론적 통찰 (Key Contributions)

SL 과 RL 의 통합: RL 만이 검증 기반 학습에 적합하다는 통념을 깨고, SL 프레임워크에서도 오답 피드백을 활용한 자기 반성 학습이 가능함을 증명했습니다.
NFT 와 GRPO 의 동등성 증명:
- Strict On-Policy 조건: 학습 데이터가 현재 정책에서 생성된 경우 (Strict On-Policy), NFT 와 GRPO 의 그라디언트가 수학적으로 완전히 동일함을 증명했습니다.
- 차이점: 두 방법론의 차이는 주로 Off-Policy 상황 (과거 정책과 현재 정책의 편차 발생 시) 에서 그라디언트 클리핑 전략에 있습니다. GRPO 는 경직된 클리핑을 사용하는 반면, NFT 는 더 부드러운 감쇠 스케줄을 가집니다.
- 의미: 이는 RL 의 'Advantage Normalization' 기법이 SL 의 손실 함수에 암묵적으로 포함되어 있음을 시사하며, 두 방법론 간의 이론적 간극을 해소합니다.
실용적 효율성: 추가적인 모델 (Critic 등) 이나 복잡한 보상 모델이 필요 없어 메모리 오버헤드가 적고 구현이 간단합니다.

4. 실험 결과 (Results)

Qwen2.5-Math (7B, 32B) 모델을 사용하여 AIME, MATH500, OlympiadBench 등 6 가지 수학 벤치마크에서 평가했습니다.

성능 비교:
- RL 대비 경쟁력: NFT 는 최신 RL 알고리즘인 GRPO, DAPO 와 동급이거나 오히려 더 나은 성능을 기록했습니다.
- SL Baseline 대비 우위: 기존 SL 기반인 RFT 보다 일관되게 높은 성능을 보였으며, 특히 오답 데이터를 활용함으로써 성능 격차를 크게 줄였습니다.
- 모델 크기 효과: 32B 모델에서 RFT 와 NFT 의 성능 격차가 7B 모델보다 더 크게 벌어졌습니다. 이는 대형 모델일수록 정답 암기 능력은 이미 충분하므로, **실수에서 배우는 능력 (Negative feedback)**이 성능 향상의 핵심 병목이 됨을 시사합니다.
학습 동역학:
- RFT 는 학습 과정에서 엔트로피 (Exploration) 가 감소하는 경향이 있는 반면, NFT 와 RL 방법은 엔트로피를 유지하거나 증가시켜 더 나은 탐색을 가능하게 했습니다.

5. 의의 및 결론 (Significance)

이론적 통합: 이 연구는 Supervised Learning 과 Reinforcement Learning 이 이진 피드백 학습 시스템에서 본질적으로 연결되어 있음을 보여주었습니다. 특히 RL 의 복잡한 메커니즘이 SL 의 확률적 최적화 관점에서도 재해석될 수 있음을 증명했습니다.
실용적 가치: 외부 교사나 복잡한 보상 모델 없이도, 오답 데이터를 효과적으로 활용하여 LLM 의 추론 능력을 향상시킬 수 있는 경량화된 방법을 제시했습니다.
미래 전망: "자기 반성 (Self-reflection)"이 일반 지능 (General Intelligence) 에 필수적이라는 관점에서, NFT 는 RL 에 의존하지 않고도 LLM 이 자율적으로 진화할 수 있는 강력한 경로를 제시합니다.

결론적으로, 이 논문은 수학 추론 분야에서 RL 의 독점적 지위를 SL 로 확장시켰을 뿐만 아니라, 두 방법론 간의 이론적 동등성을 밝혀내어 향후 LLM 학습 알고리즘 설계에 중요한 통찰을 제공합니다.