NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

이 논문은 RL 에만 국한된 것으로 여겨졌던 자기 개선 능력을 감독 학습 (SL) 으로도 가능하게 하는 'Negative-aware Fine-Tuning (NFT)'을 제안하여, 부정적 피드백을 활용한 자기 반성 학습을 통해 RL 기반 수학 추론 알고리즘과 경쟁하거나 이를 능가하는 성능을 입증하고 SL 과 RL 간의 이론적 간극을 해소했습니다.

Huayu Chen, Kaiwen Zheng, Qinsheng Zhang, Ganqu Cui, Lifan Yuan, Yin Cui, Haotian Ye, Tsung-Yi Lin, Ming-Yu Liu, Jun Zhu, Haoxiang Wang

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎓 핵심 비유: "틀린 문제를 버리지 않는 학생"

과거의 인공지능 (LLM) 학습 방식은 다음과 같았습니다.

  1. 기존 방식 (RL - 강화학습):

    • 학생이 문제를 풀고 정답을 맞히면 "잘했다!" (보상), 틀리면 "아이고, 다시 해봐" (재시도) 라고 합니다.
    • 문제점: 틀린 답안지는 그냥 쓰레기통에 버립니다. 학생은 "내가 왜 틀렸는지"를 깊이 생각할 기회를 못 얻고, 단순히 정답만 외우거나 운 좋게 맞히는 법만 배웁니다.
    • 이 방식은 **강화학습 (RL)**이라고 부르며, 최근 수학 문제 해결 능력 향상에 큰 역할을 했지만, 계산 비용이 매우 비싸고 복잡합니다.
  2. 기존의 다른 방식 (SL - 지도학습, RFT):

    • 학생이 푼 문제 중 정답만 모아두고, 그 정답만 다시 보고 공부합니다.
    • 문제점: 틀린 답안지는 아예 무시합니다. "내가 왜 틀렸는지"를 분석하지 못하므로, 실수를 반복할 수 있습니다.

🚀 이 논문의 혁신: "NFT(부정적 인식 미세 조정)"

이 논문은 **"틀린 답안지도 버리지 말고, 왜 틀렸는지 분석해서 공부하자!"**라고 제안합니다.

  • 아이디어: 학생이 틀린 답을 낼 때, 단순히 "틀렸다"고만 하지 않고, **"이 답이 왜 틀린지, 그리고 정답은 왜 맞는지"**를 동시에 학습합니다.
  • 비유:
    • 기존 방식: 정답지 (A) 만 보고 외운다.
    • NFT 방식: 정답지 (A) 를 보고 외우면서도, **내가 쓴 오답지 (B)**를 꺼내서 "아, 내가 여기서 실수했구나. 다음엔 이렇게 해야겠다"라고 스스로 반성합니다.
    • 핵심: 이 반성 과정은 별도의 '외부 선생님 (강화학습의 보상 모델)'이 필요 없이, 학생 스스로가 자신의 실수를 분석하며 학습합니다.

🔍 왜 이것이 중요한가요? (세 가지 포인트)

1. "틀린 것"에서 배우는 힘 (Negative Feedback)

기존에는 틀린 답을 버리는 것이 당연했습니다. 하지만 이 논문은 **틀린 답 (Negative Data)**을 학습에 활용하면, 학생이 실수를 더 잘 인지하고 고칠 수 있다고 말합니다.

  • 비유: 축구 선수가 실수한 장면을 다시 보며 "왜 골이 안 들어갔지?"라고 분석하면, 다음 경기에서 실수를 줄일 수 있는 것과 같습니다.

2. "복잡한 선생님" 없이도 가능 (Supervised Learning)

기존의 강화학습 (RL) 은 정답을 알려주는 '외부 선생님'이 필요하고 계산이 매우 복잡했습니다. 하지만 NFT 는 **지도학습 (SL)**이라는 더 간단하고 저렴한 방법으로, 스스로 반성하는 능력을 길러줍니다.

  • 결과: 복잡한 RL 방법 (GRPO, DAPO 등) 과 맞먹거나 더 좋은 성능을 내면서도, 학습 비용은 훨씬 적게 듭니다.

3. 이론적으로도 "동일한" 방법 (Theoretical Equivalence)

논문의 가장 놀라운 발견은, **NFT(지도학습)**와 **GRPO(강화학습)**라는 완전히 다른 이론을 가진 두 방법이, 실제로는 동일한 원리로 작동한다는 것을 수학적으로 증명했다는 점입니다.

  • 비유: "동쪽에서 간 사람"과 "서쪽에서 간 사람"이 결국 같은 목적지에 도착했다는 것을 증명해낸 것과 같습니다. 이는 인공지능 학습의 두 큰 흐름 (지도학습 vs 강화학습) 을 하나로 연결해 줍니다.

📊 실제 성과

이 방법을 70 억 (7B) 과 320 억 (32B) 개의 파라미터를 가진 최신 수학 모델에 적용했습니다.

  • 결과: 기존에 정답만 보고 학습한 방법 (RFT) 보다 훨씬 성능이 좋아졌고, 복잡한 강화학습 (RL) 방법들보다도 더 빠르고 정확하게 수학 문제를 풀 수 있게 되었습니다.

💡 한 줄 요약

"정답만 외우는 게 아니라, '내가 왜 틀렸는지'를 스스로 분석하며 배우는 새로운 학습법 (NFT) 을 개발했고, 이 방법이 기존에 비싸고 복잡한 강화학습보다 더 효율적이고 강력하다는 것을 증명했습니다."

이제 인공지능은 단순히 정답을 외우는 '암기왕'이 아니라, 실수를 통해 스스로 성장하는 '반성하는 학생'이 될 수 있게 되었습니다.