Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective

이 논문은 Jigsaw 퍼즐과 같은 새로운 과제를 통해 분석한 결과, 강화 미세 조정 (RFT) 이 지도 미세 조정 (SFT) 에 비해 이전 지식을 더 잘 보존하면서도 학습 동역학상 데이터 분포가 망각 현상의 핵심 요인임을 규명합니다.

Zhihao Zhang, Qiaole Dong, Qi Zhang, Jun Zhao, Enyu Zhou, Zhiheng Xi, Senjie Jin, Xiaoran Fan, Yuhao Zhou, Mingqi Wu, Yanwei Fu, Tao Ji, Tao Gui, Xuanjing Huang, Kai Chen

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧩 핵심 비유: "퍼즐 맞추기"와 "기억력"

이 연구는 AI 에게 완전히 새로운 '조각 퍼즐 맞추기' 게임을 가르치는 실험을 했습니다. 기존에 AI 가 배운 적이 없는 게임이죠.

  1. 기존 지식 (Prior Knowledge): AI 가 이미 잘하는 일들 (예: 사진 속 사람 찾기, 문서 읽기, 수학 문제 풀기 등).
  2. 새로운 과제: 9 개의 조각을 섞어서 원래 그림으로 맞추는 것.

연구진은 AI 에게 이 퍼즐을 가르치면서, **"새로운 것을 배우는 동안 기존 지식은 얼마나 잊어버리게 될까?"**를 관찰했습니다.


🏃‍♂️ 두 가지 학습 방법의 차이

1. 지도 학습 (SFT): "스스로 외우는 학생"

  • 방식: 선생님이 정답과 함께 "이렇게 해"라고 바로 알려줍니다. (예: "이 조각은 1 번, 저 조각은 2 번")
  • 결과:
    • 장점: 퍼즐을 아주 빨리 잘 맞추게 됩니다. 몇 시간만 공부해도 정답을 외웁니다.
    • 단점: 기억력이 망가집니다. 새로운 퍼즐을 외우느라, 예전에 잘하던 '사진 찾기'나 '문서 읽기' 실력이 급격히 떨어집니다. 마치 새로운 전화번호를 외우느라 어릴 적 친구 이름까지 까맣게 잊어버리는 것과 같습니다.

2. 강화 학습 (RFT): "스스로 고민하는 탐험가"

  • 방식: 정답을 바로 주지 않습니다. AI 가 스스로 여러 번 시도해보고, 맞으면 "잘했어!" (보상), 틀리면 "아쉽네" (패널티) 를 받으며 스스로 학습합니다.
  • 결과:
    • 단점: 퍼즐을 잘 맞추는 데 시간이 더 걸립니다. 수만 번을 시도해야 합니다.
    • 장점: 기억력이 유지됩니다. 새로운 퍼즐도 잘 맞추면서, 예전에 잘하던 '사진 찾기' 실력도 그대로 유지합니다.

🤔 왜 이런 차이가 생길까요? (핵심 발견)

연구진은 "왜 강화 학습이 기억력을 잘 지키는 걸까?"를 파고들었고, 데이터 (학습 자료) 의 성격에 답을 찾았습니다.

🧠 비유: "내 말투" vs "남의 말투"

  • 지도 학습 (SFT) 의 문제:

    • AI 에게 주는 정답 데이터가 AI 의 원래 말투나 생각 방식과 너무 다릅니다.
    • 비유: 평소 조용한 사람이 갑자기 랩 가수를 따라 하라고 강요받는 상황입니다. 새로운 스타일을 억지로 익히느라, 원래의 자연스러운 말투 (기존 지식) 가 망가져 버립니다.
    • 논문에서는 이를 **"큰 간섭 (Large Interference)"**이라고 표현했습니다.
  • 강화 학습 (RFT) 의 해결책:

    • AI 가 스스로 만들어낸 데이터 (시도한 답안) 를 학습합니다. 이 데이터는 AI 가 이미 어느 정도 익숙한 영역에서 나온 것입니다.
    • 비유: AI 가 스스로 "아, 이 조각은 저기 붙을 것 같아"라고 추측하고, 그게 맞았을 때 그 경험을 학습합니다. 이는 AI 의 원래 사고방식과 자연스럽게 이어집니다.
    • 논문에서는 이를 **"작은 간섭 (Small Interference)"**과 **"낮은 혼란도 (Low Perplexity)"**라고 표현했습니다. 즉, AI 가 이미 알고 있는 언어 영역을 살짝 확장하는 방식이라 기존 지식을 해치지 않습니다.

💡 놀라운 발견: "강화 학습의 데이터를 가르쳐도 될까?"

연구진은 더 흥미로운 실험을 했습니다.
"강화 학습 (RFT) 을 통해 AI 가 스스로 만들어낸 **정답과 생각 과정 (추론)**을 모아서, 다시 **지도 학습 (SFT)**으로 가르쳐 보면 어떨까?"

  • 결과: 완벽한 조화!
    • 새로운 퍼즐을 배우는 속도는 빠르면서도 (지도 학습의 장점), 기존 지식은 거의 잃지 않았습니다 (강화 학습의 장점).
    • 핵심 교훈: 알고리즘 (학습 방법) 자체보다, **"무엇을 학습시키느냐 (데이터의 품질)"**가 기억력 보존에 훨씬 더 중요합니다.

📝 한 줄 요약

"새로운 것을 배울 때, AI 에게 정답을 강제로 외우게 하면 (지도 학습) 예전 지식을 잊어버리지만, AI 가 스스로 고민하고 발견한 과정을 학습하게 하면 (강화 학습), 새로운 것도 배우고 예전 지식도 잊지 않습니다."

이 연구는 앞으로 AI 를 더 안정적으로 발전시키기 위해, 어떤 데이터를 어떻게 학습시킬지를 신중하게 선택해야 함을 강조합니다. 마치 학생에게 무작정 외우게 하는 것보다, 스스로 탐구하게 유도하는 것이 더 오래 기억에 남는 것과 같은 원리입니다.