Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective

Each language version is independently generated for its own context, not a direct translation.

🧩 핵심 비유: "퍼즐 맞추기"와 "기억력"

이 연구는 AI 에게 완전히 새로운 '조각 퍼즐 맞추기' 게임을 가르치는 실험을 했습니다. 기존에 AI 가 배운 적이 없는 게임이죠.

기존 지식 (Prior Knowledge): AI 가 이미 잘하는 일들 (예: 사진 속 사람 찾기, 문서 읽기, 수학 문제 풀기 등).
새로운 과제: 9 개의 조각을 섞어서 원래 그림으로 맞추는 것.

연구진은 AI 에게 이 퍼즐을 가르치면서, **"새로운 것을 배우는 동안 기존 지식은 얼마나 잊어버리게 될까?"**를 관찰했습니다.

🏃‍♂️ 두 가지 학습 방법의 차이

1. 지도 학습 (SFT): "스스로 외우는 학생"

방식: 선생님이 정답과 함께 "이렇게 해"라고 바로 알려줍니다. (예: "이 조각은 1 번, 저 조각은 2 번")
결과:
- 장점: 퍼즐을 아주 빨리 잘 맞추게 됩니다. 몇 시간만 공부해도 정답을 외웁니다.
- 단점: 기억력이 망가집니다. 새로운 퍼즐을 외우느라, 예전에 잘하던 '사진 찾기'나 '문서 읽기' 실력이 급격히 떨어집니다. 마치 새로운 전화번호를 외우느라 어릴 적 친구 이름까지 까맣게 잊어버리는 것과 같습니다.

2. 강화 학습 (RFT): "스스로 고민하는 탐험가"

방식: 정답을 바로 주지 않습니다. AI 가 스스로 여러 번 시도해보고, 맞으면 "잘했어!" (보상), 틀리면 "아쉽네" (패널티) 를 받으며 스스로 학습합니다.
결과:
- 단점: 퍼즐을 잘 맞추는 데 시간이 더 걸립니다. 수만 번을 시도해야 합니다.
- 장점: 기억력이 유지됩니다. 새로운 퍼즐도 잘 맞추면서, 예전에 잘하던 '사진 찾기' 실력도 그대로 유지합니다.

🤔 왜 이런 차이가 생길까요? (핵심 발견)

연구진은 "왜 강화 학습이 기억력을 잘 지키는 걸까?"를 파고들었고, 데이터 (학습 자료) 의 성격에 답을 찾았습니다.

🧠 비유: "내 말투" vs "남의 말투"

지도 학습 (SFT) 의 문제:
- AI 에게 주는 정답 데이터가 AI 의 원래 말투나 생각 방식과 너무 다릅니다.
- 비유: 평소 조용한 사람이 갑자기 랩 가수를 따라 하라고 강요받는 상황입니다. 새로운 스타일을 억지로 익히느라, 원래의 자연스러운 말투 (기존 지식) 가 망가져 버립니다.
- 논문에서는 이를 **"큰 간섭 (Large Interference)"**이라고 표현했습니다.
강화 학습 (RFT) 의 해결책:
- AI 가 스스로 만들어낸 데이터 (시도한 답안) 를 학습합니다. 이 데이터는 AI 가 이미 어느 정도 익숙한 영역에서 나온 것입니다.
- 비유: AI 가 스스로 "아, 이 조각은 저기 붙을 것 같아"라고 추측하고, 그게 맞았을 때 그 경험을 학습합니다. 이는 AI 의 원래 사고방식과 자연스럽게 이어집니다.
- 논문에서는 이를 **"작은 간섭 (Small Interference)"**과 **"낮은 혼란도 (Low Perplexity)"**라고 표현했습니다. 즉, AI 가 이미 알고 있는 언어 영역을 살짝 확장하는 방식이라 기존 지식을 해치지 않습니다.

💡 놀라운 발견: "강화 학습의 데이터를 가르쳐도 될까?"

연구진은 더 흥미로운 실험을 했습니다.
"강화 학습 (RFT) 을 통해 AI 가 스스로 만들어낸 **정답과 생각 과정 (추론)**을 모아서, 다시 **지도 학습 (SFT)**으로 가르쳐 보면 어떨까?"

결과: 완벽한 조화!
- 새로운 퍼즐을 배우는 속도는 빠르면서도 (지도 학습의 장점), 기존 지식은 거의 잃지 않았습니다 (강화 학습의 장점).
- 핵심 교훈: 알고리즘 (학습 방법) 자체보다, **"무엇을 학습시키느냐 (데이터의 품질)"**가 기억력 보존에 훨씬 더 중요합니다.

📝 한 줄 요약

"새로운 것을 배울 때, AI 에게 정답을 강제로 외우게 하면 (지도 학습) 예전 지식을 잊어버리지만, AI 가 스스로 고민하고 발견한 과정을 학습하게 하면 (강화 학습), 새로운 것도 배우고 예전 지식도 잊지 않습니다."

이 연구는 앞으로 AI 를 더 안정적으로 발전시키기 위해, 어떤 데이터를 어떻게 학습시킬지를 신중하게 선택해야 함을 강조합니다. 마치 학생에게 무작정 외우게 하는 것보다, 스스로 탐구하게 유도하는 것이 더 오래 기억에 남는 것과 같은 원리입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

대규모 언어 모델 (LLM) 및 멀티모달 LLM(MLLM) 의 후학습 (Post-training) 단계에서 **지도 미세조정 (SFT)**과 **강화 미세조정 (RFT)**은 하위 태스크 적응을 위해 널리 사용됩니다. 그러나 두 방법 모두 새로운 작업을 학습하는 과정에서 기존에 습득한 선행 지식 (Prior Knowledge) 을 잃어버리는 '파괴적 망각 (Catastrophic Forgetting)' 현상을 유발할 수 있다는 우려가 있습니다.

기존 연구들은 주로 성능 향상에 집중하여, 알고리즘 자체의 차이보다는 학습 데이터의 분포가 망각에 미치는 영향을 체계적으로 분석한 사례가 부족했습니다. 특히, 새로운 작업 (Pretraining 데이터에 존재하지 않는 작업) 을 학습할 때 SFT 와 RFT 가 어떻게 다른 망각 패턴을 보이는지, 그리고 그 근본 원인이 무엇인지에 대한 명확한 설명이 필요했습니다.

2. 방법론 (Methodology)

2.1 새로운 평가 태스크: 퍼즐 (Jigsaw Puzzles)

목표: 기존 Pretraining 코퍼스에 존재하지 않는 완전히 새로운 작업을 도입하여 후학습 알고리즘의 영향을 정량적으로 측정합니다.
구현: COCO 이미지 데이터를 3x3 그리드로 잘라 순서를 무작위로 섞은 '조각 퍼즐' 작업을 정의했습니다. 모델은 조각들의 올바른 순서를 예측해야 합니다.
특징: 최신 MLLM(GPT-4o 포함) 들조차 이 작업에서 무작위 추측 수준 (0.0% 정확도) 의 성능을 보여, 이 작업이 모델에게 진정한 '새로운 지식'임을 입증했습니다.

2.2 실험 설정

모델: Qwen2.5-VL 시리즈 (3B, 7B) 를 사용했습니다.
비교 그룹:
1. SFT (Non-Reasoning): 정답만 제공하는 데이터로 학습.
2. SFT (Rea-4o-Rollout): GPT-4o 가 생성한 추론 과정 (Chain-of-Thought) 과 정답을 포함한 데이터로 학습.
3. RFT (GRPO): 모델 스스로 추론 과정을 생성하고 보상 (Reward) 을 받아 학습 (GRPO 알고리즘 사용).
4. SFT (Rea-GRPO-Rollout): RFT 로 학습된 모델이 생성한 정답 추론 데이터를 SFT 에 활용.

2.3 학습 역학 (Learning Dynamics) 분석

망각의 메커니즘을 설명하기 위해 학습 역학 (Learning Dynamics) 이론을 적용했습니다.

핵심 개념: 하나의 학습 데이터 $x_u$ 가 다른 데이터 $x_v$ (기존 지식) 의 확률에 미치는 영향을 분석합니다.
지표:
- 간섭의 크기 (Magnitude): 경험적 신경 탄성 커널 (eNTK) 의 노름 (Norm) 을 통해 데이터 간의 간섭 강도를 측정합니다.
- 간섭의 방향 (Direction): 학습 데이터가 모델의 기존 확률 분포 (Perplexity) 와 얼마나 정렬되어 있는지 분석합니다.

3. 주요 기여 (Key Contributions)

데이터 분포의 중요성 규명: 알고리즘 (SFT vs RFT) 의 차이보다는 학습 데이터의 분포가 망각을 결정하는 핵심 요소임을 입증했습니다. RFT 가 생성한 데이터는 모델의 기존 지식과 더 잘 정렬되어 있어 망각을 줄입니다.
학습 역학 기반 해석: 망각을 **간섭의 크기 (Magnitude)**와 **방향 (Direction)**으로 분해하여 설명했습니다.
- 크기: 추론 과정 (Reasoning Trajectory) 이 포함된 데이터는 기존 지식과의 eNTK 간섭이 작습니다.
- 방향: RFT 는 모델이 이미 낮은 퍼플렉시티 (Perplexity) 를 갖는 영역 (모델이 자연스럽게 생성할 수 있는 영역) 을 탐색하여 학습하므로, 기존 지식의 확률을 급격히 떨어뜨리지 않습니다.
SFT 와 RFT 의 협력 전략 제안: RFT 를 통해 생성된 고품질 추론 데이터를 SFT 에 활용하면, RFT 와 유사한 성능을 내면서도 기존 지식 보존 측면에서 훨씬 우수한 결과를 얻을 수 있음을 보였습니다.

4. 실험 결과 (Results)

4.1 퍼즐 태스크 및 기존 지식 보존

성능: RFT 는 수만 스텝의 학습을 통해 퍼즐 해결 능력을 획득했으나, SFT 는 수백~수천 스텝만으로도 빠르게 학습했습니다.
망각 (Forgetting):
- SFT (Non-Reasoning): 퍼즐 학습 후 Grounding, OCR, 일반 VQA 등 기존 태스크에서 치명적인 성능 저하 (예: RefCOCOval 에서 88.8 → 6.1) 를 보였습니다.
- RFT: 퍼즐 학습 후에도 기존 태스크 성능을 거의 유지했습니다.
- SFT (Rea-GRPO-Rollout): RFT 가 생성한 데이터로 SFT 를 수행한 경우, RFT 와 유사한 퍼즐 성능을 내면서도 기존 지식 보존도가 매우 높았습니다. 이는 알고리즘이 아닌 데이터의 질이 핵심임을 시사합니다.

4.2 학습 역학 분석 결과

간섭 크기 (LBK): 추론 과정이 없는 데이터 (Non-Rea) 는 기존 지식과의 간섭 (LBK) 이 매우 컸으며, 추론 과정이 포함된 데이터 (Rea) 는 간섭이 작았습니다.
퍼플렉시티 (Perplexity):
- Rea-4o-Rollout (GPT-4o 생성): 모델의 기존 분포와 맞지 않는 고퍼플렉시티 영역에 위치하여 기존 지식을 파괴했습니다.
- Rea-GRPO-Rollout (모델 생성): 모델이 자연스럽게 생성 가능한 저퍼플렉시티 영역에 위치하여 기존 지식과의 충돌을 최소화했습니다.
대칭성 (Symmetry): 학습 역학의 대칭성에 따라, 모델이 낮은 퍼플렉시티를 갖는 데이터 ( $x_u$ ) 를 학습할 때 기존 지식 ( $x_v$ ) 에 미치는 부정적 영향이 적음을 확인했습니다.

4.3 일반화 검증 (Math & Scientific QA)

수학 추론 (Open-Reasoner-Zero) 및 과학적 객관식 질문 (Sci-MCQ4) 실험에서도 동일한 경향성이 관찰되었습니다.
- 망각 심각도: Non-Rea > Rea-4o-Rollout > Rea-GRPO-Rollout 순서로 망각이 감소했습니다.
- Pareto Frontier: Rea-GRPO-Rollout 데이터를 사용한 SFT 는 새로운 작업 성능과 기존 지식 보존 사이에서 가장 우수한 트레이드오프를 보였습니다.

5. 의의 및 결론 (Significance)

이 논문은 후학습 (Post-training) 단계에서 **망각을 방지하는 핵심이 알고리즘 선택이 아니라 데이터 구성 (Data Construction)**임을 강력하게 주장합니다.

이론적 통찰: 강화학습 (RFT) 이 망각을 줄이는 이유는 단순히 보상 최적화 때문이 아니라, RFT 가 모델의 기존 언어 공간 (Linguistic Space) 내에서 자연스럽게 발견되는 저퍼플렉시티 영역을 탐색하고 강화하기 때문입니다.
실용적 제안:
1. RFT 를 통해 생성된 고품질 추론 데이터를 SFT 에 활용하면, RFT 의 안정성과 SFT 의 학습 효율성을 모두 얻을 수 있습니다.
2. 새로운 작업을 학습할 때, 외부 모델 (GPT-4o 등) 이 생성한 데이터보다는 모델 스스로 생성한 (Self-generated) 데이터를 사용하는 것이 기존 지식 보존에 유리합니다.
3. 추론 과정 (Reasoning Trajectory) 을 명시적으로 포함하는 것이 망각을 완화하는 데 필수적입니다.

결론적으로, 이 연구는 안정적이고 지속적인 후학습을 위해서는 알고리즘의 복잡성보다는 **학습 데이터의 분포와 모델의 기존 지식 간의 정렬 (Alignment)**에 초점을 맞춰야 함을 시사합니다.