A Quantitative Characterization of Forgetting in Post-Training

Each language version is independently generated for its own context, not a direct translation.

🍦 핵심 비유: "아이스크림 가게의 새로운 메뉴"

가상의 아이스크림 가게를 상상해 보세요.

옛날 메뉴 (Old Task): 딸기 아이스크림 (기존에 잘 팔리던 것).
새로운 메뉴 (New Task): 초콜릿 아이스크림 (최근에 새로 추가한 것).
요리사 (AI 모델): 두 가지 맛을 모두 잘 만들어야 하는 사람입니다.

문제는 요리사가 새로운 초콜릿 맛을 배우는 동안, 딸기 맛 만드는 법을 잊어버리거나 (완전히 사라짐), 딸기 맛의 레시피를 엉뚱하게 바꿔버리는 (맛이 변함) 현상이 일어난다는 것입니다.

이 논문은 **"어떤 방식으로 가르치면 요리사가 딸기 맛을 잊지 않고 초콜릿 맛도 잘 배울 수 있을까?"**를 연구했습니다.

🔍 두 가지 종류의 '망각'

연구진은 망각을 두 가지로 나눕니다.

완전 망각 (Mass Forgetting):
- 상황: 요리사가 "딸기 아이스크림은 이제 안 만들어. 초콜릿만 만들 거야!"라고 선언하는 경우.
- 원인: 새로운 데이터 (초콜릿) 만 보고 훈련할 때 발생합니다.
맛의 변질 (Old-Component Drift):
- 상황: 딸기 아이스크림은 여전히 만들지만, 레시피가 조금씩 변해서 "딸기 맛이 아니라 딸기 + 바나나 맛이 섞인 이상한 맛"이 되는 경우.
- 원인: 새로운 것을 배우는 과정에서 기존 레시피가 무의식적으로 수정될 때 발생합니다.

⚖️ 두 가지 훈련 방법의 차이

논문은 AI 를 훈련시키는 두 가지 주요 방법 (방향) 을 비교했습니다.

1. "데이터만 보고 배우기" (Forward-KL, SFT)

비유: 요리사가 새로운 초콜릿 아이스크림 주문만 받으면서 훈련합니다.
결과: 요리사는 "아, 내가 딸기 아이스크림을 만들 필요가 없구나"라고 생각하게 됩니다.
- 완전 망각 발생: 딸기 아이스크림을 만드는 비중이 0 이 되어 사라집니다.
- 해결책: 만약 딸기 아이스크림 주문도 섞어서 주면 (리플레이), 망각을 막을 수 있습니다. 즉, 데이터 자체에 옛날 것을 섞어줘야 잊지 않습니다.

2. "목표와 비교하며 배우기" (Reverse-KL, RL)

비유: 요리사가 "우리는 **딸기 30% + 초콜릿 70%**의 완벽한 메뉴판을 만들어야 해"라는 **목표 (Target)**를 먼저 정하고, 자신의 실력을 그 목표와 비교하며 훈련합니다.
결과:
- 완전 망각 방지: 목표에 딸기가 포함되어 있으므로, 요리사는 딸기 맛을 유지하려 노력합니다.
- 맛의 변질 통제: 딸기 맛을 바꾸려는 힘은 두 맛의 겹치는 정도에 비례합니다.
  - 딸기와 초콜릿이 완전히 다른 맛이라면 (겹침이 적음), 초콜릿을 배우더라도 딸기 맛은 거의 변하지 않습니다.
  - 하지만 두 맛이 비슷하다면 (겹침이 많음), 초콜릿을 배우는 과정에서 딸기 맛이 살짝 변할 수 있습니다.
- 핵심: 이 방법은 자연스럽게 옛것을 보존하면서도 새로운 것을 배울 수 있게 해줍니다.

🛠️ 최신 기술들의 분석 (SDFT, TTT, OAPL)

논문은 최근 나온 세 가지 새로운 AI 훈련 방법도 이 '아이스크림 가게' 비유로 분석했습니다.

SDFT (스스로 가르치는 방법):
- 비유: 요리사가 스스로 만든 아이스크림을 맛보고, 전문가의 시식 코멘트를 참고하며 개선합니다.
- 결과: 전문가 (Demonstrator) 가 "딸기 맛도 중요해!"라고 강하게 말해주면, 딸기 맛을 잘 유지합니다.
TTT-Discover (시험 때 찾아내는 방법):
- 비유: 시험 문제 (새로운 상황) 가 나왔을 때, 가장 점수가 높은 답을 찾으려 하지만, 원래의 레시피 (참고서) 를 너무 벗어나지 않도록 제한합니다.
- 결과: 제한 (KL 앵커) 이 충분히 강하면 망각을 막지만, 너무 약하면 새로운 맛만 쫓다가 딸기 맛을 잃을 수 있습니다.
OAPL (이전 버전과 비교하는 방법):
- 비유: 요리사가 '어제 만든 메뉴'를 기준으로 오늘을 평가합니다.
- 결과: 어제 메뉴에 딸기가 없다면 오늘도 딸기를 만들 수 없습니다. 하지만 어제 메뉴에 딸기가 있다면, 그 비율을 유지하면서 초콜릿을 추가할 수 있습니다.

💡 결론: 우리가 배울 점

이 논문의 핵심 메시지는 다음과 같습니다.

새로운 것만 배우면 옛것은 사라집니다. (완전 망각)
목표를 명확히 정하고 (과거와 현재를 섞은 목표), 과거의 데이터가 겹치지 않는 한, 옛것은 자연스럽게 보존됩니다. (Reverse-KL 의 장점)
과거의 데이터를 일부 섞어주는 것 (리플레이) 은 필수적입니다. 특히 새로운 것만 볼 때 과거를 잊지 않게 해주는 '안전장치' 역할을 합니다.

한 줄 요약:

"AI 가 새로운 것을 배울 때, 과거의 맛을 잊지 않게 하려면 '새로운 것만' 보는 것이 아니라 **'과거와 현재가 섞인 목표'**를 향해, 과거의 맛도 가끔 맛보게 (리플레이) 해주는 것이 가장 좋습니다."

이 연구는 AI 가 계속 발전하면서도, 우리가 처음 배운 지식을 잃어버리지 않도록 하는 이론적인 지도를 제공한다는 점에서 매우 중요합니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 생성 모델 (Generative Models) 의 지속적인 후속 학습 (Continual Post-training) 은 널리 사용되지만, 왜 그리고 언제 '망각 (Forgetting)'이 발생하는지에 대한 원칙적인 이해는 부족합니다.
핵심 문제: 새로운 작업을 학습하는 과정에서 이전 작업의 성능이 급격히 저하되는 '재앙적 망각 (Catastrophic Forgetting)' 현상을 정량적으로 분석하고, 이를 방지하는 메커니즘을 규명하는 것입니다.
구체적 정의: 저자는 망각을 두 가지 형태로 정의합니다.
1. 질량 망각 (Mass Forgetting): 학습된 모델이 이전 작업 (Old Task) 에 할당된 혼합 가중치 (Mixture Weight, $\beta$ ) 를 0 으로 수렴시켜, 이전 행동의 분포를 완전히 버리는 현상.
2. 구성체 드리프트 (Old-Component Drift): 이전 작업에 대한 가중치는 유지되더라도, 해당 구성체 (Component) 의 매개변수 (예: 평균 $\mu_o$ ) 가 실제 분포에서 벗어나는 현상.

2. 방법론 (Methodology)

저자는 Chen et al. (2025) 이 제안한 이중 모드 혼합 모델 (Two-mode Mixture Abstraction) 을 기반으로 이론적 분석을 수행합니다.

모델 설정:
- 타겟 분포 ( $p_\alpha$ ): $\alpha p_o + (1-\alpha)p_n$ . 여기서 $p_o$ 는 이전 데이터, $p_n$ 은 새로운 데이터, $\alpha$ 는 유지해야 할 이전 행동의 비율입니다.
- 학습자 모델 ( $q_\beta$ ): $\beta q_o + (1-\beta)q_n$ . 학습 가능한 혼합 가중치 $\beta$ 와 구성체 매개변수 ( $q_o, q_n$ ) 를 가집니다.
- 가정: 구성체는 등공분산 (Equal-covariance) 가우시안 분포로 가정하며, 모드 간 거리는 Mahalanobis 거리 $\delta$ 로 정의됩니다.
분석 대상:
1. Forward-KL (SFT 기반): $KL(p_{data} \parallel q_\theta)$ . 주로 새로운 데이터 ( $p_n$ ) 만으로 학습할 때 발생합니다.
2. Reverse-KL (RL 기반): $KL(q_\theta \parallel p_{target})$ . 온-폴리시 (On-policy) 샘플링과 KL 정규화를 기반으로 합니다.
3. 리플레이 (Replay) 의 역할: 과거 데이터의 재사용이 위 두 목적 함수에 미치는 영향을 분석합니다.
4. 근사 온-폴리시 방법론 분석: SDFT, TTT-Discover, OAPL 등 최근 제안된 세 가지 알고리즘을 동일한 렌즈로 분석합니다.

3. 주요 기여 및 결과 (Key Contributions & Results)

A. Forward-KL (SFT) 의 망각 메커니즘

질량 망각의 필연성: 새로운 데이터 ( $p_n$ $p_{n}$ ) 만으로 Forward-KL 을 최적화할 때, 혼합 가중치 $\beta$ $β$ 는 0 으로 수렴합니다.
- 이유: Forward-KL 목적 함수는 관찰되지 않는 영역 (이전 모드) 에 확률 질량을 할당할 유인이 없습니다. 로그-기울기 (Logit-gradient) 분석에 따르면, 새로운 데이터가 이전 모드로 잘못 할당될 확률 (Leakage) 이 모드 간 거리 $\delta$ 에 대해 지수적으로 작기 때문에, 업데이트는 $\beta$ 를 지속적으로 감소시킵니다.
- 결과: 모델 클래스가 정확한 이전 분포를 포함하고 있더라도, 최적해는 이전 행동을 완전히 버리는 $\beta^*=0$ 이 됩니다.
리플레이의 영향:
- 분모 리플레이 (Denominator Replay): 모델 측에 과거 데이터를 섞는 것은 목적 함수의 최적점을 바꾸지 못합니다. 단순히 외부에서 강제된 하한선 (Floor) 만을 생성할 뿐입니다.
- 분자 리플레이 (Numerator Replay): 학습 데이터 분포 자체에 과거 데이터를 섞는 경우에만 최적점 $\beta^*$ 이 리플레이 비율만큼 유지됩니다. 즉, Forward-KL 에서는 데이터 분포의 변경이 필수적입니다.

B. Reverse-KL (RL) 의 망각 방지 및 드리프트 제어

질량 망각 방지: 타겟 분포 $p_\alpha$ 가 명시적으로 이전 모드를 포함할 때, Reverse-KL 목적 함수는 $\beta^* = \alpha$ 에서 전역 최소값을 가집니다. 따라서 질량 망각이 발생하지 않습니다.
드리프트 제어 (Overlap-gated Drift):
- 이미 정확한 이전 구성체 ( $q_o = p_o$ ) 에 대한 기울기는 잘못 할당 확률 (Misassignment Probability) 에 비례합니다.
- 이 확률은 Bhattacharyya 계수 (Bhattacharyya Coefficient) 로 제어되며, 모드 간 거리 $\delta$ 가 클 경우 지수적으로 감소합니다 ( $\propto e^{-\delta^2/8}$ ).
- 결론: Reverse-KL 은 새로운 모드를 학습하면서도, 잘 분리된 (Well-separated) 이전 모드는 지수적으로 작은 영향력만 받아 거의 변하지 않게 유지합니다.
수렴성: Reverse-KL 목적 함수는 국소적으로 Polyak-Lojasiewicz (PL) 조건을 만족하여, 적절한 초기화 하에서 지수적으로 빠르게 수렴합니다.

C. 리플레이 (Replay) 의 상호작용 차이

Forward-KL: 리플레이는 학습 분포를 변경하여 최적점을 이동시켜야만 망각을 방지합니다.
Reverse-KL: 리플레이는 목적 함수 자체는 변경하지 않지만, 유한 배치 (Finite-batch) 의 '구식 모드 기아 (Old-mode starvation)' 문제를 해결합니다. 과거 데이터가 미니배치에 포함되지 않을 때 발생하는 확률적 실패를 방지하고, 중요도 가중치 (Importance Weighting) 를 통해 편향 없는 기울기 추정을 보장합니다.

D. 근사 온-폴리시 방법론에 대한 분석

세 가지 최신 방법론을 동일한 혼합 모델 프레임워크로 분석한 결과:

SDFT (Self-Distillation Fine-Tuning): 증강된 Teacher 모델 (Demonstrator) 을 기반으로 한 Reverse-KL 업데이트와 유사하게 작동합니다. Demonstrator 가 충분히 강력하면 질량 망각을 방지하고, 드리프트는 지수적으로 작게 제어됩니다.
TTT-Discover: 엔트로피 기반의 목적 함수는 본질적으로 '모드 탐색 (Mode-seeking)' 성향이 강합니다. KL 앵커 (Anchor) 가 충분히 강하지 않으면 질량 붕괴가 발생할 수 있으나, 드리프트는 여전히 겹침 (Overlap) 에 의해 제어됩니다.
OAPL: 고정된 참조 정책 (Frozen Reference) 을 기반으로 합니다. 참조 정책에 이미 존재하는 모드만 재가중치할 수 있으며, 구성체 업데이트는 기하학적으로 국소적 (Geometrically Local) 이어서 드리프트가 제어됩니다.

4. 의의 및 결론 (Significance)

정량적 통찰: 망각이 단순히 모델의 표현 한계가 아니라, 발산 방향 (Divergence Direction, Forward vs Reverse), 기하학적 겹침 (Geometric Overlap), 샘플링 regime, 그리고 과거 행동의 가시성 사이의 상호작용에 의해 정밀하게 결정됨을 증명했습니다.
실용적 가이드:
- SFT (Forward-KL) 를 사용할 때는 과거 데이터를 학습 데이터 분포에 반드시 포함시켜야 (Numerator Replay) 망각을 막을 수 있음을 보여줍니다.
- RL (Reverse-KL) 방식은 본질적으로 망각에 강건하지만, 미니배치 샘플링 시 과거 데이터가 사라지는 것을 방지하기 위한 리플레이 메커니즘이 필요함을 강조합니다.
이론적 확장: 가우시안 혼합 모델에서 얻은 결과는 유한 혼합 모델 (Finite-mixture) 과 강하게 로그-볼록 (Strongly Log-concave) 분포로 확장 가능하며, f-발산 (f-divergence) 계열에서도 유사한 결론이 성립함을 보였습니다.

이 논문은 생성 모델의 지속적인 학습에서 망각 현상을 단순한 현상이 아닌, 수학적 원리에 기반하여 정량화하고 예측 가능한 프레임워크를 제시했다는 점에서 중요한 기여를 합니다.