A Quantitative Characterization of Forgetting in Post-Training

이 논문은 포스트 트레이닝 중 발생하는 망각을 '질량 소실'과 '구성 요소 이동'으로 정의하고, KL 발산 방향, 기하학적 행동 중복도, 샘플링 전략 및 과거 데이터 가시성 간의 상호작용을 통해 망각을 정량화하는 이론적 틀을 제시합니다.

Krishnakumar Balasubramanian, Shiva Prasad Kasiviswanathan

게시일 Fri, 13 Ma
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍦 핵심 비유: "아이스크림 가게의 새로운 메뉴"

가상의 아이스크림 가게를 상상해 보세요.

  • 옛날 메뉴 (Old Task): 딸기 아이스크림 (기존에 잘 팔리던 것).
  • 새로운 메뉴 (New Task): 초콜릿 아이스크림 (최근에 새로 추가한 것).
  • 요리사 (AI 모델): 두 가지 맛을 모두 잘 만들어야 하는 사람입니다.

문제는 요리사가 새로운 초콜릿 맛을 배우는 동안, 딸기 맛 만드는 법을 잊어버리거나 (완전히 사라짐), 딸기 맛의 레시피를 엉뚱하게 바꿔버리는 (맛이 변함) 현상이 일어난다는 것입니다.

이 논문은 **"어떤 방식으로 가르치면 요리사가 딸기 맛을 잊지 않고 초콜릿 맛도 잘 배울 수 있을까?"**를 연구했습니다.


🔍 두 가지 종류의 '망각'

연구진은 망각을 두 가지로 나눕니다.

  1. 완전 망각 (Mass Forgetting):
    • 상황: 요리사가 "딸기 아이스크림은 이제 안 만들어. 초콜릿만 만들 거야!"라고 선언하는 경우.
    • 원인: 새로운 데이터 (초콜릿) 만 보고 훈련할 때 발생합니다.
  2. 맛의 변질 (Old-Component Drift):
    • 상황: 딸기 아이스크림은 여전히 만들지만, 레시피가 조금씩 변해서 "딸기 맛이 아니라 딸기 + 바나나 맛이 섞인 이상한 맛"이 되는 경우.
    • 원인: 새로운 것을 배우는 과정에서 기존 레시피가 무의식적으로 수정될 때 발생합니다.

⚖️ 두 가지 훈련 방법의 차이

논문은 AI 를 훈련시키는 두 가지 주요 방법 (방향) 을 비교했습니다.

1. "데이터만 보고 배우기" (Forward-KL, SFT)

  • 비유: 요리사가 새로운 초콜릿 아이스크림 주문만 받으면서 훈련합니다.
  • 결과: 요리사는 "아, 내가 딸기 아이스크림을 만들 필요가 없구나"라고 생각하게 됩니다.
    • 완전 망각 발생: 딸기 아이스크림을 만드는 비중이 0 이 되어 사라집니다.
    • 해결책: 만약 딸기 아이스크림 주문도 섞어서 주면 (리플레이), 망각을 막을 수 있습니다. 즉, 데이터 자체에 옛날 것을 섞어줘야 잊지 않습니다.

2. "목표와 비교하며 배우기" (Reverse-KL, RL)

  • 비유: 요리사가 "우리는 **딸기 30% + 초콜릿 70%**의 완벽한 메뉴판을 만들어야 해"라는 **목표 (Target)**를 먼저 정하고, 자신의 실력을 그 목표와 비교하며 훈련합니다.
  • 결과:
    • 완전 망각 방지: 목표에 딸기가 포함되어 있으므로, 요리사는 딸기 맛을 유지하려 노력합니다.
    • 맛의 변질 통제: 딸기 맛을 바꾸려는 힘은 두 맛의 겹치는 정도에 비례합니다.
      • 딸기와 초콜릿이 완전히 다른 맛이라면 (겹침이 적음), 초콜릿을 배우더라도 딸기 맛은 거의 변하지 않습니다.
      • 하지만 두 맛이 비슷하다면 (겹침이 많음), 초콜릿을 배우는 과정에서 딸기 맛이 살짝 변할 수 있습니다.
    • 핵심: 이 방법은 자연스럽게 옛것을 보존하면서도 새로운 것을 배울 수 있게 해줍니다.

🛠️ 최신 기술들의 분석 (SDFT, TTT, OAPL)

논문은 최근 나온 세 가지 새로운 AI 훈련 방법도 이 '아이스크림 가게' 비유로 분석했습니다.

  1. SDFT (스스로 가르치는 방법):
    • 비유: 요리사가 스스로 만든 아이스크림을 맛보고, 전문가의 시식 코멘트를 참고하며 개선합니다.
    • 결과: 전문가 (Demonstrator) 가 "딸기 맛도 중요해!"라고 강하게 말해주면, 딸기 맛을 잘 유지합니다.
  2. TTT-Discover (시험 때 찾아내는 방법):
    • 비유: 시험 문제 (새로운 상황) 가 나왔을 때, 가장 점수가 높은 답을 찾으려 하지만, 원래의 레시피 (참고서) 를 너무 벗어나지 않도록 제한합니다.
    • 결과: 제한 (KL 앵커) 이 충분히 강하면 망각을 막지만, 너무 약하면 새로운 맛만 쫓다가 딸기 맛을 잃을 수 있습니다.
  3. OAPL (이전 버전과 비교하는 방법):
    • 비유: 요리사가 '어제 만든 메뉴'를 기준으로 오늘을 평가합니다.
    • 결과: 어제 메뉴에 딸기가 없다면 오늘도 딸기를 만들 수 없습니다. 하지만 어제 메뉴에 딸기가 있다면, 그 비율을 유지하면서 초콜릿을 추가할 수 있습니다.

💡 결론: 우리가 배울 점

이 논문의 핵심 메시지는 다음과 같습니다.

  1. 새로운 것만 배우면 옛것은 사라집니다. (완전 망각)
  2. 목표를 명확히 정하고 (과거와 현재를 섞은 목표), 과거의 데이터가 겹치지 않는 한, 옛것은 자연스럽게 보존됩니다. (Reverse-KL 의 장점)
  3. 과거의 데이터를 일부 섞어주는 것 (리플레이) 은 필수적입니다. 특히 새로운 것만 볼 때 과거를 잊지 않게 해주는 '안전장치' 역할을 합니다.

한 줄 요약:

"AI 가 새로운 것을 배울 때, 과거의 맛을 잊지 않게 하려면 '새로운 것만' 보는 것이 아니라 **'과거와 현재가 섞인 목표'**를 향해, 과거의 맛도 가끔 맛보게 (리플레이) 해주는 것이 가장 좋습니다."

이 연구는 AI 가 계속 발전하면서도, 우리가 처음 배운 지식을 잃어버리지 않도록 하는 이론적인 지도를 제공한다는 점에서 매우 중요합니다.