CapTrack: Multifaceted Evaluation of Forgetting in LLM Post-Training

이 논문은 LLM 후학습에서 발생하는 망각을 단순한 지식 손실이 아닌 행동과 사용자 경험을 저해하는 체계적인 모델 드리프트로 재정의하고, 이를 분석하기 위한 'CapTrack'이라는 능력 중심 평가 프레임워크를 제안하여 다양한 후학습 알고리즘과 모델에 대한 대규모 실증 연구를 수행했습니다.

Lukas Thede, Stefan Winzeck, Zeynep Akata, Jonathan Richard Schwarz

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧠 1. 핵심 문제: "전문가 교육을 받은 학생이 기본기를 잊어버린다?"

상상해 보세요. 아주 똑똑하고 만능인 **대학생 (기존 AI)**이 있습니다. 이 학생은 역사, 수학, 요리, 외국어 등 모든 것을 잘합니다.

이제 이 학생을 **법률 변호사 (법률 데이터)**나 **의사 (의료 데이터)**로 교육시키려고 합니다.

  • 기존 연구들의 생각: "아, 법률 교육을 받으면 법률 지식은 늘겠지만, '역사'나 '수학' 점수가 조금 떨어질까 봐 걱정되네." (단순 지식의 손실만 봄)
  • 이 논문의 주장 (CapTrack): "아니요, 문제는 점수가 아니라 태도입니다! 법률 교육을 받은 후 이 학생은 다음과 같이 변할 수 있어요:
    • 성격 변화: 예전에는 친절하고 상세하게 설명해 줬는데, 이제는 너무 짧고 딱딱하게만 말해요. (말버릇 변화)
    • 습관 변화: "모르겠어요"라고 말하던 예전 습관이 사라져서, 엉뚱한 질문에도 무조건 대답하려다 위험한 말을 할 수도 있어요. (안전성/태도 변화)
    • 규칙 무시: "문단 나누어 써줘"라고 시켰는데, 이제 그 규칙을 잊어버리고 한 줄로만 써요. (명령 수행 능력 저하)

저자들은 이 현상을 **'CapTrack(능력 추적기)'**이라는 새로운 도구로 측정했습니다. 마치 학생의 **지식 (CAN), 태도 (WILL), 그리고 규칙 준수 (HOW)**를 세 가지 카테고리로 나누어 꼼꼼히 체크하는 거죠.

📉 2. 실험 결과: 누가 가장 많이 잊어버릴까?

연구팀은 다양한 AI 모델 (LLaMA, Qwen, Gemma 등) 을 법률과 의료 데이터로 훈련시켰습니다. 결과는 다음과 같았습니다.

  • 🔥 가장 나쁜 교육 방법: "지시어 미세 조정 (IFT)"

    • 비유: 학생에게 "이렇게만 해!"라고 강압적으로 시키는 교육 방식입니다.
    • 결과: 새로운 전문 지식은 늘었지만, 기존의 모든 좋은 습관 (다국어 능력, 논리력, 친절함) 이 크게 망가졌습니다. 마치 전문 변호사가 된 학생이 이제 "안녕하세요"도 못 하고, 외국어는 전혀 못 하게 된 꼴입니다.
  • 🛡️ 더 나은 교육 방법: "선호도 최적화 (DPO)"

    • 비유: 학생에게 "이 답변은 좋고, 저 답변은 나빠"라고 선택하게 가르치는 방식입니다.
    • 결과: 새로운 지식도 늘었지만, 기존의 좋은 습관 (태도, 규칙 준수) 을 훨씬 잘 지켜냈습니다. 그리고 만약 IFT 로 실수를 했다면, DPO 로 다시 다듬어주면 잃어버린 능력의 일부를 되찾을 수 있었습니다.
  • 📏 모델 크기의 진실

    • "모델이 크면 (80B 파라미터) 잊어버림이 덜 하겠지?"라고 생각할 수 있지만, 크기와는 큰 상관이 없었습니다. 큰 모델도 작은 모델도 똑같이 태도와 습관을 잃어버렸습니다.

🛠️ 3. 해결책은 있을까? (완벽한 해결책은 없다)

연구팀은 "잊어버림을 막을 방법"을 세 가지로 시도해 보았습니다.

  1. 데이터 섞기 (일반적인 데이터 추가): 법률 데이터만 주는 게 아니라, 일반적인 대화 데이터도 섞어주면 어떨까?
    • 결과: 효과가 일정하지 않았습니다. 어떤 능력은 좋아지고, 어떤 것은 더 나빠졌습니다. "만병통치약"은 없었습니다.
  2. 모델 병합 (두 모델 섞기): 훈련된 모델과 원래 모델을 섞어서 만들면?
    • 결과: **안정성과 적응력 사이의 트레이드오프 (Trade-off)**가 있었습니다. 원래 모델의 성격을 지키면 새로운 법률 지식은 못 배우고, 법률을 잘 배우면 원래 성격은 망가집니다. 둘 다 잡을 수는 없었습니다.
  3. 규제 강화 (LoRA 등): 학습할 때 너무 크게 변하지 못하도록 제한을 걸면?
    • 결과: 역시 안정성과 적응력의 딜레마가 있었습니다. 너무 많이 배우지 못하게 막으면, 새로운 전문 지식도 못 배웁니다.

💡 4. 결론: 무엇을 배워야 할까?

이 논문의 핵심 메시지는 다음과 같습니다.

"AI 를 훈련시킬 때, 단순히 '정답을 맞히는 능력'만 보면 안 됩니다. AI 가 어떻게 말하고, 어떤 태도를 보이며, 규칙을 잘 지키는지까지 지켜봐야 합니다."

지금까지 우리는 AI 가 "사실 (Fact)"을 잊었는지만 확인했지만, 이제는 AI 의 '성격'과 '행동'이 망가졌는지를 체크해야 합니다.

한 줄 요약:

"AI 에게 새로운 직업을 가르칠 때, 그 사람의 '기본 인성'과 '예절'까지 잃어버리지 않도록 꼼꼼히 지켜봐야 합니다. 단순히 지식만 늘리는 교육은 오히려 AI 를 무뚝뚝하고 위험한 존재로 만들 수 있습니다."

이 연구는 AI 개발자들이 모델을 훈련시킬 때, **단순한 점수 (Accuracy) 가 아니라 AI 의 전체적인 행동 양식 (Capability)**을 평가하는 새로운 기준 (CapTrack) 을 제시했다는 점에서 매우 중요합니다.