Enhanced Continual Learning of Vision-Language Models with Model Fusion

이 논문은 비전 - 언어 모델의 순차적 학습 중 발생하는 catastrophic forgetting 문제를 해결하기 위해 모델 융합을 기반으로 한 새로운 continual learning 방법론인 ConDU 를 제안하며, 이를 통해 기존 작업들의 평균 성능과 zero-shot 능력을 동시에 향상시킵니다.

Haoyuan Gao, Zicong Zhang, Yuqi Wei, Linglan Zhao, Guilin Li, Yexin Li, Bo Wang, Linghe Kong, Weiran Huang

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎓 비유: "만능 천재 학생"의 기억력 문제

상상해 보세요. **시각-언어 모델 (VLM)**은 어릴 때부터 수많은 책과 그림을 보며 자란 **'만능 천재 학생'**입니다. 이 학생은 학교에 들어가기 전 (학습 전) 에도 "고양이"라는 단어를 들으면 고양이를 그릴 수 있고, "사과"를 말하면 사과를 그릴 수 있는 놀라운 **제로샷 (Zero-shot, 처음 보는 것도 아는 능력)**을 가지고 있습니다.

하지만 이 학생이 학교에 들어와서 특정 과목 (태스크) 들을 하나씩 배우게 되면 문제가 생깁니다.

  1. 재앙적인 망각 (Catastrophic Forgetting):

    • 이 학생이 '수학'을 열심히 배우면 '영어'를 까맣게 잊어버립니다.
    • 다시 '프랑스어'를 배우면 '수학'과 '영어'가 모두 기억나지 않습니다.
    • 기존 AI 는 새로운 것을 배울 때마다 이전 지식을 지워버리는 치명적인 약점이 있습니다.
  2. 기존 해결책의 한계:

    • 기억력 훈련 (기존 방법): 이전 지식을 다시 반복해서 가르치거나, 새로운 과목마다 별도의 교재를 만들어서 관리하려 합니다. 하지만 이 방법들은 비용이 너무 많이 들거나, 학생이 원래 가지고 있던 '만능 능력 (제로샷)'을 잃게 만듭니다.

💡 ConDU: "만능 두뇌 + 스마트 노트" 시스템

이 논문에서 제안한 ConDU라는 방법은 이 문제를 아주 창의적으로 해결합니다. 핵심 아이디어는 **"하나의 두뇌를 유지하면서, 필요한 지식만 따로 분리해 내는 것"**입니다.

1. 핵심 메커니즘: "분해와 통합 (Decoupling & Unifying)"

  • 통합 (Unifying):

    • 학생이 '수학'을 배운 후, 그 지식을 기존의 만능 두뇌에 아주 얇은 '변화량 (Delta)'으로 합칩니다.
    • 그다음 '영어'를 배울 때도, 또 다른 '변화량'을 두뇌에 합칩니다.
    • 이렇게 하면 단 하나의 두뇌만 있으면 모든 과목을 다 다룰 수 있게 됩니다. (저장 공간 절약!)
  • 분해 (Decoupling):

    • 그런데 시험을 볼 때, "수학 문제를 풀어야 해!"라고 하면 어떻게 할까요?
    • ConDU 는 **스마트한 열쇠 (Task Trigger)**를 사용합니다. 이 열쇠를 두뇌에 꽂으면, 합쳐져 있던 '수학 지식'만 다시 **분리 (Decoupling)**되어 튀어나옵니다.
    • 마치 하나의 큰 파일에서 필요한 부분만 뽑아내는 것과 같습니다.

2. 새로운 학습 방식: "모두의 지혜를 모으기"

  • 새로운 과목이 들어오면, 기존에 배운 모든 지식 (수학, 영어, 프랑스어 등) 을 하나의 통합된 두뇌로 합칩니다.
  • 이때, 각 과목의 특징을 잃지 않도록 **가중치 (Rescaler)**와 마스크라는 도구를 써서 지혜를 균형 있게 섞습니다.
  • 결과적으로 단 하나의 모델이 모든 과목을 기억하게 되지만, 필요할 때는 다시 개별 전문가로 변신할 수 있습니다.

🎯 실제 시험장에서의 활용 (추론 단계)

시험장에서 문제가 나왔을 때 ConDU 는 어떻게 행동할까요?

  1. 과목이 명확한 경우 (Task ID Known):

    • "이건 수학 문제야!"라고 알려주면, 바로 수학 전문가로 변신해서 문제를 풉니다. (매우 빠름)
  2. 과목이 모르는 경우 (Zero-shot / Task Agnostic):

    • "이게 무슨 문제인지 모르겠는데, 풀어봐!"라고 하면?
    • ConDU 는 **모든 전문가 (수학, 영어, 과학 등)**를 불러모아 각자가 문제를 풀어보게 합니다.
    • 그리고 **유사도 (Semantic Matching)**를 계산해서, "아, 이 문제는 수학 전문가가 가장 잘 풀 수 있겠네!"라고 판단하고 그 답변을 최종 결과로 냅니다.
    • 중요한 점: 이 과정에서 원래의 '만능 능력 (제로샷)'이 오히려 더 강화됩니다.

🏆 왜 이 방법이 특별한가요?

  1. 공간 절약: 각 과목마다 별도의 모델을 저장할 필요가 없습니다. 하나의 두뇌와 작은 '열쇠 (트리거)'만 있으면 됩니다. (저장 공간이 기존 방법의 1/5 수준으로 줄어듦)
  2. 기억력 유지: 새로운 것을 배워도 이전 지식을 잊지 않습니다.
  3. 초능력 강화: 오히려 새로운 것을 배울수록, 처음 보던 것을 아는 능력 (제로샷) 이 더 좋아집니다.
  4. 유연성: 모델을 전체적으로 수정하든, 일부만 수정하든 (LoRA) 모두 적용 가능합니다.

📝 한 줄 요약

"ConDU 는 AI 가 새로운 것을 배울 때마다 기억을 잃는 대신, 하나의 통합된 두뇌에 모든 지식을 쌓아두고, 필요할 때만 필요한 전문가를 불러내어 문제를 해결하는 '스마트한 기억 관리 시스템'입니다."

이 방법은 AI 가 인간의 뇌처럼, 평생 동안 계속 배우면서도 과거의 지식을 잊지 않고, 처음 보는 상황에도 유연하게 대처할 수 있게 해주는 획기적인 기술입니다.