원저자: Nicolas Michel, Maorong Wang, Jiangpeng He, Toshihiko Yamasaki

게시일 2026-05-07

📖 4 분 읽기☕ 가벼운 읽기

원저자: Nicolas Michel, Maorong Wang, Jiangpeng He, Toshihiko Yamasaki

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

세상에서 가장 뛰어난 전문가가 되기 위해 유명한 멘토들로부터 배우려 한다고 상상해 보세요. 하지만 함정이 하나 있습니다: 동시에 한 명의 멘토와만 대화할 수 있으며, 한 번 멘토가 떠나면 영원히 사라집니다. 다시 돌아와 질문할 수도 없고, 그들이 기술을 익히는 데 사용했던 원본 교과서에도 접근할 수 없습니다.

이 논문이 다루는 핵심 문제는 바로 **지속적 증류 (Continual Distillation)**라고 부르는 것입니다.

간단한 비유를 통해 그들의 아이디어, 발견한 문제점, 그리고 해결책을 살펴보겠습니다.

설정: "사라지는 멘토" 문제

과거의 인공지능 (AI) 시대에는 학생 모델이 학습을 원할 때 이전 교사들로부터의 모든 데이터 (교과서) 를 살펴볼 수 있었습니다. 하지만 오늘날의 AI 모델 (기초 모델이라고 함) 은 너무 방대하고 비싸서 모두 보관할 수 없습니다. 따라서 우리는 모델이 출시될 때마다 하나씩 배우고 나면 이전 모델들에 대한 접근 권한을 잃게 됩니다.

학생 모델은 교사들의 연속된 흐름으로부터 학습해야 합니다:

교사 A는 동물에 대해 가르칩니다.
교사 B는 곤충에 대해 가르칩니다.
교사 C는 식물에 대해 가르칩니다.

학생은 A, 그다음 B, 그다음 C 순서로 학습해야 하며, A 나 B 를 다시는 볼 수 없습니다.

두 가지 주요 도전 과제

1. "맹점" 문제 (보이지 않는 지식 전이)
교사들은 학생이 본 적 없는 것들을 알고 있습니다. 예를 들어, 교사 A 는 "해양 동물" 전문가일 수 있지만, 학생은 오직 "육상 동물"의 사진만 본 적이 있을 뿐입니다.

논문의 발견: 학생이 학생도 교사도 본 적 없는 무작위 사진 세트 (이를 "외부 데이터"라고 부르겠습니다) 로 연습할 때, 기적이 일어납니다. 교사가 이러한 알 수 없는 사진을 볼 때 나타내는 불확실성이나 확신을 관찰함으로써, 학생은 해양 동물 도메인에 대해 직접 해양 동물을 보지 않았음에도 불구하고 실제로 학습할 수 있습니다.
비유: 마스터 셰프 (교사) 가 낯선 알 수 없는 과일을 맛보는 상황을 상상해 보세요. 학생이 그 과일을 본 적이 없더라도, 셰프의 반응 (예: "이건 레몬과 꿀이 섞인 맛이야") 을 지켜봄으로써 그 과일의 맛 프로필에 대해 배울 수 있습니다. 이를 **보이지 않는 지식 전이 (Unseen Knowledge Transfer, UKT)**라고 합니다.

2. "망각" 문제 (보이지 않는 지식의 상실)
여기에는 나쁜 소식이 있습니다. 학생이 교사 B(곤충) 에게서 배우기 위해 넘어가면, 교사 A 가 가르쳐 준 해양 동물에 대한 내용을 잊기 시작합니다.

논문의 발견: 학생이 해양 동물을 직접 본 적이 없기 때문에, 그 지식은 취약합니다. 새로운 정보가 들어오자마자 이전의 "유령" 지식은 사라집니다.
비유: 새로운 언어를 배우는 것과 같습니다. 책으로 프랑스어를 배웠지만 말하기 연습을 전혀 하지 않은 상태에서 바로 독일을 공부하기 시작하면, 단순히 읽기만 해서 "배운" 프랑스어 단어를 잊어버릴 수 있습니다. 이를 **보이지 않는 지식의 망각 (Unseen Knowledge Forgetting, UKF)**이라고 합니다.

해결책: "자기 - 외부 데이터 증류" (SE2D)

저자들은 표준 방법들이 교사의 답변을 암기하려 하지만, "유령 지식"을 안전하게 보관하지는 못한다는 사실을 깨달았습니다. 그들은 SE2D라는 새로운 트릭을 제안했습니다.

작동 원리:
학생이 교사와의 학습을 마칠 때마다 뇌의 "스냅샷"(체크포인트) 을 찍습니다.

일반적으로 다음 교사를 학습할 때, 학생은 모든 것을 가지고 연습합니다.
SE2D 의 반전: 학생이 "외부 데이터"(아무도 본 적 없는 무작위 사진) 로 연습할 때, 자신의 이전 스냅샷으로도 함께 연습합니다.
비유: 당신이 학생이라고 상상해 보세요. 새로운 독일어 수업을 시작하기 전에, 낯설고 이상한 과일을 보며 유독 옛 프랑스어 노트를 검토하는 순간을 가져보세요. "내 옛 노트를 바탕으로 이 과일을 어떻게 설명할까?"라고 스스로에게 물어보는 것입니다. 이는 독일어를 배우는 동안에도 프랑스어 지식을 살아있게 유지하도록 뇌를 강요합니다.

이렇게 함으로써 학생은 이전 교사들을 다시 볼 필요 없이 그들의 "유령 지식"을 안정화시킬 수 있습니다.

그들이 발견한 것 (결과)

올바른 종류의 "무작위"가 중요합니다: "외부 데이터"(무작위 사진) 는 교사들이 아는 것과 어느 정도 관련이 있어야 합니다.
- 교사들이 동물에 대해 알고 있고, 무작위 사진이 다른 동물이라면, 학생은 많이 배웁니다.
- 무작위 사진이 트럭(완전히 관련 없음) 이라면, 학생은 혼란을 겪고 더 많이 잊어버립니다.
트레이드오프: 균형이 필요합니다. 새로운 교사에게 너무 집중하면 이전 교사를 잊게 되고, 이전 교사에 너무 집중하면 새로운 것을 배우지 못합니다. SE2D 는 학생이 새로운 것을 배우면서도 옛 지식을 기억하는 "골디락스" 구역을 찾도록 도와줍니다.
효과 입증: 다양한 테스트 (다양한 종류의 고양이 나 숫자 인식 등) 에서 그들의 방법은 다른 표준 방법들보다 학생이 "사라진" 교사들에 대해 더 많이 기억하도록 도왔습니다.

결론

이 논문은 사용 후 사라지는 교사들의 연속된 흐름으로부터 AI 가 학습할 수 있는 새로운 방식을 제시합니다. 그들은 "무작위" 데이터를 사용하면 학생이 본 적 없는 것들을 배우는 데 도움이 된다는 것을 발견했지만, 동시에 학생이 그 것들을 빠르게 잊게 만든다는 점도 발견했습니다. 그들의 해결책인 SE2D는 더 이상 접근할 수 없는 교사들로부터의 귀중한 통찰력을 잃지 않도록, 그 무작위 데이터에서 과거 수업들을 검토하도록 학생을 강요하는 기억 운동과 같습니다.

중요한 참고 사항: 저자들은 이 "보이지 않는 지식 전이"가 양날의 검이라고 경고합니다. 무작위 데이터가 나쁘거나 편향되어 있다면, 학생은 이를 깨닫지 못한 채 교사로부터 나쁜 습관이나 편향을 실수로 배울 수 있습니다. 저자들은 이에 대한 더 많은 연구가 필요하다고 제안하지만, 아직 그 특정 위험을 해결했다고 주장하지는 않습니다.

Each language version is independently generated for its own context, not a direct translation.

기술 요약: 다양한 도메인의 교사 모델로부터의 지속적 증류

1. 문제 정의: 지속적 증류 (Continual Distillation, CD)

본 논문은 Foundation Models(FM) 의 급속한 진화와 저장 비용이 야기하는 과제를 해결하기 위해 고안된 새로운 패러다임인 **지속적 증류 (Continual Distillation, CD)**를 소개합니다. 일련의 데이터셋으로부터 모델을 학습시키는 데 중점을 두는 기존 지속적 학습 (Continual Learning, CL) 과는 달리, CD 는 단일 학생 모델이 교사 모델들의 스트림으로부터 순차적으로 학습하는 데 초점을 맞춥니다.

주요 제약 사항 및 과제:

순차적 접근: 학생 모델은 $T_1, T_2, \dots, T_N$ 순서대로 교사 모델 하나씩으로부터 학습합니다. 한 교사가 처리되면 더 이상 사용할 수 없게 되며, 해당 교사의 원래 학습 데이터에도 접근할 수 없습니다.
데이터 부재: 교사들의 원래 학습 데이터는 일반적으로 공개되지 않거나, 독점적이거나, 저장하기에 너무 방대합니다.
이질적 전문성: 교사들은 서로 다른 도메인 (예: 하나는 동물에 능숙하고, 다른 하나는 곤충에 능숙함) 에서 훈련되지만, 부분적으로 겹치는 도메인 (예: ImageNet) 을 공유합니다.
고정된 증류 데이터: 학생 모델은 시간의 흐름에 따라 변하지 않는 고정된 데이터셋 $D_S$ 에서 훈련됩니다.

저자들은 고정된 증류 데이터셋 $D_S$ 를 두 가지 범주로 분해합니다:

내부 데이터 (Internal Data, ID): 모든 교사에게 알려진 데이터 (공유 도메인, $D_i$ ).
외부 데이터 (External Data, ED): 어떤 교사에게도 알려지지 않은 데이터 ( $D_e$ ).

식별된 핵심 현상:

미시 지식 전이 (Unseen Knowledge Transfer, UKT): 학생이 훈련 중에 본 적이 없는 도메인에 대한 지식을 습득하는 현상입니다. 이는 오직 교사가 해당 지식을 보유하고 있고, 증류 과정에서 학생이 외부 데이터 (ED) 에 노출되기 때문에 발생합니다.
미시 지식 망각 (Unseen Knowledge Forgetting, UKF): 이전 교사들로부터 전이된, 본 적 없는 도메인에 대한 지식이 이후 교사들로부터 학습할 때 손실되는 현상입니다. 이는 기존 재앙적 망각 (catastrophic forgetting) 과는 다르며, 여기서 "망각된" 지식은 학생의 자체 학습 데이터의 일부였던 적이 없으며 증류를 통해 획득한 것이었습니다.

CD 의 핵심 과제는 새로운 미시 지식을 획득하는 UKT 와 이전에 획득한 미시 지식을 유지하는 UKF 사이의 균형을 최적화하는 것입니다.

2. 방법론: 자기 외부 데이터 증류 (Self External Data Distillation, SE2D)

UKF 를 완화하면서 UKT 의 이점을 유지하기 위해, 저자들은 **자기 외부 데이터 증류 (Self External Data Distillation, SE2D)**를 제안합니다.

메커니즘:
SE2D 는 CL 에서 흔히 사용되는 자기 증류 (self-distillation) 개념을 CD 의 특정 제약 조건에 맞게 적용합니다. 각 단계 $t$ 에서 학생 모델 $S_t$ 는 두 가지 손실 항을 사용하여 최적화됩니다:

교사 증류: 현재 교사 $T_t$ 로부터 학생 $S_t$ 로의 표준 지식 증류로, 전체 증류 데이터셋 $D_S$ (내부 데이터와 외부 데이터 모두) 에서 수행됩니다.
자기 증류: 학생의 이전 체크포인트 $S_{t-1}$ 로부터 현재 학생 $S_t$ 로의 증류로, 오직 외부 데이터 ( $D_e$ ) 에서만 수행됩니다.

손실 함수:
총 손실은 다음과 같이 정의됩니다:
$L_{SE2D} = L_{KD}(S_t, T_t; D_S) + L_{KD}(S_t, S_{t-1}; D_e)$

근거:

자기 증류를 $D_e$ 로 제한하는 것이 중요합니다. 이를 $D_i$ 에 적용하면 모든 교사 간에 이미 안정적인 지식을 단순히 강화하는 결과만 초래됩니다.
자기 증류에 $D_e$ 에 집중함으로써, 이 방법은 학생이 본 적 없는 도메인에 대해 이전 교사들로부터 전이된 "취약한" 지식을 특히 보존합니다.
이 접근법은 이전 교사나 그들의 학습 데이터에 접근할 필요 없이 이질적인 교사들 간의 학습을 안정화합니다.

3. 주요 기여

패러다임 도입: 본 논문은 지속적 증류를 정의하여, 이전 버전이 접근 불가능해지는 진화하는 Foundation Models 의 현실을 반영하며 데이터 중심 CL 에서 모델 중심 CL 로의 초점 전환을 이룹니다.
UKT 와 UKF 의 발견: 저자들은 외부 데이터 사용이 **미시 지식 전이 (Unseen Knowledge Transfer)**를 가능하게 하여, 학생이 훈련 데이터에 없는 도메인에 대해 학습할 수 있음을 입증합니다. 반면, 순차적 학습 과정에서 이러한 획득된 지식이 손실되는 **미시 지식 망각 (Unseen Knowledge Forgetting)**을 식별합니다.
제안된 솔루션 (SE2D): 외부 데이터에서의 로짓 (logits) 을 보존하여 UKF 를 완화하는 방법인 SE2D 를 도입합니다.
실증적 검증: CIFAR20, Digits, DomainNet 등 여러 벤치마크에 걸친 광범위한 실험을 통해, SE2D 가 표준 증류 베이스라인에 비해 UKF 를 줄이고 도메인 간 일반화를 향상시킨 것을 입증했습니다.

4. 실험 결과

저자들은 KL 발산, 로짓 표준화 (LS), 중간 난이도 샘플 (MDS), 분리된 지식 증류 (DKD), 그리고 표준 자기 증류를 포함한 베이스라인 대비 SE2D 를 평가했습니다.

주요 발견:

외부 데이터의 필요성: 내부 데이터만으로 훈련할 경우 학생 모델은 공유 도메인에서만 잘 수행됩니다. 미시 지식 전이 (UKT) 를 위해서는 외부 데이터 포함이 필수적이며, 이는 미시 도메인에서의 성능을 크게 향상시킵니다.
트레이드오프: 외부 데이터 (ED) 가 UKT 를 가능하게 하지만, 관리되지 않으면 UKF 를 악화시킬 수 있습니다. 표준 증류 방법들은 새로운 교사들이 도입됨에 따라 이전 미시 도메인에서 성능이 크게 저하되는 경향이 있습니다.
SE2D 성능:
- 관련 외부 데이터를 사용한 CIFAR20에서, SE2D 는 특정 작업 (예: Domain 1) 에서 베이스라인 대비 미시 도메인의 평균 정확도를 9% 이상 향상시켰습니다.
- SE2D 는 이전 도메인에서 표준 자기 증류보다 일관되게 우수한 성능을 보여주어, 전이된 지식의 더 나은 보존을 입증했습니다.
도메인 간격에 대한 민감성: ED 와 SE2D 의 효과는 외부 데이터와 교사 도메인 간의 의미적 유사성에 크게 의존합니다.
- 관련 ED: 의미적으로 유사한 데이터 (예: CIFAR20 에 대한 CUB 조류) 를 사용하면 상당한 향상을 가져옵니다.
- 무관한 ED: 매우 이질적인 데이터 (예: CIFAR20 에 대한 MNIST 숫자) 를 사용하면 성능이 저하될 수 있으며, 때로는 내부 데이터만 사용한 경우보다 정확도가 낮아지기도 합니다.
- 교사 품질: SE2D 는 외부 데이터에서 교사가 고품질의 감독을 제공하는 것에 의존합니다. 교사가 외부 도메인에서 성능이 낮을 경우 (품질 저하), SE2D 의 이점은 감소합니다.

5. 중요성과 주장

본 논문은 지속적 증류가 접근 불가능하고 진화하는 대규모 모델과 그 학습 데이터를 저장하거나 재접근하는 것이 실질적으로 불가능한 Foundation Models 시대에 있어 핵심적인 패러다임이라고 주장합니다.

지식 통제: 증류 데이터의 출처가 어떤 지식이 전이될지 통제하는 주요 레버임을 강조합니다. 저자들은 "미시" 지식 (UKT) 을 전이할 수 있는 능력은 양날의 검과 같다고 주장합니다. 즉, 일반화 기회를 제공하지만, 학생에게 알려지지 않은 편향이나 통제되지 않은 지식을 주입할 위험을 초래합니다.
제한 사항: 저자들은 SE2D 가 만능 해결책이 아님을 인정합니다. 그 성공은 외부 데이터와 교사 간의 도메인 간격이 관리 가능해야 하며, 교사가 외부 데이터에 능숙해야 한다는 조건에 달려 있습니다. 또한, 학습 세트를 모방하도록 생성된 데이터의 경우 교사의 도메인 외부의 데이터를 식별하는 것이 쉽지 않다고 지적합니다.
향후 방향: 본 논문은 UKT 가 의도치 않은 편향과 관련하여 기회와 위험을 모두 제시한다고 제안합니다. 향후 연구로는 대규모 모델 (언어 및 멀티모달) 과 통제되지 않은 지식 전이의 보안적 함의를 탐구하는 것이 제안됩니다.

요약하자면, 본 논문은 접근 불가능하고 진화하는 교사들이 존재하는 세계에서, 외부 데이터와 해당 데이터에 대한 자기 증류의 전략적 사용이 이질적인 교사들의 순서 전반에 걸쳐 지식을 유지하는 견고한 학생 모델을 구축하는 데 필수적임을 확립합니다.

Continual Distillation of Teachers from Different Domains