Why Do Neural Networks Forget: A Study of Collapse in Continual Learning

Each language version is independently generated for its own context, not a direct translation.

🧠 핵심 주제: "AI 가 잊어버리는 진짜 이유: '뇌'가 꽉 차서"

우리가 보통 AI 가 새로운 것을 배울 때 예전 것을 잊는 이유는 "새로운 정보가 덮어쓰기 때문"이라고 생각하기 쉽습니다. 하지만 이 논문은 **"그게 아니라, AI 의 뇌 (모델) 자체가 너무 좁아져서 새로운 공간을 만들 수 없게 되었기 때문"**이라고 주장합니다.

이를 **'구조적 붕괴 (Collapse)'**라고 부릅니다.

🏗️ 비유 1: AI 의 뇌는 '다목적 창고'입니다

AI 의 내부 구조를 거대한 창고라고 상상해 보세요.

고유한 차원 (eRank): 이 창고에는 물건을 쌓아둘 수 있는 독특한 선반과 공간이 있습니다. 이 공간이 많을수록 (고유한 차원이 높을수록) 다양한 물건 (새로운 지식) 을 깔끔하게 정리할 수 있습니다.
붕괴 (Collapse): 새로운 물건을 계속 쌓다 보면, AI 는 기존 물건을 치우기 위해 선반을 접거나, 여러 물건을 한 선반에 억지로 끼워 넣습니다. 결과적으로 창고의 유효 공간이 줄어들고 (차원 축소), 더 이상 새로운 물건을 넣을 곳이 없어집니다.

이 논문은 **"AI 가 잊어버리는 건, 새로운 것을 배우려다 기존 것을 지운 게 아니라, 창고 공간이 줄어들어 더 이상 새로운 것을 받아들일 능력 (가소성) 을 잃어버렸기 때문"**이라고 말합니다.

🔍 연구 방법: 네 가지 '학습자'와 세 가지 '학습법'

연구진은 네 가지 다른 뇌 구조 (아키텍처) 를 가지고 실험했습니다.

MLP (기본 학습자): 가장 단순한 뇌입니다. 공간이 좁고 쉽게 붕괴됩니다.
ConvGRU & Bi-ConvGRU (기억력 있는 학습자): 과거 정보를 잠시 기억하는 '게이트'가 있는 뇌입니다. 하지만 이 게이트가 정보를 너무 많이 압축해서 오히려 공간이 부족해질 수 있습니다.
ResNet-18 (전문가 학습자): 깊은 층과 '건너뛰기 (Skip connection)' 구조가 있어 초기에는 잘 버티지만, 결국에는 공간이 좁아집니다.

이들에게 세 가지 학습 전략을 적용해 보았습니다.

SGD (방치형): 그냥 새로운 것만 배우고 예전 것은 내팽개칩니다. (가장 망각이 심함)
LwF (출력 통제형): "예전에 하던 답을 똑같이 내놓으라"고 강요합니다. (정답은 비슷하게 나오지만, 내부 공간은 좁아짐)
ER (리플레이형 - 경험 재생): 가장 중요한 전략입니다. 새로운 것을 배울 때, 과거의 중요한 물건 (데이터) 을 꺼내서 함께 정리합니다.

📊 실험 결과: 무엇이 가장 효과적일까?

연구진은 AI 의 '창고 공간'을 측정하는 지표인 **eRank(유효 순위)**를 쫓아갔습니다. eRank 가 떨어지면 창고가 좁아진다는 뜻입니다.

1. 방치형 (SGD) 의 비극

상황: 새로운 물건만 계속 쌓아둡니다.
결과: 창고 공간 (eRank) 이 급격히 줄어들고, 예전 물건들은 다 망가집니다. 완전한 붕괴.

2. 출력 통제형 (LwF) 의 한계

상황: "예전 답은 그대로 내놔!"라고 강요합니다.
결과: 겉보기엔 예전 답을 잘 내지만, 내부 창고는 여전히 좁아집니다. (eRank 감소)
비유: 책상 위에 예전 책들을 그대로 두라고 해서 겉모습은 유지되지만, 책장 속의 책들은 다 구겨져서 새로운 책을 넣을 공간이 없습니다. 결국 장기적으로는 새로운 것을 배우기 힘들어집니다.

3. 경험 재생 (ER) 의 승리

상황: 새로운 것을 배울 때, 과거의 중요한 물건 (데이터) 을 꺼내 함께 정리합니다.
결과: 창고 공간 (eRank) 이 유지되거나 오히려 넓어집니다.
비유: 새로운 물건을 넣을 때, 예전 물건들을 다시 정리해서 공간을 확보합니다. 그래서 예전 것도 잊지 않고, 새로운 것도 잘 받아들일 수 있습니다.

💡 결론: AI 가 잊지 않으려면?

이 논문의 핵심 메시지는 다음과 같습니다.

"AI 가 잊어버리는 건, 단순히 기억을 지우는 게 아니라 '학습할 능력'을 잃어버리는 것입니다."

기억만 지키는 것 (LwF) 은 부족합니다. 겉모습만 유지할 뿐, 내부 공간이 좁아지면 결국 망각이 옵니다.
과거를 함께 학습하는 것 (ER) 이 정답입니다. 새로운 것을 배울 때 과거의 경험을 함께 섞어주면, AI 의 '창고 공간'이 넓게 유지되어 평생 학습 (Continual Learning) 이 가능해집니다.

한 줄 요약:

"AI 가 새로운 것을 배울 때, 과거의 경험을 함께 꺼내 정리해주지 않으면, AI 의 뇌는 공간이 좁아져서 더 이상 새로운 것을 받아들일 능력을 잃어버리게 됩니다. **과거와 현재를 함께 배우는 것 (Experience Replay)**이 AI 가 잊지 않고 성장하는 유일한 길입니다."

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

지속적 학습 (Continual Learning, CL) 과 catastrophic forgetting: 지속적 학습은 모델이 순차적으로 새로운 작업을 학습하면서 이전 작업의 지식을 유지해야 하는 패러다임입니다. 그러나 새로운 작업을 학습할 때 기존 작업의 내부 표현 (internal representations) 이 덮어쓰여 성능이 급격히 떨어지는 catastrophic forgetting (대량 망각) 문제가 발생합니다.
기존 연구의 한계: 대부분의 기존 연구는 작업별 정확도 (task accuracy) 와 같은 성능 지표만을 통해 망각을 평가했습니다. 이는 모델의 내부 구조적 변화를 간과합니다.
핵심 가설: 최근 연구에 따르면, 망각은 단순한 분류기 드리프트 (classifier drift) 나 기울기 충돌이 아니라, 표현 공간의 구조적 붕괴 (structural/representational collapse) 에 기인합니다. 네트워크가 새로운 작업을 학습할 수 있는 유연성 (plasticity) 을 잃고, 특징 공간이 저차원 부분 공간으로 축소되면서 기존 표현을 덮어쓰게 됩니다.
연구 목표: 망각과 구조적 붕괴 사이의 상관관계를 규명하기 위해, 유효 랭크 (Effective Rank, eRank) 를 사용하여 가중치 (weights) 와 활성화 (activations) 의 복잡성 변화를 정량적으로 측정하고 분석하는 것입니다.

2. 방법론 (Methodology)

2.1 실험 설정

데이터셋:
- Split MNIST (Task-IL): 10 개의 숫자를 5 개의 이진 분류 작업으로 나눈 데이터셋. (MLP, ConvGRU 모델 평가)
- Split CIFAR-100 (Class-IL): 100 개의 클래스를 20 개의 작업으로 나누며, 모든 작업에 하나의 공유 출력 헤드를 사용하는 데이터셋. (ResNet-18, Bi-ConvGRU 모델 평가)
아키텍처 (4 가지):
1. MLP: 최소한의 베이스라인. 구조적 보호가 없어 붕괴에 취약함.
2. ConvGRU: 시계열 구조와 게이트 메커니즘을 가진 합성곱 순환 신경망.
3. ResNet-18: 잔여 연결 (skip connections) 을 가진 심층 합성곱 신경망.
4. Bi-ConvGRU: 양방향 순환 구조를 가진 ConvGRU.
학습 전략 (3 가지):
1. SGD (Vanilla): 망각 방지 전략이 없는 기본 학습.
2. LwF (Learning without Forgetting): 기능적 정규화 (Functional Regularization). 이전 작업의 출력 행동을 유지하도록 지식 증류 (distillation) 를 사용.
3. ER (Experience Replay): 과거 작업의 데이터 샘플을 버퍼에 저장하여 재학습 (Replay) 하는 방식.

2.2 측정 지표: 유효 랭크 (eRank)

정의: 행렬의 특이값 (singular values) 분포의 엔트로피를 기반으로 계산되는 지표로, 행렬의 유효 차원성 (effective dimensionality) 을 측정합니다.
해석:
- 높은 eRank: 정보가 다양한 방향으로 분산되어 있음 (풍부한 표현, 높은 유연성).
- 낮은 eRank: 정보가 소수의 방향으로 압축됨 (표현 공간의 붕괴, 유연성 상실).
측정 대상:
1. Weight eRank: 각 레이어의 가중치 행렬의 복잡도 측정 (구조적 붕괴 감지).
2. Activation eRank: 은닉층의 활성화 벡터의 다양성 측정 (표현적 붕괴 감지).
정규화: 아키텍처 간 비교를 위해 피크 정규화 (Peak-normalized, $eRank_{pct}$ ) 를 사용하여 과거 최고 eRank 대비 현재 유지율을 계산했습니다.

3. 주요 결과 (Key Results)

3.1 망각과 붕괴의 강한 상관관계

SGD (기본 학습): 모든 아키텍처에서 작업이 누적됨에 따라 활성화 eRank 와 가중치 eRank 가 급격히 감소했습니다. 이는 표현 공간이 저차원으로 붕괴했음을 의미하며, 정확도 하락과 망각 증가와 완벽하게 일치했습니다.
결론: 신경망이 새로운 작업을 학습할 공간 (차원) 을 잃어버리면 (eRank 감소), 기존 지식을 덮어쓰게 되어 망각이 발생합니다.

3.2 아키텍처별 붕괴 양상

MLP: 구조적 보호가 없어 가장 빠르게 eRank 가 붕괴하고 망각이 심했습니다.
ResNet-18: 초기에는 잔여 연결 (skip connections) 로 인해 eRank 가 잘 유지되지만, 작업이 누적되면 갑자기 영구적으로 붕괴했습니다. 이는 잔여 연결이 초기 학습은 돕지만 장기적인 유연성 유지에는 한계가 있음을 보여줍니다.
ConvGRU / Bi-ConvGRU: 순환 게이트 (recurrent gating) 가 기울기 간섭을 줄여 초기 붕괴를 지연시켰습니다. 그러나 게이트 메커니즘 자체가 표현을 압축하는 성향이 있어, 초기부터 eRank 가 낮게 시작하거나 제한된 표현력을 보였습니다. 즉, 안정성을 위해 표현의 풍부함 (richness) 을 희생하는 트레이드오프가 존재했습니다.

3.3 학습 전략의 효과 비교

Experience Replay (ER): 가장 효과적인 전략이었습니다.
- 과거 데이터를 재학습함으로써 모델이 새로운 작업과 기존 작업 모두를 구별할 수 있는 풍부한 특징 하위 공간 (feature subspace) 을 유지하게 했습니다.
- 가중치와 활성화 eRank 모두를 높은 수준으로 유지하며 구조적 붕괴를 현저히 늦췄습니다.
Learning without Forgetting (LwF): 부분적인 성공만 거두었습니다.
- 출력 행동 (functional behavior) 은 안정화시켜 망각을 일부 줄였으나, 내부 가중치 행렬의 구조적 붕괴는 막지 못했습니다.
- 활성화 eRank 는 안정적이었으나, 가중치 eRank 는 계속 감소하여 장기적인 학습 능력 (plasticity) 이 저하됨을 보였습니다. 즉, "출력은 유지되지만 내부 표현 공간은 좁아지는" 현상이 발생했습니다.

4. 주요 기여 (Key Contributions)

망각의 기하학적 원인 규명: catastrophic forgetting 이 단순한 성능 저하가 아니라, 표현 공간의 구조적 붕괴 (structural collapse) 로 인한 기하학적 실패임을 eRank 측정을 통해 증명했습니다.
다양한 관점의 측정: 기존 연구가 주로 기울기나 파라미터 중요도에 집중했던 것과 달리, 가중치 (Weight) 와 활성화 (Activation) 의 eRank 를 동시에 측정하여 모델의 구조적 복잡성과 표현적 풍부함을 종합적으로 분석했습니다.
아키텍처별 붕괴 메커니즘 분석: MLP, ResNet, 순환 신경망 (RNN) 등 다양한 아키텍처가 망각에 직면했을 때 붕괴를 겪는 방식 (초기 압축 vs 후기 급격한 붕괴) 이 다르다는 것을 밝혔습니다.
전략의 한계와 효과 명확화: ER 이 구조적 유연성을 유지하는 데 필수적임을 증명하고, LwF 가 내부 표현 공간의 손실을 막지 못해 장기 학습에는 한계가 있음을 보였습니다.

5. 의의 및 결론 (Significance)

이 논문은 지속적 학습 분야에서 망각 (forgetting) 을 해결하기 위해서는 단순히 출력의 안정성 (output stability) 을 유지하는 것만으로는 부족하며, 모델의 내부 표현 공간 (representation space) 과 구조적 유연성 (plasticity) 을 보존해야 한다는 중요한 통찰을 제공합니다.

실용적 시사점: 경험 재생 (Experience Replay) 과 같은 데이터 기반 접근법이 구조적 붕괴를 방지하는 데 가장 효과적임을 재확인했습니다.
이론적 기여: eRank 와 같은 구조적 지표를 통해 모델의 "건강 상태 (long-term health)"를 모니터링할 수 있는 새로운 프레임워크를 제시했습니다.
미래 방향: 트랜스포머 (Transformer) 나 모듈형 네트워크와 같은 최신 아키텍처에서의 붕괴 동역학 연구, 그리고 자기지도 학습 (self-supervised learning) 환경에서의 적용 가능성 등을 향후 연구 과제로 제시했습니다.

요약하자면, 이 연구는 **"신경망이 망각하는 이유는 새로운 것을 학습할 공간 (차원) 을 잃어버리기 때문이며, 이를 방지하려면 모델의 구조적 복잡성 (eRank) 을 유지시켜야 한다"**는 명제를 데이터와 실험을 통해 강력하게 뒷받침했습니다.