원저자: Ayushman Trivedi, Bhavika Melwani

게시일 2026-06-05✓ Author reviewed ⓘ

📖 4 분 읽기☕ 가벼운 읽기

원저자: Ayushman Trivedi, Bhavika Melwani

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

핵심 아이디어: 잃어버린 것이 아니라, 단지 잠겨 있을 뿐입니다

당신에게 수천 권의 책을 암기한 아주 똑똑한 사서(AI)가 있다고 상상해 보세요. 어느 날, 당신이 그녀에게 새로운 언어를 배우라고 요청합니다. 그녀가 이 새로운 언어를 공부하면서, 갑자기 원래 사용하던 언어를 말하는 법을 잊어버립니다. AI의 세계에서는 이를 **'파괴적 망각(Catastrophic Forgetting)'**이라고 부릅니다.

보통 과학자들은 AI가 '망각'할 때, 마치 하드 드라이브를 지우는 것처럼 정보가 뇌에서 실제로 삭제되었다고 가정합니다.

하지만 이 논문은 정보가 삭제된 것이 아니라고 주장합니다. 대신, AI는 여전히 그 지식을 가지고 있지만, 그것에 접근할 수 있는 열쇠를 잃어버린 것입니다. 저자들은 이를 **"접근성 붕괴(Accessibility Collapse)"**라고 부릅니다.

지식의 세 가지 단계

이를 증명하기 위해, 저자들은 AI의 뇌를 3층 건물처럼 세 가지 단계로 나누었습니다.

1단계: 저장소 (지하층): 가공되지 않은 데이터와 해답들은 지하층에 안전하게 잘 보관되어 있습니다. 만약 당신이 AI가 첫 번째 과제를 마친 바로 그 순간으로 되돌아간다면, 정답은 여전히 그곳에 있습니다.
2단계: 표현 (중간층): 첫 번째 과제에 대한 AI의 내부적인 "생각"이나 특징들은 여전히 온전합니다. 비록 AI가 더 이상 첫 번째 과제에 대한 질문에 답할 수는 없지만, 내부 노트를 들여다보면 정보는 여전히 명확하게 기록되어 있습니다.
3단계: 접근성 (정문): 이 부분이 고장 납니다. "정문"(최종 의사결정 레이어)이 꽉 막혀버리는 것입니다. AI는 내면에 답을 알고 있지만, 그것을 외부 세계로 꺼내놓지 못합니다.

실험: "클린 슬레이트(Clean Slate)" 테스트

연구진은 이를 증명하기 위해 엄격한 테스트를 설정했습니다. 그들은 표준 AI 모델(ResNet-18)을 사용하여 10가지 서로 다른 과제를 차례대로 학습시켰습니다.

속임수 없음: AI의 기억을 돕기 위한 어떤 특별한 방법도 사용하지 않았습니다.
되돌아보기 없음: AI가 예전 데이터를 다시 읽게 하지도 않았습니다.
결과: 10번째 과제를 배운 후, AI의 첫 번째 과제 점수는 **0%**로 떨어졌습니다. 마치 완전한 실패처럼 보였습니다.

"마법의 기술": 문을 여는 방법

여기서 이 논문은 흥ًا 흥미로워집니다. 연구진은 간단한 해결책을 시도했습니다.

그들은 "고장 난" AI(점수가 0%인 AI)를 가져왔습니다.
그들의 뇌(깊은 층들)가 변하지 않도록 고정(freeze)했습니다.
그리고 오직 "정문"(최종 분류기)만을 새것으로 교체했습니다.
이 새로운 문이 예전 데이터를 사용하여 열리는 법을 가르쳤습니다.

결과: AI는 갑자기 원래 과제의 **75.7%**를 기억해 냈습니다!

비유: 당신이 혼란스러운 새 모델을 운전하는 법을 배우느라 예전 차를 운전하는 법을 잊었다고 상상해 보세요. 이 논문은 만약 예전 차의 핸들과 페달(즉, "정문")을 교체한다면, 다시 완벽하게 운전할 수 있다는 것을 보여줍니다. 엔진과 차체(깊은 층들)는 내내 멀쩡했습니다. 단지 잘못된 컨트롤 장치가 연결되어 있었을 뿐입니다.

어디에서 손상이 발생했는가?

저자들은 어디에서 망각이 일어나는지 확인하기 위해 AI를 층별로 조사했습니다.

초기 레이어 (기초): 이 층들은 새로운 것을 배운 후에도 오히려 예전 과제를 기억하는 능력이 더 좋아졌습니다. 이들은 나무의 뿌리와 같아서, 여전히 튼튼했고 심지어 더 강해졌습니다.
후기 레이어 (상단): 손상은 거의 전적으로 가장 윗부분, 즉 결정을 내리는 마지막 레이어에 집중되어 있었습니다.

마치 나무의 뿌리는 건강하지만, 꼭대기 가지가 부러진 것과 같습니다. 열매(지식)는 아래쪽 가지들에 여전히 달려 있지만, 꼭데기가 부러져서 손이 닿지 않는 상태인 것입니다.

"접근성 격차 (Accessibility Gap)"

저자들은 이 문제를 측정하기 위한 새로운 방법인 **'접근성 격차(Accessibility Gap)'**를 만들었습니다.

격차: AI가 알고 있는 것(높음)과 AI가 말하는 것(0) 사이의 차이입니다.
발견: 거대한 격차는 AI가 멍청한 것이 아니라, 단지 자신의 지식으로부터 차단되었음을 의미합니다.

무엇이 효과가 없었나?

연구진은 또한 "기하학적" 해결책도 시도했습니다. 그들은 "만약 우리가 AI의 뇌를 예전 상태 쪽으로 살짝 밀어 넣기만 해도, 다시 기억해 내지 않을까?"라고 생각했습니다. 그들은 AI의 내부 설정을 예전 설정 쪽으로 되돌리려 노력했습니다.

결과: 효과가 없었습니다. 이 논문은 이러한 "부정적 결과"에 대해서도 솔직하게 밝히고 있습니다. 단순히 뇌를 다시 밀어 넣는 것으로는 안 되며, 대신 "문"(출력 레이어)을 고쳐야 한다는 것을 보여줍니다.

결론

이 논문은 AI의 망각에 대한 우리의 생각을 바꿉니다.

기존 관점: "AI가 모든 것을 잊었다. 우리는 AI의 뇌가 변하는 것을 막아야 한다."
새로운 관점: "AI는 잊은 것이 아니라, 정보를 불러오는 방법을 잃어버린 것이다. 우리는 AI가 새로운 것을 배우는 것을 막을 필요가 없다. 대신, 이미 가지고 있는 예전 지식에 접근할 수 있도록 더 나은 '열쇠'나 '문'을 만들어야 한다."

저자들은 미래에 우리가 뇌의 변화를 방지하려 하기보다, 접근 지점을 수리하는 데 집중해야 한다고 제안합니다.

기술 요약: 접근성 붕괴로서의 파괴적 망각 (Catastrophic Forgetting as Accessibility Collapse)

문제 정의

본 논문은 딥 뉴럴 네트워크에서 발생하는 파괴적 망각(catastrophic forgetting) 현상을 다룹니다. 이는 새로운 작업을 순차적으로 학습함에 따라 이전에 학습된 작업에 대한 성능이 급격히 무너지는 현상입니다. 해당 분야의 지배적인 가정은 이러한 붕괴가 학습된 지식 표현(knowledge representations)의 돌이킬 수 없는 파괴 또는 삭제를 의미한다는 것입니다. 저자들은 이러한 해석에 이의를 제기하며, 관찰된 정확도 붕괴가 기저의 지식 자체의 상실이 아니라, 그 지식에 **접근(accessing)**하는 방식의 실패일 수 있다고 제안합니다. 핵심 연구 질문은 파괴적 망각이 네트워크가 지식 자체를 잃어버린 것을 의미하는지, 아니면 단지 현재의 결정 경로(decision pathway)를 통해 그 지식을 활용하는 능력을 상실한 것인지에 관한 것입니다.

방법론

저자들은 지속 학습(continual learning, CL) 완화 전략의 간섭 없이 지식 지속성을 분석하기 위한 깨끗한 벤치마크를 구축하고자 "순수 망각(pure forgetting)" 실험 설정을 채택했습니다.

데이터셋 및 프로토콜: 실험에는 10개의 클래스씩 10개의 순차적 작업으로 분할된 Split CIFAR-100을 사용합니다.
아키텍처: 무작위 초기화 상태에서 학습된 ResNet-18 모델을 사용합니다.
학습 조건: 모델은 표준 크로스 엔트로피 손실(cross-entropy loss)과 SGD를 사용하여 순차적으로 학습됩니다. 결정적으로, 리플레이(replay), 정규화(regularization), 또는 CL 방법이 전혀 적용되지 않습니다. 이는 지식의 보유가 외부적 제약에 의해 강제되는 것이 아니라 네트워크의 역동성에 내재되어 있음을 보장하기 위함입니다.
평가 프레임워크: 저자들은 다음을 구분하기 위해 3단계 프레임워크를 도입합니다:
1. 지식 저장(Knowledge Storage): 저장된 체크포인트의 유효성.
2. 지식 표현(Knowledge Representation): 동결된 중간 특징(frozen intermediate features)에 인코딩된 정보.
3. 지식 접근성(Knowledge Accessibility): 기능적 출력 정확도.
진단 지표:
- 접근성 격차(Accessibility Gap, AG): $AG = LP_{final} - ACC_{final}$ 로 정의되며, 선형 프로브 정확도(표현적 지식)와 작업 정확도(기능적 성능) 사이의 불일치를 정량화합니다.
- 투영 에너지(Projection Energy, PE): 원래 작업 부공간(subspace) 내에 남아 있는 최종 표현 에너지의 비율을 측정하는 기하학적 지표입니다.
- 주각 분석(Principal Angle Analysis): 체크포인트와 최종 모델 부공간 사이의 기하학적 드리프트(drift)를 측정하는 데 사용됩니다.
주요 실험:
- 선형 프로빙(Linear Probing): 다양한 층의 동결된 특징 위에서 선형 분류기를 학습시켜 보유된 정보를 측정합니다.
- 분류기 리셋(Classifier Reset): "망각된" 모델의 백본을 동결하고 원래 작업 데이터에 대해 새로운 선형 헤드를 학습시켜 회복 가능성을 테스트합니다.
- 층별 분석(Layer-wise Analysis): 각 잔차 블록(Layers 1–4)에서의 보유 및 회복 가능성을 조사합니다.
- 파라미터 공간 회복(Parameter-Space Recovery): 가중치를 저장된 체크포인트 쪽으로 이동시키는 것이 정확도를 복구할 수 있는지 테스트합니다.

주요 결과

1. 완전한 정확도 붕괴 vs. 표현의 보유

10개의 작업에 대한 순차적 학습 후, 작업 0의 출력 정확도는 0.000으로 완전히 붕괴되었습니다. 그러나 네트워크의 내부 상태는 상당한 정보를 보유하고 있습니다:

선형 프로브 보유량: 최종 모델의 Layer 4 특징에 대해 학습된 선형 프로브는 0.468의 정확도를 달랐으며, 이는 체크포인트 수준의 프로브 정확도(0.616)의 **76%**에 해당합니다.
접근성 격차: 작업 0에 대한 AG는 0.468이며, 이는 기능적 성능과 내부 표현 품질 사이의 거대한 괴리를 보여줍니다.

2. 층별 비대칭성

망각은 네트워크 전체에 걸쳐 균일하게 일어나지 않습니다:

초기 층 (1 & 2): 이 층들은 각각 원래 프로브 정확도의 **103% 및 104%**를 유지합니다. 어떤 경우에는 후속 작업 학습이 저수준 특징을 정교화하여 이전 작업에 대한 변별력을 향상시키는 것처럼 보이기도 합니다.
후기 층 (4 & Classifier): 퇴화는 거의 전적으로 Layer 4(76% 보유)와 최종 분류기 층(0% 보유)에 집중되어 있습니다.

3. 분류기 리셋을 통한 회복 가능성

"망각된" 모델의 백본을 동결하고 작업 0 데이터에 대해 새로운 선형 헤드를 학습시켰을 때:

모델은 0.415의 정확도를 회복합니다.
이는 원래 작업 0 성능(0.548)의 **75.7%**를 나타내며, 백본을 수정하지 않고도 대부분의 작업 관련 정보가 인코딩되어 있고 회복 가능하다는 것을 증명합니다.
층별 회복 가능성 계층: 회복 가능한 정확도는 Layer 1(원래의 122%)에서 Layer 4(85%), 그리고 전체 백본 리셋(75.7%)에 이르기까지 단조 감소하며, 이는 정보 손실이 표현이 앞으로 전파됨에 따라 누적됨을 나타냅니다.

4. 기하학적 발견

분산 인코딩(Distributed Encoding): 투영 에너지 분석 결과, 보유된 정보는 소수의 지배적인 주성분 방향에 집중되어 있지 않습니다. 대신, 고차원 부공간에 걸쳐 분산되어 있습니다.
부공간 회전(Subspace Rotation): 주각 분석은 체크포인트와 최종 모델 부공간 사이의 평균 각도가 79°(직교에 가까움)임을 보여줍니다. 이러한 심각한 기하학적 회전에도 불구하고 선형 프로브 보유량이 높게 유지된다는 것은, 표현의 보존이 저계수(low-rank) 부공간 중첩으로는 포착되지 않는 고차원적 현상임을 시사합니다.
부정적 결과: 파라미터 공간 기하학적 회복(가중치를 저장된 체크포인트 쪽으로 이동)은 본 실험 조건 하에서 효과가 없음이 밝혀졌습니다.

의의 및 주장

본 논문은 파괴적 망각을 구조적인 표현의 파괴가 아니라, 최종 판독층(final readout layer)에 집중된 기능적 접근성의 국소적 붕괴로 재정의하는 **접근성 붕괴 가설(Accessibility Collapse Hypothesis)**을 제안합니다.

패러다임 전환: 저자들은 이 분야가 예방 중심(prevention-oriented) 패러다임(매개변수를 보존하기 위해 업데이트를 제한하는 방식)에서 복구 중심(repair-oriented) 패러다임으로 전환해야 한다고 주장합니다. 표현은 자연스럽게 분산된 고차원 형태로 지속되므로, 개입은 경직된 정규화보다는 적응형, 문맥 의존적 판독 메커니즘이나 경량화된 작업별 라우팅 헤드에 집중해야 합니다.
진단적 유용성: **접근성 격차(Accessibility Gap)**와 **투영 에너지(Projection Energy)**의 도입은 표현의 삭제와 접근성 실패를 구분할 수 있는 공식적인 도구를 제공하여, 지식 지속성에 대한 더 미묘한 관점을 제시합니다.
경험적 토대: 단순히 선형 헤드를 재학습하는 것만으로 작업 성능의 75.7%를 회복할 수 있음을 입증함으로써, 본 연구는 지속 학습을 위한 어떠한 안전장치 없이도 순차적 학습 후에 상당한 작업 관련 정보가 생존해 있음을 확립했습니다.

결론적으로, 이 논문은 파괴적 망각이 표현 자체의 상실이라기보다, 네트워크의 내부 표현과 출력 경로 사이의 정렬 실패(alignment failure)라고 결론짓습니다.

Catastrophic Forgetting as Accessibility Collapse: A Three-Level Framework for Knowledge Persistence in Continual Learning