Erase at the Core: Representation Unlearning for Machine Unlearning

이 논문은 기존 기계적 망각 방법들이 내부 특징 표현을 남기는 '피상적 망각' 문제를 해결하기 위해, 네트워크의 모든 계층에서 대비 학습과 심층 감독 학습을 결합하여 원본 모델의 표현적 유사성을 효과적으로 제거하는 'Erase at the Core (EC)' 프레임워크를 제안합니다.

Jaewon Lee, Yongwoo Kim, Donghyun Kim

게시일 2026-03-02
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧠 1. 문제: "표면적인 망각" (Superficial Forgetting)

지금까지의 기계 학습 기술들은 "잊어달라"는 요청을 받으면, **정답을 말해주는 마지막 단계 (입구)**만 바꿨습니다.

  • 비유: Imagine you have a student who studied hard for a history exam. You ask them to "forget" everything about Napoleon.
    • 기존 방법: 학생이 시험지 마지막에 적는 '정답'만 Napoleon 관련 지식을 지우고, "모르겠습니다"라고 적게 합니다. 하지만 학생의 머릿속 (중간 단계) 에는 Napoleon 에 대한 모든 지식, 그림, 연대기 등이 여전히 선명하게 남아 있습니다.
    • 결과: 시험지 (최종 출력) 에는 Napoleon 이 없지만, 나중에 다른 사람이 "Napoleon 은 누구였지?"라고 물어보면 학생은 그 정보를 다시 꺼내 답할 수 있습니다. 혹은, 머릿속에 남은 정보를 이용해 Napoleon 에 대한 새로운 그림을 그릴 수도 있습니다.
    • 논문이 말하려는 것: "이건 진짜 잊은 게 아니야! 머릿속 (중간 특징) 에는 여전히 정보가 남아있어. 우리는 이를 **'표면적인 망각 (Superficial Forgetting)'**이라고 부릅니다."

🔨 2. 해결책: "핵심에서 지우기" (Erase at the Core, EC)

저자들은 이 문제를 해결하기 위해 **EC(Erase at the Core)**라는 새로운 방법을 제안했습니다.

  • 비유: 학생의 머릿속을 여러 층으로 된 도서관이라고 상상해 보세요.
    • 1 층: 단순한 단어와 이미지 (낮은 수준의 특징).
    • 3 층: 사물과 사람의 관계 (중간 수준의 특징).
    • 5 층 (최상층): 복잡한 개념과 분류 (고차원적인 특징).
    • 기존 방법: 도서관의 '출구' (5 층의 책장) 에만 자물쇠를 채우고, "Napoleon 책은 꺼내지 마세요"라고만 했습니다. 하지만 1~4 층의 책장에는 Napoleon 관련 책들이 그대로 쌓여 있습니다.
    • EC 의 방법: 도서관의 **모든 층 (1 층부터 5 층까지)**을 동시에 점검합니다.
      1. Napoleon 관련 책 (잊어야 할 데이터): 모든 층에서 이 책들을 찾아내서, 다른 책들 (남아 있어야 할 데이터) 과 섞어버리거나, Napoleon 이 아닌 다른 책들 사이로 밀어 넣습니다. (이걸 '대조적 학습'이라고 합니다.)
      2. 다른 책들 (남아 있어야 할 데이터): Napoleon 책이 사라져도, 도서관 전체가 무너지지 않도록 다른 책들은 여전히 잘 정리되게 도와줍니다.

이렇게 하면, Napoleon 에 대한 정보가 머릿속의 어느 층에도 남지 않게 되어, 진짜로 잊은 것과 같은 상태가 됩니다.

🛠 3. 어떻게 작동할까요? (기술적 원리)

논문의 핵심 기술은 **'깊은 감시 (Deep Supervision)'**와 **'대조적 학습 (Contrastive Learning)'**을 결합한 것입니다.

  • 여러 층에 감시 카메라 설치: 기존에는 모델의 마지막 부분만 감시했는데, EC 는 모델의 중간중간 (1 층, 2 층, 3 층...) 에도 '감시 카메라 (보조 모듈)'를 설치합니다.
  • 이중 작전:
    1. 잊기 작전: 잊어야 할 데이터 (Napoleon) 가 각 층을 지날 때마다, 그 층의 특징이 다른 데이터 (다른 역사 인물) 와 섞이도록 강제로 밀어냅니다.
    2. 보존 작전: 남아 있어야 할 데이터는 각 층에서 여전히 잘 분류되도록 도와줍니다.
  • 무게 조절: 모델의 깊은 층일수록 (고급 개념) 더 중요하므로, 깊은 층일수록 잊기 작전의 힘을 더 강하게 줍니다.

🏆 4. 왜 이것이 중요한가요?

이 연구는 다음과 같은 큰 의미를 가집니다.

  1. 진짜 잊음 (True Unlearning): 단순히 정답을 못 맞추는 게 아니라, 머릿속의 정보 구조 자체를 바꿔서 재학습 없이도 정보를 완전히 지웁니다.
  2. 보안 강화: 해커가 "기억해!"라고 속여도 (선형 프로빙 공격), 머릿속에 Napoleon 정보가 없으므로 다시 복구할 수 없습니다.
  3. 범용성 (Plug-in): 이 방법은 어떤 모델 (ResNet, Swin 등) 이든, 어떤 기존 방법 (DUCK, COLA 등) 에도 추가 모듈처럼 끼워 넣을 수 있습니다. 기존 방법의 성능을 훨씬 더 강력하게 만들어줍니다.

💡 요약

이 논문은 **"기계가 잊으려면, 입구만 막으면 안 되고, 머릿속의 모든 기억을 섞어서 지워야 한다"**고 말합니다.

마치 **쓰레기를 버릴 때, 쓰레기통 뚜껑만 닫는 게 아니라 (기존 방법), 쓰레기통 안의 모든 쓰레기를 분해해서 없애는 것 (EC)**과 같습니다. 이렇게 해야만 GDPR 같은 개인정보 보호 법규를 진정으로 준수할 수 있고, 기계가 정말로 '잊은' 상태가 될 수 있습니다.