Suppression or Deletion: A Restoration-Based Representation-Level Analysis of Machine Unlearning

이 논문은 기존 출력 기반 평가의 한계를 지적하며 희소 오토인코더를 활용한 복원 기반 분석을 통해 대부분의 머신 언러닝 기법이 정보가 삭제된 것이 아니라 중간 표현 수준에서 억제될 뿐임을 규명하고, 표현 수준 검증을 우선시하는 새로운 평가 기준의 필요성을 강조합니다.

Yurim Jang, Jaeung Lee, Dohyun Kim, Jaemin Jo, Simon S. Woo

게시일 2026-02-24
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"기계가 기억을 지웠다고 말하지만, 실제로는 그냥 '가려둔' 것일 뿐일 수 있다"**는 놀라운 사실을 밝혀낸 연구입니다.

기존의 '기계 망각 (Machine Unlearning)' 기술은 사용자가 "내 사진을 모델에서 지워달라"고 요청했을 때, 그 정보가 완전히 사라졌는지 확인하는 데는 한계가 있었습니다. 이 논문은 **"진짜 지웠는지, 아니면 그냥 입만 막은 건지"**를 확인하는 새로운 방법을 제시합니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 핵심 문제: "지우개"가 아니라 "커튼"인가?

우리가 학교에서 시험을 볼 때, 특정 문제를 못 풀게 하려고 답지를 찢어버린다고 가정해 봅시다.

  • 진짜 삭제 (Deletion): 문제 자체를 지우개나 가위로 싹 잘라내서, 다시는 그 문제를 풀 수 없게 만드는 것.
  • 단순 은폐 (Suppression): 문제와 답은 그대로 있는데, 커튼을 쳐서 답이 보이지 않게 막아놓는 것.

기존의 평가 방식은 "커튼을 치고 나서 답이 안 보이니, 문제를 지웠다고!"라고 결론 내렸습니다. 하지만 이 논문의 연구자들은 **"아니야, 커튼을 치기만 했지, 문제는 여전히 책장에 꽂혀 있어. 커튼을 걷어내면 다시 풀 수 있어!"**라고 지적합니다.

2. 새로운 탐정 도구: "SAE(스파스 오토인코더)"와 "스팀러"

연구자들은 이 '숨겨진 기억'을 찾아내기 위해 특별한 탐정 도구들을 사용했습니다.

  • SAE (스파스 오토인코더): AI 의 뇌 속 (중간 층) 에 있는 수많은 정보 중, **"이 새 (Bird) 를 인식하는 정보"**나 **"이 가스 펌프 (Gas Pump) 를 인식하는 정보"**처럼 특정 대상을 구별하는 핵심 '전문가 (Expert)'들을 찾아내는 도구입니다. 마치 책장 속에서 특정 주제에 대한 책만 골라내는 도서관 사서 같은 역할입니다.
  • 스팀러 (Steering): 찾아낸 '전문가' 정보를 다시 강하게 작동시켜 보는 실험입니다. 만약 AI 가 "새"를 기억하고 있다면, 그 기억을 다시 켜주면 AI 는 다시 "새"라고 대답할 것입니다.

3. 실험 결과: 12 가지 방법 중 대부분은 '커튼'만 치고 있었어

연구팀은 이미지 분류 AI 를 대상으로 12 가지의 유명한 '기억 지우기' 방법들을 테스트했습니다. 결과는 충격적이었습니다.

  1. 대부분의 방법 (Suppression):

    • 외부에서 보면 "새"를 못 맞추는 것 같아 (정답률 0%) 성공한 것처럼 보였습니다.
    • 하지만 연구자들이 '전문가' 정보를 다시 켜주자, AI 는 다시 90~100% 정확도로 "새"를 맞췄습니다.
    • 비유: 마치 "비밀번호를 잊어버린 척" 하다가, 누군가 힌트를 주자마자 "아! 기억났어!"라고 외치는 것과 같습니다. 정보는 여전히 뇌 속에 살아있었습니다.
  2. 재학습 (Retrain) 의 함정:

    • 가장 확실해 보이는 방법인 "데이터를 다시 학습시키는 것"조차 실패했습니다.
    • 비유: 새로운 교재를 사서 다시 공부해도, **과거에 이미 뇌에 각인된 깊은 지식 (사전 학습된 지식)**은 지워지지 않습니다. 마치 어릴 적 배운 영어 발음이 나이가 들어도 쉽게 사라지지 않는 것과 같습니다.
  3. 진짜 삭제 (Deletion) 를 한 방법들:

    • 오직 몇 가지 방법 (예: EU-K) 만이 AI 의 뇌 구조 자체를 뜯어고쳐 정보를 완전히 지워냈습니다. 이 방법들은 정보를 다시 켜도 AI 가 기억을 못 했습니다.

4. 왜 이것이 위험한가요?

만약 우리가 "기억이 지워졌다"고 믿고 그 AI 모델을 인터넷에 공유하거나, 민감한 정보를 가진 기업에 배포한다면 어떨까요?

  • 위험: 해커나 악의적인 사용자가 '스팀러' 같은 기술을 써서 숨겨진 기억을 다시 꺼내올 수 있습니다.
  • 결과: "내 사진이 지워졌다고 믿었던" 사용자의 개인정보가 다시 유출될 수 있습니다.

5. 결론 및 제안: "커튼"을 걷어내는 새로운 기준

이 논문은 앞으로의 AI 개발자들에게 다음과 같은 조언을 합니다.

  • 출력만 보면 안 됩니다: "정답을 못 맞추니 지워졌다"는 식의 단순한 테스트는 신뢰할 수 없습니다.
  • 뇌 속을 들여다봐야 합니다: AI 의 중간 단계 (뇌의 깊은 곳) 에 정보가 남아있는지, 진짜로 삭제되었는지를 확인하는 '복원 테스트'를 의무화해야 합니다.
  • 층 (Layer) 을 알아야 합니다: 정보는 AI 의 뇌 깊숙한 곳 (특정 층) 에 모여 있습니다. 모든 층을 다 고칠 필요는 없지만, 정보가 모여있는 '핵심 층'을 정확히 타격해야 진짜 삭제가 됩니다.

한 줄 요약

"기계가 잊어버린 척하는 것과, 진짜로 잊어버리는 것은 다릅니다. 우리는 AI 가 기억을 '가리는' 것이 아니라 '지우는'지 확인하기 위해, 뇌 속의 숨겨진 기억을 다시 꺼내보는 새로운 검사를 도입해야 합니다."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →