Roots Beneath the Cut: Uncovering the Risk of Concept Revival in Pruning-Based Unlearning for Diffusion Models

이 논문은 확산 모델의 프루닝 기반 학습 제거 방식이 제거된 개념의 위치 정보를 누출시켜 데이터나 재학습 없이도 개념을 부활시킬 수 있는 치명적인 취약점이 있음을 발견하고, 이를 방어하기 위한 안전한 프루닝 메커니즘을 제안합니다.

Ci Zhang, Zhaojun Ding, Chence Yang, Jun Liu, Xiaoming Zhai, Shaoyi Huang, Beiwen Li, Xiaolong Ma, Jin Lu, Geng Yuan

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 가 잊으려던 것을 다시 기억해내는 놀라운 (하지만 위험한) 능력"**에 대해 다루고 있습니다.

마치 **"잘라낸 뿌리에서 다시 싹이 트는 것"**처럼, AI 가 특정 정보를 지우기 위해 무언가를 잘라냈다고 생각했는데, 사실은 그 자리가 그대로 남아 있어 다시 그 정보를 불러올 수 있다는 사실을 발견한 연구입니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 배경: AI 가 '잊는' 방법 (가지치기)

최근 AI(특히 그림을 그리는 생성형 AI) 에는 저작권 문제나 사생활 보호를 위해 특정 개념 (예: 특정 화가의 스타일, 나쁜 이미지 등) 을 완전히 지워야 할 필요가 생겼습니다.

기존에는 AI 를 다시 가르치는 (재학습) 방식이 많았는데, 이는 시간과 돈이 많이 들었습니다. 그래서 최근에는 **"가지치기 (Pruning)"**라는 새로운 방법이 주목받았습니다.

  • 비유: AI 의 뇌 (모델) 에서 특정 개념과 연결된 '신경'이나 '연결고리'를 찾아서 0 으로 만들고 잘라내는 것입니다.
  • 장점: 재학습 없이도 아주 빠르고 효율적으로 지울 수 있다고 믿어졌습니다. 마치 책에서 특정 단어를 지우기 위해 그 단어가 적힌 페이지를 잘라내는 것과 비슷합니다.

2. 문제: 잘라낸 자리의 흔적 (숨겨진 위험)

하지만 이 논문은 **"잘라낸 자리가 너무 뻔하다"**는 치명적인 약점을 발견했습니다.

  • 비유: 책에서 특정 단어를 지우기 위해 그 부분을 흰색으로 칠해버렸다고 가정해 보세요.
    • 사람들은 "아, 여기가 지워졌구나"라고 쉽게 알 수 있습니다.
    • 더 무서운 것은, 어떤 글자가 있었는지 그 '자리의 모양'만 봐도 원래 글자를 추측할 수 있다는 점입니다.
  • 연구 결과: AI 가 개념을 지울 때 해당 부분의 숫자 (가중치) 를 0 으로 만들면, 그 0 이 된 위치가 마치 "여기에 중요한 비밀이 있었어"라고 신호를 보내는 것과 같습니다. 이 신호를 이용해 해커는 지워진 내용을 다시 복원할 수 있습니다.

3. 공격 방법: 잘라낸 뿌리를 다시 살리기

연구팀은 이 약점을 이용해 데이터도, 재학습도 없이 지워진 개념을 되살리는 공격 방법을 개발했습니다.

  • 단계 1: 빈 자리 채우기 (수학의 마법)
    • 잘라낸 부분 (0 으로 된 자리) 이 원래 어떤 숫자였는지 수학적으로 유추합니다. 마치 퍼즐의 빈 칸을 주변 조각들을 보고 채우는 것과 같습니다.
  • 단계 2: 중요한 것만 남기기
    • 유추한 숫자 중에서도 **가장 확실한 것 (신호의 방향)**만 골라냅니다. 작은 잡음은 버리고 핵심만 남기는 거죠.
  • 단계 3: 힘주기
    • 골라낸 숫자에 적절한 '힘 (크기)'을 주어 원래 AI 가 그 개념을 기억했던 상태와 비슷하게 만듭니다.

결과: 이 방법을 쓰자, AI 가 잊으려던 '골프공'이나 '반 고흐 스타일', '나쁜 이미지' 등이 7 분 만에 다시 완벽하게 그려지기 시작했습니다. 지웠다고 생각했던 것이 실제로는 다시 살아난 것입니다.

4. 해결책: 흔적을 지우는 방법 (방어 전략)

그렇다면 어떻게 해야 할까요? 연구팀은 아주 간단한 해결책을 제안합니다.

  • 비유: 지우개를 쓸 때, 지운 자리에 흰색 페인트 (0) 를 칠하는 대신, 아주 미세한 '노이즈 (잡음)'를 뿌리는 것입니다.
  • 방어법: 잘라낸 자리에 0 대신, **무작위적인 작은 숫자 (가우시안 잡음)**를 채워 넣으세요.
    • 이렇게 하면 해커는 "여기가 잘린 자리인지, 아니면 원래 있던 잡음인지" 구별할 수 없게 됩니다.
    • 하지만 잡음이 너무 크면 AI 가 망가질 수 있고, 너무 작으면 해커가 알아챌 수 있으니 적당한 크기를 찾는 것이 핵심입니다.

5. 결론: 왜 중요한가요?

이 연구는 **"AI 가 정보를 지우는 기술이 아직 완벽하지 않다"**는 것을 경고합니다.

  • 단순히 연결고리를 잘라내거나 0 으로 만드는 것만으로는 정보가 완전히 사라지지 않습니다.
  • 잘라낸 자리의 흔적만으로도 정보가 유출될 수 있으니, 앞으로는 지울 때 그 흔적까지 가릴 수 있는 더 안전한 방법이 필요합니다.

한 줄 요약:

"AI 가 특정 것을 잊으려고 잘라냈다고 안심하지 마세요. 잘라낸 자리의 흔적만으로도 그 내용을 다시 불러올 수 있으니, 흔적을 지우는 더 안전한 '지우개'가 필요합니다."