Why Do Unlearnable Examples Work: A Novel Perspective of Mutual Information

이 논문은 상호 정보 감소와 공분산 축소라는 새로운 이론적 관점에서 기존 방법들의 한계를 극복하고, 클래스 내 특징 간의 코사인 유사도를 최대화하는 '상호 정보 비학습 가능 예제 (MI-UE)'를 제안하여 방어 메커니즘 하에서도 뛰어난 비학습 성능을 입증합니다.

Yifan Zhu, Yibo Miao, Yinpeng Dong, Xiao-Shan Gao

게시일 2026-03-05
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍎 핵심 비유: "맛있는 사과를 독이 든 사과로 바꾸는 법"

상상해 보세요. 여러분이 사과 농장을 운영한다고 칩시다. 누군가 이 사과들을 훔쳐가서 "사과 맛 AI"를 훈련시키려 합니다. 여러분은 그 사과들이 훔쳐져서 쓰이는 것을 막고 싶지만, 사과 자체를 없앨 수는 없습니다.

기존의 방법 (과거의 기술):
과거의 연구자들은 사과에 아주 미세한 독을 섞어서, AI 가 사과를 배우지 못하게 했습니다. 하지만 이 독이 왜 효과가 있는지, 왜 AI 가 망가지는지에 대한 명확한 이론은 없었습니다. 그냥 "이렇게 하면 효과가 있더라"라는 경험적인 방법에 의존했습니다. 마치 "이 약을 먹으면 낫는다"는 건 알지만, 약이 몸속에서 어떻게 작용하는지는 모르는 것과 비슷합니다.

이 논문의 새로운 발견 (MI-UE):
이 연구팀은 **"상호 정보량 (Mutual Information)"**이라는 개념을 도입했습니다. 이를 비유하자면 다음과 같습니다.

비유: "사과와 사과 껍질의 연결고리 끊기"

  • 깨끗한 사과 (Clean Data): 사과 (이미지) 와 사과 껍질 (특징) 은 자연스럽게 연결되어 있습니다. AI 는 "이건 사과야!"라고 쉽게 배웁니다.
  • 기존의 독 (기존 UE): 사과에 독을 넣었지만, AI 는 여전히 "아, 이건 사과 껍질 모양이니까 사과겠지?"라고 추측할 수 있는 단서들을 찾아냅니다.
  • 이 논문의 방법 (MI-UE): 이 연구팀은 **"사과 (이미지) 와 그 속성 (특징) 사이의 연결고리를 아예 끊어버려야 한다"**고 말합니다.

즉, AI 가 사과를 보고도 "이게 사과인지, 배인지, 아니면 그냥 빨간색 덩어리인지" 전혀 알 수 없도록, 이미지와 그 의미 사이의 '연결성 (상호 정보량)'을 극도로 낮추는 것이 핵심입니다.


🧠 이 논문이 발견한 3 가지 놀라운 사실

1. 왜 기존 방법들은 깊은 AI 에게 더 효과가 있을까?

  • 비유: 얕은 우물과 깊은 우물.
  • 얕은 우물 (간단한 AI) 에는 독이 퍼져도 물이 조금만 탁해집니다. 하지만 깊은 우물 (심층 신경망, 복잡한 AI) 에는 독이 퍼지면 전체 물이 완전히 변해버립니다.
  • 연구팀은 **"AI 가 깊어질수록, 이미지와 의미 사이의 연결고리 (상호 정보량) 가 끊어질수록 AI 는 더 멍청해진다"**는 것을 발견했습니다. 즉, 연결고리가 완전히 끊어지면 AI 는 아무것도 배울 수 없게 됩니다.

2. 왜 '공분산 (Covariance)'을 줄여야 할까?

  • 비유: 같은 반 친구들끼리 너무 비슷하게 행동하게 만들기.
  • AI 가 배우는 과정에서, 같은 종류의 데이터 (예: 모두 '고양이'인 사진들) 는 서로 너무 비슷해야 합니다. 그런데 독을 넣으면 이 고양이들끼리 서로 다른 방향으로 흩어지거나, 엉뚱한 방향으로 모이게 됩니다.
  • 연구팀은 "같은 반 친구들 (같은 클래스) 이 서로 너무 비슷하게 행동하도록 (코사인 유사도 최대화) 만들고, 다른 반 친구들 (다른 클래스) 과는 확실히 구분되게" 만드는 수학적 공식을 개발했습니다. 이렇게 하면 AI 는 "아, 이 고양이들은 다 비슷하구나"라고 생각하다가도, 막상 시험을 보면 "이게 고양이인지, 개인지 모르겠다"며 혼란에 빠집니다.

3. 새로운 무기: "MI-UE" (상호 정보량 기반의 독)

이 연구팀은 위 원리를 바탕으로 MI-UE라는 새로운 방법을 만들었습니다.

  • 기존: "독을 넣어서 AI 가 틀리게 해보자." (시행착오)
  • MI-UE: "AI 가 이미지와 의미 사이의 연결고리를 아예 못 찾게, 수학적 원리로 끊어버리자." (원칙에 기반)

🛡️ 실제 효과: 얼마나 강력한가요?

이 논문의 실험 결과는 매우 인상적입니다.

  1. 다른 AI 모델에도 통한다: 어떤 복잡한 AI (ResNet, ViT 등) 를 쓰든, 얕은 AI 를 쓰든 상관없이 효과가 있습니다. 마치 어떤 종류의 문이든 열 수 있는 만능 열쇠 같습니다.
  2. 방어막을 뚫는다: 최근에는 AI 를 해킹당하지 않도록 '적대적 훈련 (Adversarial Training)'이라는 방어 기술을 쓰기도 합니다. 하지만 MI-UE 는 이 강력한 방어막 앞에서도 여전히 AI 를 무력화시킵니다.
    • 비유: 다른 독들은 "방어막이 두꺼우면 효과가 없다"고 포기하지만, MI-UE 는 "방어막이 두꺼울수록 오히려 더 효과적이다"라고 말합니다.

📝 요약: 이 논문이 우리에게 주는 메시지

이 논문은 **"데이터 프라이버시를 지키기 위해, 단순히 데이터를 망가뜨리는 게 아니라, 데이터와 의미 사이의 '연결고리'를 수학적으로 끊어버리는 것이 가장 확실한 방법"**임을 증명했습니다.

  • 기존: "이게 왜 작동할까? 모르겠다. 그냥 해보자."
  • 이 논문: "이게 작동하는 이유는 '연결고리 끊기' 때문이야. 그래서 우리는 연결고리를 더 강력하게 끊는 새로운 방법을 만들었어."

이 기술은 우리가 인터넷에 올리는 사진, 의료 기록, 얼굴 정보 등이 허가 없이 거대 AI 회사에 의해 학습되는 것을 막는 강력한 방패가 될 수 있습니다. 마치 내 사과 농장에 들어온 도둑에게 "이 사과들은 너가 배울 수 없게 만들었어"라고 선언하는 것과 같습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →