MPU: Towards Secure and Privacy-Preserving Knowledge Unlearning for Large Language Models

이 논문은 서버의 모델 파라미터와 클라이언트의 잊힘 데이터셋을 모두 공개하지 않고도 대용량 언어 모델의 프라이버시를 보호하며 지식 제거를 수행할 수 있는 'MPU'라는 새로운 프라이버시 보존 프레임워크를 제안합니다.

Tiantong Wang, Xinyu Yan, Tiantong Wu, Yurong Hao, Yong Jiang, Fei Huang, Wei Yang Bryan Lim

게시일 2026-03-02
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

MPU: AI 의 '기억 지우기'를 안전하게 하는 마법 같은 방법

이 논문은 거대한 인공지능 (LLM) 이 특정 정보를 잊게 만드는 기술, 즉 '머신 언러닝 (Machine Unlearning)'을 다루고 있습니다. 하지만 여기서 중요한 점은 보안과 프라이버시입니다.

기존 방식은 AI 를 만든 회사 (서버) 가 사용자의 데이터 (클라이언트) 를 직접 보거나, 반대로 사용자가 AI 의 전체 두뇌 (모델 파라미터) 를 볼 수 있어야 했습니다. 하지만 이는 기밀 유출의 위험이 큽니다.

이 논문은 "서버는 AI 의 정체를 숨기고, 사용자는 데이터를 넘겨주지 않아도" AI 가 특정 정보를 잊게 만드는 새로운 방법 MPU를 제안합니다.


🎭 비유: "가면 쓴 요리사와 비밀 레시피"

이 복잡한 기술을 이해하기 위해 **요리사 (서버)**와 **손님 (클라이언트)**의 이야기를 해보겠습니다.

1. 문제 상황: "비밀 레시피를 보여줄 수 없어!"

  • 상황: 어떤 유명 요리사 (AI) 가 손님이 싫어하는 특정 재료 (비밀 데이터) 를 기억하고 있어서, 그 재료를 잊게 해달라고 요청합니다.
  • 서버의 고민: "내 비법 레시피 (AI 모델) 를 그대로 보여주면 도둑맞을 수 있어. 하지만 손님이 그 재료를 직접 가져오지 않으면 내가 어떻게 그 재료를 지우지?"
  • 손님의 고민: "내 개인 비밀 레시피 (데이터) 를 요리사에게 주면 안 돼. 하지만 요리사가 내 재료를 모르면 어떻게 지우지?"

2. 기존 방식의 실패

  • 서버가 레시피를 보여줌: 도둑이 레시피를 훔쳐갈 수 있음.
  • 손님이 재료를 줌: 손님의 비밀이 유출될 수 있음.

3. MPU 의 해결책: "가면 쓴 요리사와 여러 개의 거울"

이 논문은 MPU라는 새로운 방법을 제안합니다. 이 방법은 세 가지 단계로 이루어집니다.

1 단계: 서버가 '가면'을 쓴 요리사들을 보냅니다 (Pre-Process)

  • 서버는 정직한 요리사 (원본 AI) 를 보내는 대신, **가면 (노이즈)**을 쓴 요리사들을 여러 명 보냅니다.
  • 이 가면은 요리사의 얼굴을 흐리게 만들지만, 요리 실력 (기능) 은 그대로입니다.
  • 또한, 이 가면들은 서로 조금씩 다르게 만들어져서, 어떤 가면 하나만 봐도 원래 얼굴을 추측할 수 없습니다.

2 단계: 손님이 자신의 비밀 재료로 '기억 지우기'를 합니다 (Client-Side)

  • 손님은 이 가면 쓴 요리사들 앞에서, **자신의 비밀 재료 (Forget Set)**를 이용해 "이 재료는 잊어!"라고 가르칩니다.
  • 이때 손님은 자신의 재료를 서버에게 주지 않고, **자신의 주방 (로컬)**에서 혼자서 가르칩니다.
  • 가르친 결과 (어떻게 기억을 지웠는지) 만 서버에게 돌려보냅니다.

3 단계: 서버가 '마법'으로 가면을 벗기고 정리합니다 (Post-Process)

  • 서버는 돌아온 결과들을 받습니다. 각 결과에는 가면 (노이즈) 때문에 생긴 작은 오차가 섞여 있습니다.
  • 하지만 서버는 **마법 같은 계산 (Harmonic Aggregation)**을 합니다.
  • 핵심 비유: 가면들은 서로 반대 방향으로 작용하도록 설계되었습니다. 여러 개의 가면 쓴 요리사의 결과를 합치면, 가면의 효과 (오차) 는 서로 상쇄되어 사라지고, 진짜로 필요한 '기억 지우기' 효과만 남습니다.
  • 마치 여러 개의 거울에 비친 왜곡된 이미지를 합치면, 원래의 정확한 이미지가 다시 선명하게 드러나는 것과 같습니다.

🌟 왜 이 방법이 놀라운가요?

  1. 완벽한 비밀 유지:

    • 서버는 AI 의 정체를 절대 드러내지 않습니다.
    • 손님은 자신의 데이터를 절대 넘겨주지 않습니다.
    • 서로를 믿지 않아도 (Dual Non-Disclosure) 협력이 가능합니다.
  2. 오차 제거의 마법:

    • 보통 노이즈 (가면) 를 쓰면 AI 성능이 떨어집니다. 하지만 MPU 는 여러 개의 노이즈를 합쳐서 오차를 0 으로 만듭니다.
    • 실험 결과, 이 방법을 쓰지 않고 노이즈만 넣은 경우보다 성능이 훨씬 좋았으며, 아예 노이즈가 없는 경우와 거의 같은 수준을 유지했습니다.
  3. 어떤 AI 도 가능:

    • 이 방법은 특정 AI 모델에만 국한되지 않습니다. 다양한 AI 모델 (Llama, Qwen 등) 과 다양한 '잊기' 알고리즘에 적용할 수 있습니다.

💡 결론

이 논문은 "서로 비밀을 지키면서도, AI 가 필요한 정보를 잊게 만드는" 완벽한 해결책을 제시합니다.

마치 서로 얼굴을 가린 채로 춤을 추다가, 마지막에 가면을 벗으면 완벽한 안무 (기억 지우기) 가 완성되는 마법과 같습니다. 앞으로 AI 가 우리의 프라이버시를 존중하면서도 안전하게 운영될 수 있는 길을 열어준 획기적인 연구입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →