Towards Privacy-Guaranteed Label Unlearning in Vertical Federated Learning: Few-Shot Forgetting without Disclosure

이 논문은 수직 연방 학습 (VFL) 환경에서 라벨의 민감한 정보를 제거하면서도 기존 데이터의 성능을 유지하기 위해 표현 수준 매니폴드 믹스업과 그래디언트 기반 포기 및 복구 기법을 결합한 최초의 라벨 언러닝 방법을 제안하고 실험을 통해 그 유효성을 입증합니다.

Hanlin Gu, Hong Xi Tae, Lixin Fan, Chee Seng Chan

게시일 2026-03-02
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🏥 비유: 병원과 보험사의 비밀스러운 협력

먼저 **수직 연방 학습 (VFL)**이 무엇인지 이해해야 합니다.

  • 상황: A 병원 (환자의 진료 기록, 즉 '특징'을 가짐) 과 B 보험사 (환자의 질병 유무, 즉 '라벨/정답'을 가짐) 가 있다고 칩시다.
  • 문제: 두 기관은 서로의 데이터를 직접 주고받을 수 없습니다 (개인정보 보호). 하지만 함께 모델을 만들어 환자를 더 잘 진단하고 싶죠.
  • 해결: A 는 환자의 데이터를, B 는 정답을 주고받지 않고, 오직 **'중간 계산 결과 (임베딩)'**만 주고받으며 함께 학습합니다.

이제 **이제의 핵심 문제 (잊힘의 권리)**가 발생합니다.

  • 환자가 "내 질병 기록 (라벨) 을 삭제해 달라"고 요청했습니다.
  • 기존 방식은 **모든 데이터를 다시 처음부터 학습 (재학습)**해야 했습니다. 이는 시간이 너무 오래 걸리고, 비용도 많이 들며, 그 과정에서 다른 환자의 정보가 유출될 위험도 있었습니다.

💡 이 논문이 제안한 새로운 방법: "작은 샘플로 큰 효과를 내는 마법"

이 논문은 **"완전히 다시 배우지 않고, 아주 적은 데이터만으로도 기억을 지울 수 있다"**는 혁신적인 방법을 제안합니다. 이를 **'Few-Shot Forgetting (소수 샘플 잊기)'**이라고 부릅니다.

세 가지 단계로 나누어 설명해 볼까요?

1 단계: "가짜 친구 만들기" (Manifold Mixup)

  • 상황: 잊어야 할 환자 데이터는 아주 적습니다 (예: 40 명). 이 적은 데이터만으로는 모델을 바꾸기엔 부족할 수 있습니다.
  • 해결책: 연구진은 **'Manifold Mixup (매니폴드 믹스업)'**이라는 기술을 썼습니다.
    • 비유: 40 명의 환자 사진을 가지고, 컴퓨터가 이들을 무작위로 섞어서 가상의 환자 1,000 명을 만들어내는 것입니다.
    • 예를 들어, "A 환자의 왼쪽 얼굴"과 "B 환자의 오른쪽 얼굴"을 섞어 새로운 가상의 얼굴을 만듭니다. 이렇게 하면 적은 데이터로도 모델이 다양한 상황을 경험한 것처럼 만들어, 기억을 지우는 신호를 더 강력하게 보낼 수 있습니다.

2 단계: "기억 지우기" (Gradient Ascent)

  • 상황: 이제 가짜 환자들까지 포함한 데이터로 모델을 훈련합니다.
  • 해결책: 일반적인 학습은 "정답에 가깝게" 모델을 조정하지만, 이 단계에서는 반대로 "정답에서 멀어지게" 모델을 조정합니다.
    • 비유: "이 환자는 HIV 양성이다"라는 기억을 지우려면, 모델에게 "이 환자는 HIV 양성일 확률이 0% 이다"라고 강하게 주입하는 것이 아니라, **"이 환자가 HIV 양성이라는 사실을 잊게 하라"**고 역방향으로 가르치는 것입니다.
    • 이때 중요한 점은, 라벨 (정답) 을 가진 보험사 (Active Party) 만 이 작업을 하고, 병원 (Passive Party) 은 라벨을 보지 못한 채 자신의 부분만 업데이트한다는 것입니다. 그래서 라벨 정보가 유출되지 않습니다.

3 단계: "나머지 친구들 챙기기" (Recovery)

  • 상황: 특정 환자를 잊으려다 보니, 다른 환자들에 대한 기억도 흐릿해질 수 있습니다.
  • 해결책: 잊지 말아야 할 나머지 환자들 (보존 데이터) 로 모델을 다시 살짝 다듬어 줍니다.
    • 비유: "A 환자는 잊었지만, B, C, D 환자에 대해서는 여전히 잘 기억하고 있어야 해"라고 다시 한번 확인하고 모델을 정리합니다.

🌟 이 방법의 놀라운 장점

  1. 속도: 전체 데이터를 다시 학습하는 데는 며칠이 걸릴 수 있지만, 이 방법은 몇 초~몇 분 만에 끝납니다.
  2. 정확도: 잊어야 할 데이터 (질병 기록) 는 완전히 잊게 되지만, 나머지 데이터에 대한 성능은 거의 떨어지지 않습니다. (기존 방법들은 다른 환자들까지 망가뜨리는 경우가 많았습니다.)
  3. 보안: 라벨 (민감한 정보) 을 가진 기관이 라벨을 직접 다른 기관에 보여주지 않고도 기억을 지울 수 있어, 개인정보 유출 위험이 극도로 낮습니다.

📝 한 줄 요약

"이 논문은 병원과 보험사가 서로의 비밀을 지키면서, '내 기록 지워줘'라는 요청을 받았을 때, 전체 시스템을 다시 짓지 않고 아주 적은 데이터로 '가짜 친구'를 만들어내어 빠르고 안전하게 기억을 지우는 방법을 개발했습니다."

이 기술은 의료, 금융 등 민감한 정보가 오가는 분야에서 **개인정보 보호법 (GDPR 등)**을 준수하면서도 AI 서비스를 유지할 수 있는 핵심 열쇠가 될 것입니다.