Towards Privacy-Guaranteed Label Unlearning in Vertical Federated Learning: Few-Shot Forgetting without Disclosure

Each language version is independently generated for its own context, not a direct translation.

🏥 비유: 병원과 보험사의 비밀스러운 협력

먼저 **수직 연방 학습 (VFL)**이 무엇인지 이해해야 합니다.

상황: A 병원 (환자의 진료 기록, 즉 '특징'을 가짐) 과 B 보험사 (환자의 질병 유무, 즉 '라벨/정답'을 가짐) 가 있다고 칩시다.
문제: 두 기관은 서로의 데이터를 직접 주고받을 수 없습니다 (개인정보 보호). 하지만 함께 모델을 만들어 환자를 더 잘 진단하고 싶죠.
해결: A 는 환자의 데이터를, B 는 정답을 주고받지 않고, 오직 **'중간 계산 결과 (임베딩)'**만 주고받으며 함께 학습합니다.

이제 **이제의 핵심 문제 (잊힘의 권리)**가 발생합니다.

환자가 "내 질병 기록 (라벨) 을 삭제해 달라"고 요청했습니다.
기존 방식은 **모든 데이터를 다시 처음부터 학습 (재학습)**해야 했습니다. 이는 시간이 너무 오래 걸리고, 비용도 많이 들며, 그 과정에서 다른 환자의 정보가 유출될 위험도 있었습니다.

💡 이 논문이 제안한 새로운 방법: "작은 샘플로 큰 효과를 내는 마법"

이 논문은 **"완전히 다시 배우지 않고, 아주 적은 데이터만으로도 기억을 지울 수 있다"**는 혁신적인 방법을 제안합니다. 이를 **'Few-Shot Forgetting (소수 샘플 잊기)'**이라고 부릅니다.

세 가지 단계로 나누어 설명해 볼까요?

1 단계: "가짜 친구 만들기" (Manifold Mixup)

상황: 잊어야 할 환자 데이터는 아주 적습니다 (예: 40 명). 이 적은 데이터만으로는 모델을 바꾸기엔 부족할 수 있습니다.
해결책: 연구진은 **'Manifold Mixup (매니폴드 믹스업)'**이라는 기술을 썼습니다.
- 비유: 40 명의 환자 사진을 가지고, 컴퓨터가 이들을 무작위로 섞어서 가상의 환자 1,000 명을 만들어내는 것입니다.
- 예를 들어, "A 환자의 왼쪽 얼굴"과 "B 환자의 오른쪽 얼굴"을 섞어 새로운 가상의 얼굴을 만듭니다. 이렇게 하면 적은 데이터로도 모델이 다양한 상황을 경험한 것처럼 만들어, 기억을 지우는 신호를 더 강력하게 보낼 수 있습니다.

2 단계: "기억 지우기" (Gradient Ascent)

상황: 이제 가짜 환자들까지 포함한 데이터로 모델을 훈련합니다.
해결책: 일반적인 학습은 "정답에 가깝게" 모델을 조정하지만, 이 단계에서는 반대로 "정답에서 멀어지게" 모델을 조정합니다.
- 비유: "이 환자는 HIV 양성이다"라는 기억을 지우려면, 모델에게 "이 환자는 HIV 양성일 확률이 0% 이다"라고 강하게 주입하는 것이 아니라, **"이 환자가 HIV 양성이라는 사실을 잊게 하라"**고 역방향으로 가르치는 것입니다.
- 이때 중요한 점은, 라벨 (정답) 을 가진 보험사 (Active Party) 만 이 작업을 하고, 병원 (Passive Party) 은 라벨을 보지 못한 채 자신의 부분만 업데이트한다는 것입니다. 그래서 라벨 정보가 유출되지 않습니다.

3 단계: "나머지 친구들 챙기기" (Recovery)

상황: 특정 환자를 잊으려다 보니, 다른 환자들에 대한 기억도 흐릿해질 수 있습니다.
해결책: 잊지 말아야 할 나머지 환자들 (보존 데이터) 로 모델을 다시 살짝 다듬어 줍니다.
- 비유: "A 환자는 잊었지만, B, C, D 환자에 대해서는 여전히 잘 기억하고 있어야 해"라고 다시 한번 확인하고 모델을 정리합니다.

🌟 이 방법의 놀라운 장점

속도: 전체 데이터를 다시 학습하는 데는 며칠이 걸릴 수 있지만, 이 방법은 몇 초~몇 분 만에 끝납니다.
정확도: 잊어야 할 데이터 (질병 기록) 는 완전히 잊게 되지만, 나머지 데이터에 대한 성능은 거의 떨어지지 않습니다. (기존 방법들은 다른 환자들까지 망가뜨리는 경우가 많았습니다.)
보안: 라벨 (민감한 정보) 을 가진 기관이 라벨을 직접 다른 기관에 보여주지 않고도 기억을 지울 수 있어, 개인정보 유출 위험이 극도로 낮습니다.

📝 한 줄 요약

"이 논문은 병원과 보험사가 서로의 비밀을 지키면서, '내 기록 지워줘'라는 요청을 받았을 때, 전체 시스템을 다시 짓지 않고 아주 적은 데이터로 '가짜 친구'를 만들어내어 빠르고 안전하게 기억을 지우는 방법을 개발했습니다."

이 기술은 의료, 금융 등 민감한 정보가 오가는 분야에서 **개인정보 보호법 (GDPR 등)**을 준수하면서도 AI 서비스를 유지할 수 있는 핵심 열쇠가 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

이 논문은 수직 연방 학습 (Vertical Federated Learning, VFL) 환경에서의 라벨 망각 (Label Unlearning) 문제를 다룹니다.

배경: VFL 은 여러 기관이 서로 다른 특성 (Feature) 을 공유하지만 동일한 샘플 ID 를 기반으로 협력하여 모델을 학습하는 방식입니다. 여기서 '능동 당사자 (Active Party)'는 라벨을, '수동 당사자 (Passive Parties)'는 특성을 보유합니다.
핵심 문제: GDPR 및 CCPA 와 같은 규정에 따라 사용자는 자신의 데이터가 모델에서 삭제될 '잊힐 권리 (Right to be Forgotten)'를 요구합니다. 기존 연방 학습 망각 연구는 주로 수평 연방 학습 (HFL) 이나 수동 당사자의 전체 삭제 (Feature Unlearning) 에 집중했습니다.
VFL 의 특수성: VFL 에서 라벨은 민감한 개인정보 (예: HIV 양성 여부, 대출 승인 여부) 를 포함할 수 있습니다. 특정 라벨을 삭제할 때, 기존 방법들은 전체 모델을 재학습하거나, 수동 당사자에게 삭제 대상이 어떤 라벨인지 유출되는 등 프라이버시 유출과 비효율성이라는 두 가지 큰 문제를 안고 있습니다. 또한, VFL 의 동기화 (Synchronization) 요구사항으로 인해 망각 과정의 효율성이 크게 저하됩니다.

2. 제안 방법론 (Methodology)

저자들은 소량 학습 (Few-shot) 기반의 새로운 망각 프레임워크를 제안하며, 이는 매니폴드 믹스업 (Manifold Mixup) 기술을 활용합니다. 전체 프로세스는 크게 세 단계로 구성됩니다.

가. 수직 매니폴드 믹스업 (Vertical Manifold Mixup)

동기화: 삭제할 라벨에 해당하는 소량의 공개 데이터 (Public Data, $D_{p,u}$ ) 만 사용합니다.
임베딩 생성: 각 수동 당사자가 로컬 특성을 통해 임베딩을 생성하면, 능동 당사자가 이를 수신합니다.
믹스업 적용: 수동 당사자 내부에서 생성된 임베딩들끼리 선형 보간 (Interpolation) 을 수행하여 합성 임베딩 ( $\vec{H}$ $H$ ) 을 생성합니다.
- 공식: $Mix_\lambda(a, b) = \lambda \cdot a + (1-\lambda) \cdot b$
- 이 과정은 라벨 정보 없이도 임베딩 공간의 분포를 평탄화 (Flattening) 하여, 소량의 데이터로도 효과적인 그라디언트 방향을 유도할 수 있게 합니다.

나. 수직 그라디언트 기반 라벨 망각 (Vertical Gradient-based Label Unlearning)

능동 당사자 (Active Party): 생성된 합성 임베딩과 혼합된 라벨을 사용하여 **그라디언트 상승 (Gradient Ascent)**을 수행합니다. 이는 모델이 해당 라벨을 예측하지 못하도록 (오류 극대화) 모델을 업데이트하는 과정입니다.
수동 당사자 (Passive Parties): 능동 당사자가 계산한 역방향 그라디언트 ( $\frac{\partial \ell}{\partial \vec{H}_k}$ ) 를 수신하여 로컬 모델 파라미터를 업데이트합니다.
핵심: 이 과정은 원본 라벨 데이터에 접근하지 않고도 합성 임베딩을 통해 라벨 정보를 모델에서 효과적으로 제거합니다.

다. 잔여 정확도 복구 (Remained Accuracy Recovery)

망각 과정에서 다른 라벨 (보존된 데이터) 의 성능이 저하되는 것을 방지하기 위해, 보존된 라벨이 포함된 소량의 데이터 ( $D_{p,r}$ ) 를 사용하여 **그라디언트 하강 (Gradient Descent)**을 수행하여 모델의 일반화 성능을 복원합니다.

3. 주요 기여 (Key Contributions)

VFL 라벨 망각의 최초 연구: VFL 환경에서 라벨 단위의 망각을 처리하는 첫 번째 방법론을 제안했습니다.
소량 데이터 기반的高效 망각: 전체 삭제 데이터를 필요로 하지 않고, 소량의 공개 데이터 (Few-shot) 만으로 매니폴드 믹스업을 통해 효율적인 망각을 달성했습니다. 이는 계산 비용을 획기적으로 줄였습니다.
프라이버시 보장 (Process Privacy): 망각 과정에서 능동 당사자가 수동 당사자에게 삭제 대상이 어떤 라벨인지 직접적으로 유출하지 않도록 설계되었습니다. 이를 통해 수동 당사자의 '삭제 집단에 대한 추론 능력'을 최소화하는 **프로세스 프라이버시 (Process Privacy)**를 달성했습니다.
이론적 증명: 제안된 그라디언트 업데이트 방향이 전체 삭제 데이터를 사용한 방향과 양의 상관관계 (Positive Alignment) 를 가진다는 것을 이론적으로 증명했습니다.

4. 실험 결과 (Experimental Results)

저자들은 MNIST, CIFAR-10/100, ModelNet, Brain Tumor MRI, COVID-19 Radiography, Yahoo Answers 등 7 가지 다양한 데이터셋 (이미지 및 텍스트) 에서 실험을 수행했습니다.

성능 유지 (Utility): 기존 방법들 (Fine-tuning, Fisher Forgetting 등) 이 망각 후 보존된 데이터 ( $D_r$ ) 의 정확도가 크게 떨어지는 반면, 제안 방법은 98% 이상의 정확도를 유지하며 성능 저하를 최소화했습니다.
망각 효과 (Unlearning Effectiveness): 삭제된 라벨 ( $y_u$ ) 에 대한 예측 정확도를 0% 에 가깝게 낮추어, 모델이 해당 데이터를 완전히 잊었음을 증명했습니다.
공격 성공률 (ASR): 멤버십 추론 공격 (MIA) 에 대한 공격 성공률이 재학습 모델보다 낮거나 유사하게 유지되어, 추가적인 정보 유출이 없음을 확인했습니다.
효율성: 기존 방법들에 비해 16 배에서 1200 배까지 빠른 실행 시간을 기록했습니다. 특히 수동 당사자 수가 증가해도 실행 시간이 선형적으로만 증가하여 확장성이 뛰어났습니다.
프라이버시 유출 감소: 재학습 방식은 삭제 집단을 100% 유출하지만, 제안 방법은 14.38% (CIFAR-10) ~ 4.04% (CIFAR-100) 수준으로 유출을 극적으로 줄였습니다.

5. 의의 및 결론 (Significance)

이 논문은 VFL 환경에서의 데이터 삭제 문제를 해결하기 위한 새로운 패러다임을 제시합니다.

실용성: 민감한 의료나 금융 분야에서 라벨 기반의 프라이버시 요구를 충족시키면서도, 모델의 유틸리티를 유지하는 실용적인 솔루션을 제공합니다.
기술적 혁신: 믹스업 (Mixup) 기술을 데이터 증강이 아닌 '망각'을 위한 효율적인 메커니즘으로 재해석하여, 소량의 데이터로도 강력한 망각 효과를 낼 수 있음을 보였습니다.
프라이버시 강화: 망각 프로세스 자체에서 발생하는 정보 유출 (Process Privacy) 을 정량화하고 이를 최소화하는 방법을 제시함으로써, 연방 학습의 신뢰성을 한 단계 높였습니다.

결론적으로, 이 연구는 VFL 의 프라이버시 보장과 효율적인 데이터 관리를 동시에 달성할 수 있는 강력한 기반을 마련했다는 점에서 의의가 큽니다.