LEA: Label Enumeration Attack in Vertical Federated Learning

Each language version is independently generated for its own context, not a direct translation.

1. 배경: "함께 요리하지만, 레시피는 숨겨진 식당"

먼저 **수직 연방 학습 (VFL)**이 무엇인지 알아봅시다.

상황: A 식당 (고객 데이터 보유) 과 B 식당 (신용 기록 보유) 이 있습니다. 둘 다 같은 고객들의 정보를 가지고 있지만, A 는 "이 사람이 어떤 옷을 입었는지"만 알고, B 는 "이 사람이 빚을 갚을 수 있는지"만 압니다.
목표: 둘이 합쳐서 "이 고객이 좋은 고객인가?"를 예측하는 모델을 만들고 싶습니다.
문제: 서로의 원본 데이터 (옷장이나 은행 계좌) 를 주고받을 수 없습니다. 오직 **모델이 계산한 중간 결과 (숫자)**만 주고받습니다.
보안: "우리는 데이터만 주고받지, 중요한 정보 (라벨/정답) 는 절대 안 넘겨주니까 안전해!"라고 생각했습니다.

하지만 이 논문은 **"아니요, 그 중간 결과만으로도 정답을 유추해 낼 수 있다"**고 말합니다.

2. 공격의 핵심: "미스터리한 요리사 (공격자) 의 작전"

이 논문에서 공격자는 B 식당의 '호기심 많은 요리사'라고 상상해 보세요. B 는 정답 (고객이 좋은 고객인지) 을 모르는 상태입니다. 하지만 A 가 보내주는 숫자 (손실 함수의 기울기) 를 보고 정답을 알아내려 합니다.

🕵️‍♂️ 공격 방법 1: "모든 경우의 수를 다 시도해보기 (LEA)"

공격자는 이렇게 생각합니다.

"내가 가진 고객 데이터 (옷차림 등) 를 보면, 자연스럽게 몇 개의 그룹으로 나눌 수 있겠어. 예를 들어 '패션 센스가 좋은 그룹', '보통인 그룹' 등으로요. 근데 정답 (라벨) 이 이 그룹들에 어떻게 붙어 있을지 모르잖아? 그럼 모든 가능한 정답 조합을 다 만들어서 시험해 보자!"

과정:
1. 데이터를 그룹 (클러스터) 으로 나눕니다.
2. 정답 (예: '부자', '가난한') 을 이 그룹들에 모든 순서대로 다 붙여봅니다. (예: A그룹=부자, B그룹=가난한 / 혹은 A그룹=가난한, B그룹=부자...)
3. 이렇게 만든 가상의 정답으로 모델을 훈련시킵니다.
4. 핵심: "내가 만든 가짜 모델 중, 실제 A 식당이 보내준 숫자 (기울기) 와 가장 비슷하게 움직이는 모델이 바로 '진짜 정답을 알고 있는 모델'이야!"라고 찾아냅니다.

이것은 마치 자물쇠를 열 때, 모든 숫자 조합을 다 돌려서 맞는 것을 찾는 '브루트 포스 (Brute-force)' 방식과 비슷합니다.

🚀 공격 방법 2: "계산량을 줄이는 지혜 (Binary-LEA)"

문제는 정답의 종류가 많으면 (예: 10 가지) 모든 조합을 다 만들어보는 데 시간이 너무 오래 걸린다는 점입니다. (10! = 362 만 번!)

그래서 연구자들은 이걸 이진 분류 (Yes/No) 로 쪼개서 해결했습니다.

"10 가지 중 2 가지를 골라 '이게 맞나, 저게 맞나'만 비교해보자."
이렇게 하면 계산량이 362 만 번에서 수천 번 수준으로 줄어듭니다. (O(n!) → O(n³))

3. 왜 이 공격이 무서운가?

기존의 공격들은 "약간의 정답이 있는 데이터 (보조 데이터)"가 있어야만 성공했습니다. 마치 비밀번호를 맞추려면 단서 (힌트) 가 있어야 하는 것과 같았습니다.

하지만 이 LEA 공격은 단서 (보조 데이터) 가 전혀 없어도 성공합니다.

비유: "힌트 없이 비밀번호를 맞추는데, 내가 가진 물건 (데이터) 을 잘 분류만 하면, 모든 경우의 수를 시도해서 정답을 찾아내는 거예요."
결과: 실험 결과, 기존 최고의 공격법보다 정확도가 50%~90% 더 높게 나왔습니다.

4. 방어는 가능한가? (방어막 테스트)

연구자들은 이 공격을 막을 수 있는 방법을 몇 가지 시험해 보았습니다.

소음 추가 (Noisy Gradients): 정답을 알려주는 숫자에 '잡음'을 섞어서 흐리게 만드는 방법.
- 결과: 잡음이 너무 심하지 않으면, 공격자는 여전히 "가장 비슷한 모델"을 찾아냅니다. 방어 실패.
압축 (Gradient Compression): 숫자의 일부만 보내는 방법.
- 결과: 중요한 정보는 여전히 남아있어 공격이 성공합니다. 방어 실패.
라벨 매핑 테이블 (Label Mapping Table): 정답을 미리 섞어서 (예: '부자'를 '가난한'으로 바꿔서) 보내는 방법.
- 결과: 이론적으로는 효과가 있지만, 공격자가 약간의 정답 데이터 (힌트) 를 가지고 있거나, 데이터의 분포가 극단적일 경우 (예: 부자가 90%, 가난한이 10%) 에는 다시 뚫립니다.

5. 결론: "우리는 더 안전한 방어를 찾아야 한다"

이 논문은 **"수직 연방 학습이 안전하다고 생각했던 그 구멍이 생각보다 크고, 새로운 공격법 (LEA) 으로 인해 더 위험할 수 있다"**는 것을 보여줍니다.

핵심 메시지: "데이터를 나누어 가지고 있어도, 서로의 데이터를 분류하고 정답의 모든 경우를 시도해 본다면, 정답을 훔쳐낼 수 있다."
미래: 이제 우리는 이 새로운 공격을 막을 수 있는 더 강력한 방어 기술 (예: 더 강력한 암호화나 새로운 프로토콜) 을 개발해야 합니다.

한 줄 요약:

"비밀을 공유하지 않고도 함께 일하는 시스템 (VFL) 이지만, 모든 가능성을 시뮬레이션해 보는 지능적인 공격으로 인해 정답이 유출될 수 있다는 위험을 발견했습니다. 기존 방어책으로는 막기 어렵기 때문에, 새로운 보안 기술이 시급합니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

**수직 연방 학습 (Vertical Federated Learning, VFL)**은 서로 다른 참여자들이 동일한 샘플에 대해 서로 다른 특징 (Feature) 을 보유하고 있으며, 라벨 (Label) 은 오직 한 참여자 (Active Party) 만이 소유하는 환경에서 모델을 훈련하는 방식입니다. 라벨은 민감한 정보이므로 VFL 은 라벨 프라이버시를 보호해야 합니다.

기존의 VFL 대상 라벨 추론 공격 (Label Inference Attacks) 은 다음과 같은 한계가 있었습니다:

보조 데이터 의존성: 공격 성공을 위해 공격자가 소량의 라벨이 있는 보조 데이터셋 (Auxiliary Data) 을 확보해야 함.
시나리오 제한: 특정 VFL 설정 (예: SplitVFL 만 지원) 이나 특정 모델 유형에 국한됨.
실용성 부족: 실제 응용 환경에서 보조 데이터를 구하기 어렵기 때문에 공격이 비현실적임.

이 논문은 보조 데이터 없이도 다양한 VFL 시나리오에서 라벨을 추론할 수 있는 새로운 공격 기법을 제시합니다.

2. 방법론 (Methodology)

이 논문은 **라벨 열거 공격 (Label Enumeration Attack, LEA)**을 제안하며, 그 핵심 아이디어는 "패시브 참여자의 로컬 데이터는 본질적으로 분류 가능한 구조를 가지고 있다"는 가정입니다.

A. 기본 공격 프로세스 (LEA)

클러스터링 (Clustering): 공격자 (패시브 파티) 는 라벨 없이 자신의 로컬 데이터 특징을 기반으로 $n$ 개의 클러스터로 비지도 학습을 수행합니다.
라벨 열거 (Label Enumeration): $n$ 개의 라벨에 대한 모든 가능한 순열 ( $n!$ 개) 을 생성하여 각 클러스터에 라벨을 할당합니다. 이는 $n!$ 개의 가상의 완전한 데이터셋을 생성하는 것과 같습니다.
시뮬레이션 모델 훈련: 각 라벨 순열에 대해 로컬 모델을 복사하여 시뮬레이션 모델 ( $n!$ 개) 을 생성하고, 1 회만 훈련 (Forward/Backward pass) 하여 손실 기울기 (Loss Gradients) 를 계산합니다.
모델 유사도 평가:
- 패시브 파티는 실제 VFL 훈련 과정에서 Active Party 로부터 받은 1 회차 손실 기울기와 각 시뮬레이션 모델의 기울기를 비교합니다.
- **코사인 유사도 (Cosine Similarity)**를 사용하여 기울기의 방향적 유사성을 측정합니다.
- 핵심 통찰: 파라미터 자체의 유사도보다는 1 회차 기울기의 유사도가 훨씬 정확하고 효율적입니다. (초기화 조건이 동일할 때, 올바른 라벨 매핑을 가진 모델은 실제 VFL 모델과 기울기 방향이 가장 유사하게 수렴하기 때문입니다.)
공격 모델 선정: 실제 VFL 모델과 가장 높은 코사인 유사도를 가진 시뮬레이션 모델을 공격 모델로 선정하여, 해당 시뮬레이션 데이터셋으로 재훈련하여 최종 라벨을 예측합니다.

B. 계산 비용 최적화: Binary-LEA

$n!$ 개의 모델을 훈련하는 것은 계산 비용이 매우 큽니다 (예: $n=10$ 일 때 약 360 만 개). 이를 해결하기 위해 Binary-LEA를 제안합니다.

이진 분류 변환: $n$ 개의 클래스 분류 문제를 $\lfloor n/2 \rfloor$ 개의 이진 분류 문제로 변환합니다.
과정: 두 개의 클러스터를 선택하고 해당 라벨들의 순열 ( $N(N-1)$ 개) 만을 열거하여 해당 부분집합에 대한 공격 모델을 생성합니다.
복잡도 감소: 전체 열거 횟수를 $O(n!)$ 에서 $O(n^3)$ 수준으로 대폭 줄여줍니다.
결과 생성: 생성된 여러 이진 공격 모델들의 출력을 종합하여 최종 다중 클래스 라벨을 결정합니다.

3. 주요 기여 (Key Contributions)

새로운 공격 기법 (LEA): 보조 데이터가 필요 없으며, AggVFL 과 SplitVFL 모두에 적용 가능한 최초의 라벨 열거 공격을 제안했습니다.
효율적인 유사도 측정: 모델 파라미터 비교 대신 1 회차 손실 기울기의 코사인 유사도를 사용하여 모델 일치도를 판단하는 방법을 제시했습니다. 이는 정확도를 유지하면서 계산 효율성을 높입니다.
Binary-LEA: 다중 클래스 문제를 이진 문제로 분해하여 계산 복잡도를 $O(n!)$ 에서 $O(n^3)$ 으로 낮춘 최적화 알고리즘을 개발했습니다.
실험적 검증 및 방어 분석:
- 다양한 데이터셋 (Breast Cancer, Give-me-some-credit, MNIST) 과 VFL 설정에서 기존 최첨단 공격 (PMC 등) 대비 50%~90% 높은 공격 정확도를 달성했습니다.
- 기존 방어 기법 (기울기 노이즈, 기울기 압축) 은 LEA 에 효과적이지 않음을 증명했습니다.
- 라벨 매핑 테이블 (Label Mapping Table) 기반의 새로운 방어 전략을 제안하고 그 한계를 분석했습니다.

4. 실험 결과 (Results)

공격 정확도 (ASR):
- 이진 분류 (Breast Cancer, Give-me-some-credit): 공격 정확도 90% 이상 달성.
- 다중 분류 (MNIST-3, 5, 10): 공격 정확도 80% 이상 유지.
- 기존 공격 (PMC) 은 보조 데이터가 없을 경우 무작위 추측 수준으로 떨어지는 반면, LEA 는 보조 데이터 없이도 높은 성능을 보였습니다.
클러스터링 정확도의 영향: 공격 성공률은 클러스터링 정확도와 강한 상관관계를 보였습니다. 공격자가 가진 특징의 양보다는 **데이터의 질 (클러스터링 가능성)**이 공격 성패를 좌우합니다.
계산 비용: Binary-LEA 를 적용하면 MNIST-10(10 클래스) 과 같은 대규모 클래스에서 LEA 대비 약 19,000 배 이상의 시간 단축 효과를 보였습니다.
방어 기법 평가:
- 기울기 노이즈/압축: LEA 에 대한 방어 효과가 미미했습니다. 노이즈가 기울기의 상대적 크기 순서를 바꾸지 못하기 때문입니다.
- 라벨 매핑 테이블: 공격자가 보조 데이터가 없거나 라벨 분포가 균일한 경우 (예: MNIST) 에는 효과가 있으나, 라벨 분포 편향이 크거나 보조 데이터가 있을 경우 우회될 수 있습니다.

5. 의의 및 결론 (Significance)

이 논문은 VFL 환경에서 라벨 프라이버시가 생각보다 취약할 수 있음을 강력하게 시사합니다.

보조 데이터 불필요: 기존 연구의 가장 큰 약점이었던 '보조 데이터 의존성'을 해결함으로써, 실제 산업 환경에서도 공격이 가능함을 입증했습니다.
새로운 위협 모델: 패시브 참여자가 단순히 데이터를 클러스터링하고 라벨을 열거하는 것만으로도 민감한 라벨 정보를 탈취할 수 있음을 보여주었습니다.
방어 필요성: 기존에 사용되던 기울기 노이즈나 압축 같은 표준 방어 기법으로는 LEA 를 막기 어렵다는 점을 지적하며, VFL 의 라벨 프라이버시를 보호하기 위한 더 강력한 새로운 방어 메커니즘 (예: 라벨 매핑 테이블의 개선 등) 의 개발 필요성을 제기합니다.

결론적으로, LEA 는 VFL 의 보안 취약점을 폭로하고, 향후 VFL 시스템 설계 시 라벨 추론 공격에 대한 고려가 필수적임을 강조하는 중요한 연구입니다.

LEA: Label Enumeration Attack in Vertical Federated Learning

1. 배경: "함께 요리하지만, 레시피는 숨겨진 식당"

2. 공격의 핵심: "미스터리한 요리사 (공격자) 의 작전"

🕵️‍♂️ 공격 방법 1: "모든 경우의 수를 다 시도해보기 (LEA)"

🚀 공격 방법 2: "계산량을 줄이는 지혜 (Binary-LEA)"

3. 왜 이 공격이 무서운가?

4. 방어는 가능한가? (방어막 테스트)

5. 결론: "우리는 더 안전한 방어를 찾아야 한다"

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

A. 기본 공격 프로세스 (LEA)

B. 계산 비용 최적화: Binary-LEA

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank