Client-Cooperative Split Learning

Each language version is independently generated for its own context, not a direct translation.

🍳 상황: "요리사 (데이터 소유자)"와 "조리사들 (계산 능력자)"의 협력

상상해 보세요. 어떤 **요리사 (데이터 소유자)**가 아주 맛있는 비법 레시피 (데이터) 를 가지고 있지만, 직접 요리를 할 시간이 없거나 주방 (컴퓨터) 이 작습니다. 반면, **조리사들 (계산 능력자)**은 큰 주방과 뛰어난 실력을 가지고 있지만, 비법 레시피를 알지 못합니다.

이 두 그룹이 함께 요리를 하려면 어떻게 해야 할까요?

요리사는 비법 레시피를 그대로 보여줄 수 없습니다. (개인정보 보호)
조리사들은 각자 맡은 부분만 요리하고, 서로의 실력을 증명해야 합니다. (저작권 및 공정한 보상)

기존 방식은 '중앙 주방장 (서버)'에게 모든 것을 맡겼는데, CLICOOPER 는 이 '중앙 주방장' 없이도 여러 조리사들이 연쇄적으로 요리를 완성하게 합니다.

🛡️ CLICOOPER 의 3 가지 핵심 비법

이 시스템이 어떻게 문제를 해결하는지 세 가지 비유로 설명합니다.

1. "비밀스러운 레시피 변형" (라벨 확장 & 암호화)

문제: 요리사가 "이 재료는 '소고기'야"라고 말하면, 조리사가 그 재료의 정체를 추측할 수 있습니다.
해결: CLICOOPER 는 요리사가 레시피를 넘겨줄 때, '소고기'를 '비밀 코드 A', '비밀 코드 B' 등으로 여러 개로 쪼개고 섞어서 줍니다.
- 효과: 조리사들은 "아, 이걸로 요리를 하네"라고만 알지, 원래 재료가 소고기인지 닭고기인지 절대 알 수 없습니다.
- 마법: 하지만 진짜 요리사 (요리사) 만이 가진 '해독 키'로 다시 원래 이름으로 되돌릴 수 있습니다. 이 키가 없는 사람은 아무리 요리를 해도 맛이 이상하게 나옵니다.

2. "흐린 안개 속 요리" (차분 프라이버시, DP)

문제: 조리사들이 요리하는 중간 과정 (재료의 모양, 냄새 등) 을 보면, 원래 재료를 유추해낼 수 있습니다.
해결: 요리사가 재료를 넘겨줄 때, 약간의 '안개 (노이즈)'를 뿌려서 흐리게 만듭니다.
- 효과: 조리사들은 흐릿한 재료만 보고 요리를 해야 하므로, 원래 재료가 무엇인지 완벽하게 복원하는 것이 불가능해집니다. 안개가 너무 짙으면 요리가 망칠 수도 있지만, CLICOOPER 는 요리는 잘 되면서 안개는 충분히 짙게 뿌려서 도둑질을 막습니다.

3. "연쇄 도장 찍기" (체인드 워터마킹)

문제: 여러 조리사가 함께 일할 때, "내가 이 부분을 정말로 요리했어!"라고 증명해야 합니다. 누군가 남의 요리를 가져와서 "내가 한 거야"라고 속일 수 있기 때문입니다.
해결: 각 조리사가 요리를 끝낼 때마다, 이전 조리사가 만든 요리의 냄새 (데이터) 를 바탕으로 고유한 '도장 (워터마크)'을 찍습니다.
- 효과: 1 번 조리사의 도장이 2 번 조리사의 도장에, 2 번의 도장이 3 번의 도장에 연쇄적으로 연결됩니다.
- 결과: 만약 누군가 중간에 도장을 뺐거나, 남의 요리를 가져와서 도장을 찍으려 하면, 도장 연결이 끊어지거나 모양이 맞지 않아서 바로 들통납니다. 이렇게 하면 누가 어떤 부분을 기여했는지 100% 증명할 수 있어 공정한 보상을 받을 수 있습니다.

📊 실험 결과: 정말 효과가 있을까요?

연구진들은 이 시스템을 다양한 데이터 (이미지, 텍스트 등) 로 테스트했습니다.

요리 맛 (정확도): 비법 레시피를 변형하고 안개를 뿌려도, 최종 요리의 맛은 기존 방식과 거의 똑같거나 오히려 더 좋아졌습니다. (정확도 99% 이상 유지)
도둑질 방지:
- 클러스터링 공격: "이 재료들은 같은 종류일 거야"라고 추측하는 시도는 0% 성공했습니다. (완벽 차단)
- 복원 공격: 흐릿한 재료에서 원래 재료를 되찾으려 했을 때, 성공률은 50% 에서 3% 로 뚝 떨어졌습니다. (완전히 흐릿해짐)
- 모방 공격: 이 요리를 흉내 내서 다른 사람이 똑같은 요리를 만들려 했을 때, 그 맛은 **무작위 추측 수준 (약 1%)**에 그쳤습니다.

💡 결론

CLICOOPER는 "데이터를 가진 사람"과 "계산 능력을 가진 사람"이 서로를 불신하면서도, 서로의 비밀을 지키면서 함께 일할 수 있게 해주는 혁신적인 기술입니다.

데이터 소유자: 내 데이터를 절대 남에게 주지 않아도 됩니다.
계산 제공자: 내가 일한 만큼의 공정한 대가를 받을 수 있습니다.
누구도: 이 요리를 훔쳐서 남용할 수 없습니다.

이 기술은 앞으로 개인정보가 중요한 의료, 금융, 스마트 시티 등에서 AI 를 안전하게 만들 수 있는 새로운 길을 열어줄 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

기존의 분할 학습 (Split Learning, SL) 은 리소스가 제한된 데이터 소유자 (Client) 가 원시 데이터를 공개하지 않고 AI 모델 학습을 서버에 위임하는 방식입니다. 그러나 기존 SL 은 신뢰할 수 있는 강력한 중앙 서버를 전제로 합니다.

최근 에지 디바이스나 개인 장치의 분산된 컴퓨팅 자원을 활용하려는 서버리스 (Serverless) 및 다중 클라이언트 협력 환경이 등장하면서 다음과 같은 새로운 도전 과제가 대두되었습니다:

부분적 신뢰 (Partial Trust): 데이터 제공자 (Data Client) 와 여러 학습자 (Trainer Clients) 간의 신뢰가 불완전합니다. 학습자들은 자신의 컴퓨팅 자원을 제공하지만, 데이터 소유자의 민감한 정보 (레이블, 원시 데이터) 를 추론하려 하거나 (호기심), 자신의 기여에 대한 정당한 보상을 요구할 수 있습니다.
데이터 및 레이블 프라이버시: 학습자가 중간 활성화 (Intermediate Activation) 를 통해 원시 데이터나 레이블을 역추적 (Inversion) 하거나, 클러스터링을 통해 클래스 정보를 유출할 위험이 있습니다.
저작권 및 소유권 증명: 협력 학습 과정에서 각 학습자가 실제로 모델을 학습했는지, 아니면 사전 학습된 모델을 가져와서 보상을 탈취하는지 (Free-riding) 를 검증할 수 있는 메커니즘이 부재합니다.
무단 사용 방어: 학습된 모델을 외부 공격자가 블랙박스 API 를 통해 추출 (Model Extraction) 하여 복제하는 것을 막아야 합니다.

2. 제안 방법론: CLICOOPER (Methodology)

저자들은 위 문제를 해결하기 위해 CLICOOPER라는 다중 클라이언트 협력 분할 학습 프레임워크를 제안합니다. 이 프레임워크는 데이터 소유자 (C), 학습자 (T), 검증자 (V) 가 참여하며, 다음 세 가지 핵심 기술로 구성됩니다.

가. 비밀 매핑 레이블 확장 (Secret-mapping Label Expansion)

목적: 레이블의 의미와 수량을 숨기고 무단 사용을 방지.
방식: 데이터 소유자가 실제 레이블 (True Labels) 을 직접 공개하지 않고, 1 대 다 (One-to-Many) 비밀 매핑 함수를 통해 **의사 레이블 (Pseudo-labels)**로 변환합니다.
- 예: 실제 클래스 10 개를 20 개 이상의 의사 클래스로 확장.
- 데이터 증강 (Data Augmentation) 을 통해 확장된 레이블 공간에 맞춰 샘플 수를 조정합니다.
효과: 학습자는 확장된 의사 레이블 공간에서만 학습하므로 실제 레이블의 의미나 분포를 알 수 없으며, 권한이 없는 사용자는 모델의 출력을 해석할 수 없습니다.

나. 차분 프라이버시 기반 활성화 보호 (DP-guarded Activations)

목적: 중간 활성화 (Intermediate Activation) 를 통한 데이터 역추적 (Inversion) 및 속성 추론 방어.
방식: 데이터 소유자가 모델을 통과시킨 후 생성된 활성화 값에 **라플라스 노이즈 (Laplace Noise)**를 추가하여 차분 프라이버시 (Differential Privacy, DP) 를 적용합니다.
- $\ell_1$ 민감도 제한 (Clipping) 을 통해 노이즈 스케일을 제어합니다.
효과: 공격자가 활성화 값으로부터 원시 이미지를 재구성하거나 (Reconstruction), 클래스 간 군집 구조를 파악하는 것을 물리적으로 어렵게 만듭니다.

다. 동적 체인형 워터마킹 (Dynamic Chained Watermarking)

목적: 학습자의 기여도 증명, 소유권 확인, 무단 사용 방지.
방식:
1. 학습자가 자신의 모델 세그먼트를 학습한 후, 이전 학습자의 출력 활성화 (Activation) 해시값과 자신의 신원 정보를 기반으로 고유한 워터마크를 생성합니다.
2. 이 워터마크는 학습된 모델 가중치에 임베딩됩니다.
3. 각 학습자의 워터마크는 이전 단계의 결과에 의존하므로 **암호학적으로 연결된 체인 (Cryptographically Chained)**을 형성합니다.
효과:
- 검증 가능성: 검증자가 체인 구조를 확인하여 각 학습자가 실제 학습 과정을 거쳤는지 증명할 수 있습니다.
- 보상 및 책임: 정당한 기여자에게 보상을 지급하고, 무단 복제나 도용을 방지합니다.
- 블랙박스 방어: 워터마크는 내부 가중치에 숨겨져 있어 외부 공격자가 모델을 추출하더라도 유효한 워터마크 체인을 복제할 수 없습니다.

3. 주요 기여 (Key Contributions)

프라이버시와 신뢰의 간극 해소: 부분적으로 신뢰되는 환경에서 데이터 소유자의 원시 데이터와 레이블을 보호하면서도 효과적인 학습을 가능하게 하는 새로운 SL 프레임워크를 제안했습니다.
검증 가능한 학습 무결성 및 소유권: 암호학적으로 연결된 체인 워터마킹을 도입하여, 분산된 학습 단계의 무결성을 검증하고 기여도에 따른 공정한 보상을 보장합니다.
광범위한 실험적 검증: 다양한 데이터셋 (MNIST, CIFAR-10/100, AG News) 과 아키텍처 (CNN, Transformer) 에서 CLICOOPER 의 유효성을 입증했습니다.

4. 실험 결과 (Results)

실험을 통해 CLICOOPER 는 기존 SL 의 성능을 유지하면서 강력한 보안성을 제공함을 확인했습니다.

모델 정확도 (Accuracy):
- 보호 메커니즘 (레이블 확장, DP 노이즈, 워터마킹) 을 적용해도 기본 모델의 정확도는 거의 유지되거나, 일부 경우 (노이즈가 정규화제 역할) 에 최대 2% 향상되었습니다.
- 워터마킹 임베딩 및 검증 오버헤드는 학습 시간에 비해 미미합니다 (밀리초 단위).
프라이버시 공격 방어:
- 클러스터링 공격 (Clustering Attack): 학습자가 활성화 값을 통해 레이블 그룹을 추론하는 공격의 성공률을 **0%**로 낮췄습니다 (특히 CIFAR-10/100 에서).
- 역추적 공격 (Inversion Attack): 원시 데이터를 재구성하는 공격의 유사도 (SSIM) 가 0.50 에서 0.03으로 급격히 감소하여, 재구성이 사실상 불가능해졌습니다.
- 모델 추출 공격 (Model Extraction): 외부 공격자가 API 를 통해 학습된 모델을 복제하려 할 때, 생성된 서rogate 모델의 정확도는 약 1% (무작위 추측 수준) 로 떨어졌습니다.
오버헤드:
- 통신 지연 (Latency) 은 모델 복잡도에 비례하지만, 전체 학습 시간에 비해 매우 작아 실용적입니다.
- 워터마크 검증 정확도는 99% 이상을 유지하여 신뢰할 수 있는 소유권 증명이 가능합니다.

5. 의의 및 결론 (Significance)

CLICOOPER 는 서버리스 환경에서의 분산 AI 학습을 위한 새로운 패러다임을 제시합니다.

실용성: 중앙 서버에 의존하지 않고 에지 디바이스들의 유휴 자원을 활용하면서도, 데이터 소유자의 프라이버시와 학습자의 지적 재산권을 동시에 보호합니다.
신뢰 구축: 암호학적 체인 워터마킹을 통해 "누가 무엇을 학습했는지"를 투명하게 증명함으로써, 협력 학습 시장에서의 신뢰와 보상 시스템을 구축할 수 있습니다.
미래 지향성: 이 프레임워크는 데이터 주권 (Data Sovereignty) 이 강조되는 시대에, 민감한 데이터를 가진 개인이나 기관이 안전하게 AI 모델을 구축할 수 있는 길을 열어줍니다.

요약하자면, CLICOOPER 는 **프라이버시 보호 (레이블 확장 + DP)**와 **지적 재산권 보호 (체인 워터마킹)**를 결합하여, 신뢰가 불완전한 다중 클라이언트 환경에서도 안전하고 검증 가능한 분할 학습을 실현한 획기적인 연구입니다.