Federated Active Learning Under Extreme Non-IID and Global Class Imbalance

Each language version is independently generated for its own context, not a direct translation.

1. 배경: 왜 이 연구가 필요한가요?

상황 설정:
여러 개의 학교 (클라이언트) 가 있다고 상상해 보세요. 각 학교는 학생들의 데이터를 서버로 보내지 않고, 스스로 공부합니다. 이것이 연방 학습입니다. (개인정보 보호를 위해 데이터를 공유하지 않음)

하지만 두 가지 큰 문제가 있습니다.

비슷하지 않은 환경 (Non-IID): A 학교는 수학을 잘하지만 B 학교는 미술만 잘합니다. 데이터가 학교마다 너무 다릅니다.
극단적인 불균형 (Global Class Imbalance): 전체 학생들을 합쳐보면, '수학 천재'는 많지만 '미술 천재'는 극소수입니다. (머신러닝에서 '머리'와 '꼬리' 클래스 문제)

기존 방법의 문제:
기존에는 "선생님 (글로벌 모델)"이 모든 학교를 가르치거나, "각 학교의 담임 (로컬 모델)"이 혼자 가르치는 방식을 썼습니다.

선생님: 전체적인 평균을 내다 보니, 소수인 '미술 천재'를 간과하고 '수학 천재'만 계속 가르칩니다.
담임: 학교마다 편차가 커서, 전체적인 균형이 깨집니다.

결국 **비싼 비용 (라벨링 비용)**을 들여도 **약한 친구 (소수 클래스)**를 제대로 가르치지 못해 전체 성적이 떨어지는 문제가 발생했습니다.

2. 핵심 발견: "누가 질문을 던져야 할까?"

저자는 실험을 통해 놀라운 사실을 발견했습니다.

"무조건 좋은 선생님이 답이 아니다. 상황에 따라 '전체적인 균형'을 잘 잡는 모델이 더 중요하다."

상황 A (전체 불균형 심함 + 학교들 비슷함): 전체적으로 '미술' 학생이 너무 드물고, 학교들끼리 비슷할 때는 **전체 선생님 (글로벌 모델)**이 질문을 던지는 게 좋습니다. 전체를 아우르는 시야가 필요하기 때문입니다.
상황 B (학교마다 다름): 학교마다 편차가 크다면, **각 학교 담임 (로컬 모델)**이 질문을 던지는 게 좋습니다. 각 학교의 특수한 상황을 잘 알기 때문입니다.

핵심 통찰: 단순히 "누가 더 똑똑한가"가 아니라, **"누가 소수 친구 (미술 천재) 를 골라내서 공부를 시킬 수 있는가"**가 최종 성적 (모델 성능) 을 결정합니다.

3. 제안된 해결책: FairFAL (공정한 학습 시스템)

이 문제를 해결하기 위해 저자는 FairFAL이라는 새로운 시스템을 만들었습니다. 이 시스템은 3 단계로 작동합니다.

① 상황 판단: "오늘은 누가 질문할까?" (적응형 모델 선택)

비유: 각 학교 담임이 "오늘은 우리 학교가 전체 평균과 너무 달라서 내가 질문할까, 아니면 전체 선생님에게 맡길까?"를 스스로 판단합니다.
작동: 데이터가 얼마나 불균형한지, 학교마다 얼마나 다른지 가볍게 계산해서, **상황에 맞는 질문자 (글로벌 또는 로컬)**를 자동으로 골라냅니다.

② 소수 친구 찾기: "비밀 지도로 찾기" (프로토타입 기반 가상 라벨링)

비유: 소수인 '미술 천재'를 찾기 위해, 전체 선생님에게서 얻은 **'미술 천재의 특징 (프로토타입)'**을 비밀 지도로 사용합니다.
작동: 아직 이름을 모르는 학생 (레이블 없는 데이터) 들을 이 지도와 비교합니다. "이 학생은 미술 천재의 특징과 비슷해!"라고 판단되면, 마치 이미 답을 안 것처럼 가상의 라벨을 붙여줍니다. 이렇게 하면 소수 클래스를 의도적으로 많이 골라낼 수 있습니다.

③ 중복 방지: "다양한 친구들만 뽑기" (불확실성 + 다양성 균형)

비유: "미술 천재"를 찾을 때, 너무 비슷한 친구들만 뽑으면 의미가 없습니다. "미술 천재" 중에서도 서로 다른 스타일을 가진 다양한 친구들을 골라야 합니다.
작동:
1. 불확실성: "어떤 답을 할지 모르는" 친구들을 먼저 고릅니다. (공부할 가치가 높은 친구)
2. 다양성: 그중에서도 서로 너무 비슷한 친구는 제외하고, 다양한 스타일을 가진 친구들만 최종 선별합니다.

4. 결과: 왜 이 방법이 뛰어난가요?

이 실험은 의료 이미지 (암 진단 등) 와 일상 이미지 (자동차, 동물 등) 로 테스트했습니다.

기존 방법들: 소수 클래스 (예: 희귀한 암) 를 놓치거나, 데이터가 불균형할 때 성능이 급격히 떨어졌습니다.
FairFAL: 어떤 상황에서도 소수 클래스를 놓치지 않고, 전체적인 학습 효율을 높였습니다. 특히 데이터가 매우 불균형하고 학교마다 다를 때 (극단적인 상황) 기존 방법들을 압도적으로 이겼습니다.

📝 한 줄 요약

"모두가 함께 배우는 환경에서, 소수 친구 (희귀 데이터) 를 놓치지 않기 위해 상황에 따라 질문자를 바꾸고, 비밀 지도를 활용하여 공평하게 학습하는 새로운 방법 (FairFAL) 을 개발했습니다."

이 기술은 의료 진단, 자율주행, 사물인터넷 등 데이터가 분산되어 있고 개인정보가 중요하며, 희귀한 사례를 찾아야 하는 모든 분야에 적용될 수 있습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

연방 능동 학습 (Federated Active Learning, FAL) 은 프라이버시 제약 하에서 데이터 주체가 원본 데이터를 공유하지 않고 협력하여 모델 학습에 필요한 가장 정보량이 많은 샘플을 선택 (Query) 하고 레이블을 획득하는 기술입니다. 그러나 현실적인 FAL 환경에서는 다음과 같은 두 가지 주요 과제가 존재합니다.

글로벌 클래스 불균형 (Global Class Imbalance): 전체 데이터셋에 희귀하지만 중요한 클래스 (Tail classes) 가 매우 드물게 분포하는 장꼬리 (Long-tailed) 분포가 존재합니다.
극단적인 Non-IID (Client Heterogeneity): 각 클라이언트 (사용자/기기) 의 데이터 분포가 서로 매우 다르게 분포되어 있습니다.

기존 FAL 방법론들은 주로 클라이언트 간 데이터 편향을 '분할 문제'로만 간주하거나, 전체 레이블 분포가 균형을 이룬다고 가정하는 경우가 많습니다. 이로 인해 소수 클래스 (Minority classes) 가 체계적으로 누락되고, 주류 클래스 (Head classes) 에 편향된 샘플이 선택되어 주석 비용 (Annotation Cost) 이 비효율적으로 사용되며 최종 모델 성능이 저하되는 문제가 발생합니다.

2. 핵심 통찰 (Key Insights)

저자들은 FAL 에서 글로벌 모델 (Global Model) 과 로컬 모델 (Local Model) 중 어떤 것을 쿼리 선택기 (Query Selector) 로 사용하는 것이 효과적인지 체계적으로 분석하여 다음과 같은 통찰을 얻었습니다.

클래스 균형 샘플링의 중요성: 최종 성능은 선택된 샘플의 클래스 균형 (특히 소수 클래스 확보) 과 직접적으로 비례합니다.
모델 선택의 조건:
- 글로벌 모델이 유리한 경우: 글로벌 불균형이 심하지만 (Large $\rho$ ), 클라이언트 간 데이터 분포가 비교적 균일할 때 (Large $\alpha$ ). 이 경우 글로벌 모델이 클라이언트 간 지식을 공유하여 소수 클래스를 더 잘 포착합니다.
- 로컬 모델이 유리한 경우: 글로벌 분포가 균일하거나, 클라이언트 간 이질성이 매우 심할 때 (Small $\alpha$ ). 이 경우 로컬 모델이 각 클라이언트의 고유한 결정 경계를 더 잘 반영합니다.
기존 방법의 한계: 대부분의 기존 방법은 이러한 조건을 고려하지 않고 고정된 모델 (전역 또는 로컬) 을 사용하거나, 클래스 불균형을 명시적으로 해결하지 못해 성능이 저하됩니다.

3. 제안 방법: FairFAL

위 통찰을 바탕으로 저자는 FairFAL이라는 적응형 클래스 공정 (Class-Fair) FAL 프레임워크를 제안합니다. FairFAL 은 크게 세 가지 핵심 구성 요소로 이루어집니다.

3.1. 적응형 모델 선택 (Adaptive Model Selection)

각 클라이언트마다 글로벌 모델과 로컬 모델 중 어떤 것을 쿼리 선택기로 사용할지 동적으로 결정합니다.

글로벌 불균형 추정: 클라이언트의 레이블된 데이터를 기반으로 글로벌 모델의 예측 확률 분포를 추정하여 글로벌 불균형 비율 ( $\gamma$ ) 을 계산합니다.
로컬 - 글로벌 발산 추정: 로컬 모델과 글로벌 모델의 예측 사전 분포 (Predictive Prior) 간의 차이를 측정하여 클라이언트의 이질성 ( $d_k$ ) 을 평가합니다.
선택 기준: 계산된 지표를 바탕으로 각 클라이언트에 가장 적합한 모델 (Global 또는 Local) 을 선택하는 스코어 ( $s_k$ ) 를 산출합니다. 이는 추가적인 프라이버시 유출 없이 경량화된 통계량만으로 수행됩니다.

3.2. 프로토타입 기반 의사 레이블링 (Prototype-Guided Pseudo-Labeling)

클래스 불균형 상황에서 분류기의 편향을 줄이기 위해 직접적인 분류기 예측 대신 프로토타입 (Prototype) 을 활용합니다.

글로벌 특징 활용: Observation 3 에 따라, 글로벌 모델이 더 일반화된 특징 표현을 제공하므로 이를 사용하여 각 클래스의 특징 프로토타입을 계산합니다.
의사 레이블 할당: 레이블이 없는 샘플을 각 클래스 프로토타입과의 유사도 (Cosine Similarity) 를 기반으로 할당하여, 소수 클래스에 대한 샘플 선택을 유도합니다.

3.3. 불확실성 - 다양성 균형 샘플링 (Uncertainty-Diversity Balanced Sampling)

단순히 불확실성이 높은 샘플만 선택하면 중복된 샘플이 선택될 수 있으므로, 두 단계 전략을 적용합니다.

클래스별 후보 풀 구성: 각 클래스 내에서 불확실성 (Entropy 등) 이 높은 샘플들을 과대표집 (Oversampling, $\kappa$ 배) 하여 후보 풀을 만듭니다.
k-center 다양성 샘플링: 글로벌 모델의 그래디언트 임베딩 (Gradient Embedding) 공간에서 k-center 알고리즘을 적용하여, 선택된 샘플들이 특징 공간에서 다양하게 분포하도록 최종 쿼리 세트를 구성합니다. 이는 소수 클래스의 커버리지를 보장합니다.

4. 실험 결과 (Results)

저자는 FMNIST, CIFAR-10, CIFAR-100 과 의료 영상 데이터셋 (OctMNIST, DermaMNIST) 등 5 가지 벤치마크에서 실험을 수행했습니다.

성능 우위: 극단적인 Non-IID ( $\alpha=0.1$ ) 와 글로벌 불균형 ( $\rho=20$ ) 조건에서 기존 SOTA(FAL 및 AL) 방법들 (KAFAL, LoGo, IFAL 등) 보다 일관되게 높은 테스트 정확도를 기록했습니다.
의료 데이터에서의 효과: 본래 클래스 불균형이 심한 의료 데이터셋 (DermaMNIST 등) 에서도 FairFAL 이 가장 높은 정확도를 달성하여, 실제 임상 환경에서의 적용 가능성을 입증했습니다.
성분 분석 (Ablation Study):
- 적응형 모델 선택, 프로토타입 기반 샘플링, 2 단계 균형 샘플링 중 어느 하나라도 제거 시 성능이 저하됨을 확인했습니다.
- 글로벌 특징을 기반으로 한 프로토타입이 로컬 기반보다 더 나은 성능을 보였습니다.
강건성: 다른 연방 학습 프레임워크 (FedProx, SCAFFOLD), 클라이언트 수, 모델 아키텍처 (MobileNet, ResNet-18), 불확실성 측정 지표 변경 등 다양한 조건에서도 우수한 성능을 유지했습니다.

5. 의의 및 기여 (Significance)

새로운 관점 제시: FAL 성능 저하의 근본 원인이 '클라이언트 이질성' 그 자체보다는 '클래스 불균형 샘플링 실패'에 있음을 규명하고, 이를 해결하기 위한 모델 선택 전략을 제시했습니다.
실용적 프레임워크: 프라이버시를 유지하면서 극단적인 데이터 불균형과 이질성을 동시에 처리할 수 있는 FairFAL을 제안하여, 의료 진단, 자율 주행 등 레이블 비용이 높고 데이터 편향이 심한 실제 응용 분야에 적용 가능한 솔루션을 제공합니다.
코드 공개: 연구의 재현성을 위해 코드를 공개하여 (GitHub 링크 포함), 후속 연구 및 실제 시스템 통합을 장려합니다.

이 논문은 연방 학습과 능동 학습의 결합이 가진 잠재력을 극대화하기 위해, 단순한 데이터 분할 문제를 넘어 클래스 수준의 공정성 (Class Fairness) 을 고려해야 함을 강조하는 중요한 연구로 평가됩니다.