원저자: Emre Ozfatura, Kerem Ozfatura, Baturalp Buyukates, Mert Coskuner, Alptekin Kupcu, Deniz Gunduz

게시일 2026-05-07

📖 4 분 읽기☕ 가벼운 읽기

원저자: Emre Ozfatura, Kerem Ozfatura, Baturalp Buyukates, Mert Coskuner, Alptekin Kupcu, Deniz Gunduz

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

수천 명의 예술가 (이를 '클라이언트'라고 부름) 가 서로의 개인 스케치를 절대 공개하지 않은 채 하나의 완벽한 걸작을 함께 그리려는 거대하고 협업적인 예술 프로젝트를 상상해 보세요. 이들은 자신의 붓질들을 중앙 큐레이터 (즉, '서버') 에게 보내고, 큐레이터는 이를 모두 섞어 그림의 다음 버전을 만들어냅니다. 이것이 바로 **연방 학습 (Federated Learning)**입니다.

문제는 무엇일까요? 일부 예술가는 실제로 파괴자 (이를 '비잔틴'이라고 부름) 입니다. 그들은 그림을 망치고 싶어 합니다. 하지만 여기서 함정이 있습니다. 큐레이터는 모든 예술가의 신원을 하나하나 확인할 수 없으며, 예술가들은 서로 다른 스타일과 재료를 사용합니다. 만약 파괴자들이 단순히 밝은 빨간색 물감을 여기저기 뿌린다면, 큐레이터는 즉시 그들을 알아차리고 퇴출시킬 것입니다.

이 논문은 파괴자들이 들키지 않고 그림을 망칠 수 있는 새로운 교묘한 방법을 소개합니다. 그들은 이를 **하이브리드 희소 공격 (Hybrid Sparse Attack, HSA)**이라고 부릅니다.

다음은 이를 간단한 개념으로 분해한 작동 원리입니다:

1. 구식 방법: '느린 독' 대 '큰 망치'

과거의 파괴자들은 두 가지 주요 전략을 사용했지만, 둘 다 결함이 있었습니다:

느린 독 (ALIE 와 유사): 그들은 그림에 거의 눈에 띄지 않는 미세한 변화를 주었습니다. 이는 발견하기 매우 어려웠지만, 피해는 느리고 약했습니다. 거대한 수프에 독 한 방울을 떨어뜨리는 것과 같아서, 수프는 여전히 대부분 맛이 괜찮았습니다.
큰 망치: 그들은 거대하고 명백한 변화를 주었습니다. 이는 그림을 빠르게 망쳤지만, 큐레이터는 즉시 경고 신호를 감지하고 파괴자들을 퇴출시켰습니다.

이 논문은 구식 방법으로는 속도와 은폐를 동시에 달성할 수 없다고 주장합니다.

2. 새로운 술수: '스나이퍼와 유령'

저자들은 그림의 모든 부분이 동등하게 중요하지 않다는 점을 깨달았습니다. 일부 붓질 (신경망 가중치) 은 그림의 구조에 결정적이지만, 다른 것들은 단순한 배경 소음에 불과합니다. 또한, 올바른 위치만 건드리면 모든 부분을 건드릴 필요가 없다는 점도 깨달았습니다.

그들의 새로운 공격은 두 가지 전술을 하나로 결합합니다:

유령 (은폐 부분): 그들은 그림의 대부분에 눈에 띄지 않는 미세한 변화를 줍니다. 이는 큐레이터가 "이건 정상적으로 보이는데?"라고 생각하게 만듭니다.
스나이퍼 (공격 부분): 그들은 그림의 특정하고 가장 민감한 '중요 레이어' (예: 눈이나 얼굴) 를 식별합니다. 이러한 특정 위치에는 거대한 피해를 가합니다.

비유: 군중을 점검하는 보안 요원을 상상해 보세요.

군중 속 모든 사람이 약간 다른 모자를 쓰고 있다면, 보안 요원은 누가 스파이인지 구별할 수 없습니다.
'유령' 부분은 스파이가 군중의 일반적인 분위기 속에 자연스럽게 섞이도록 보장합니다.
'스나이퍼' 부분은 스파이가 보안 요원이 눈을 돌리는 정확한 순간에만 요원의 총을 조용히 바나나로 교체하는 것입니다. 요원의 나머지 장비는 정상적으로 보이므로, 요원은 너무 늦을 때까지 아무것도 의심하지 않습니다.

3. '청사진' 활용 (아키텍처 인식)

대부분의 이전 공격은 '맹목적'이었습니다. 중요한 것을 맞히기를 바라며 무작위로 물감을 뿌렸습니다.

이 새로운 공격은 지능적입니다. 신경망의 '청사진' (아키텍처) 을 살펴봅니다. 네트워크의 끝단에 있는 '민감한' 레이어 (예: 완전 연결 레이어) 와 '중요한' 레이어 (예: 배치 정규화) 가 정확히 어디인지 파악합니다.

이는 AI 를 더 작고 빠르게 만드는 데 일반적으로 사용되는 가지치기 (pruning) 기법을 사용하여 네트워크에서 가장 취약한 지점을 찾습니다.
나머지 네트워크가 '가지치기'된 것처럼 정상적으로 보이게 유지하면서, '스나이퍼' 피해를 이러한 취약한 지점에 집중시킵니다.

4. 결과: 걸작이 폐허로 변하다

저자들은 현재 세계 최고로 평가받는 여덟 가지 다른 '보안 요원' (방어 메커니즘) 에 대해 이 공격을 테스트했습니다.

정상적이고 조직화된 그룹 (IID 데이터) 에서: 그들의 공격은 최종 그림의 품질을 최대 **55%**까지 저하시켰습니다.
혼란스럽고 지저분한 그룹 (Non-IID 데이터) 에서: 공격은 너무 효과적이어서 그림이 완전히 무너져 내리게 만들었으며, 정확도는 거의 **10%**까지 떨어졌습니다 (이는 basically 무작위 추측 수준입니다).

통계적 이상치를 찾거나 업데이트 간의 거리를 측정함으로써 파괴자들을 잡아내던 가장 진보된 보안 요원들조차 속았습니다. 이 공격은 모델을 파괴할 만큼 강력하면서도, 평범한 모습 속에 숨을 수 있을 만큼 '희소 (sparse)'했습니다.

결론

이 논문은 현재 협업형 AI 를 위한 보안 시스템이 보호하려는 AI 의 내부 구조를 이해하지 못하기 때문에 취약하다고 주장합니다. AI 의 자체 '청사진'을 사용하여 약점을 찾아 외과 수술처럼 공격함으로써, 파괴자들은 동시에 공격적 (거대한 피해 유발) 이면서도 지각 불가능한 (평범한 모습 속에 숨음) 존재가 될 수 있습니다.

저자들은 이 공격이 네트워크의 자체 아키텍처를 이용하여 파괴를 유도한 최초의 사례이며, 거의 모든 알려진 방어에 작동하는 '보편적' 위협을 창출했다고 결론지었습니다.

Each language version is independently generated for its own context, not a direct translation.

기술 요약: 공격적, 불감지 가능, 또는 양쪽 모두: 연동 학습을 위한 아키텍처 인지형 하이브리드 비잔틴 공격

문제 제기

연동 학습 (Federated Learning, FL) 은 원시 데이터를 공유하지 않고 분산된 클라이언트 간에 협력적 모델 훈련을 가능하게 합니다. 그러나 대규모로 모든 클라이언트를 프로파일링하고 검증할 수 없다는 점은 치명적인 보안 취약점을 야기합니다: 비잔틴 공격 (Byzantine attacks). 악의적인 클라이언트는 전역 모델의 정확도를 저하시키거나 발산을 초래하기 위해 중독된 모델 업데이트를 제출할 수 있습니다.

기존 방어 메커니즘은 주로 이상치 탐지에 의존하며, 기하학적 거리나 인덱스별 통계를 기반으로 악의적인 업데이트를 통계적 이상치로 취급합니다. 이러한 방어는 종종 신경망 (NN) 의 내부 구조가 공격 전략과 무관하다고 가정합니다. 반면, 기존 공격 전략 (예: ALIE, IPM) 은 일반적으로 대상 NN 의 특정 아키텍처를 무시하고 대신 기울기의 통계적 조작에 집중합니다. 본 논문은 현재 방어 체계가 특정 네트워크 가중치의 민감도와 모델의 위상적 구조를 고려하지 못하기 때문에 취약하며, 이로 인해 공격자가 매우 효과적이면서도 탐지하기 어려운 교란을 설계할 수 있다고 주장합니다.

방법론: 하이브리드 희소 비잔틴 공격 (HSA)

저자들은 **하이브리드 희소 비잔틴 공격 (Hybrid Sparse Byzantine Attack, HSA)**이라는 새로운 공격 프레임워크를 제안합니다. 이전의 "아키텍처 무관 (architecture-agnostic)" 방법들과 달리, HSA 는 교란 설계를 안내하기 위해 NN 아키텍처에 관한 사이드 정보를 명시적으로 활용합니다. 이 공격은 **불감지 가능성 (탐지 회피)**과 강도 (최대 피해) 사이의 균형을 맞추기 위해 두 가지 조정된 구성 요소를 결합합니다:

희소 공격적 구성 요소:
- 이 구성 요소는 교란에 매우 민감한 것으로 식별된 네트워크 매개변수 (가중치) 의 작고 신중하게 선택된 부분 집합을 표적으로 합니다.
- 이러한 중요한 가중치를 식별하기 위해 네트워크 가지치기 프레임워크(구체적으로 FORCE 알고리즘) 를 활용합니다. 저자들은 가지치기가 불필요한 가중치를 식별하는 방식과 유사하게, 남은 "민감한" 가중치가 공격에 가장 영향력 있는 표적이 된다고 주장합니다.
- 이러한 희소 위치에 큰 교란 예산 ( $z_2$ ) 을 집중함으로써, 공격은 최소한의 전역 편차로 높은 교란을 달성합니다.
밀집 은밀한 구성 요소:
- 이 구성 요소는 ALIE 공격의 행동을 모방하여 대부분의 매개변수에 걸쳐 작고 일관된 교란 ( $z_1$ ) 을 적용합니다.
- 인덱스별 이상치 탐지를 회피하고 기하학적 거리 기반 방어를 유발하지 않으면서 시간에 따라 오차를 누적하도록 설계되었습니다.

하이브리드 전략:
최종 적대적 업데이트는 이 두 구성 요소의 합입니다: $\Delta_t = \Delta_{1,t} + \Delta_{2,t}$ .

정적 vs 동적: 저자들은 고정된 스케일링 계수를 사용하는 정적 버전과, 탐지 임계값 내에서 교란을 최대화하기 위해 각 반복에서 은밀한 구성 요소의 스케일링 계수를 최적화하는 **동적 HSA (DHSA)**를 모두 도입합니다.
레이어별 제약: 교란의 불균등한 분포 (예: 완전 연결 레이어에 과도하게 집중) 로 인해 공격이 드러나는 것을 방지하기 위해, 저자들은 마스크 생성 과정에서 레이어별 희소성 제약을 부과합니다. 이는 네트워크 위상 전반에 걸쳐 비영교란의 더 균일한 분포를 보장합니다.

주요 기여

아키텍처 인지형 공격 설계: 본 연구는 비잔틴 공격의 설계를 안내하기 위해 대상 NN 의 아키텍처적 특성 (구체적으로 가지치기를 통한 민감한 가중치 식별) 을 명시적으로 활용하는 최초의 작업입니다.
하이브리드 희소 공격 (HSA): 인덱스별 통계적 방어 (밀집 구성 요소를 통해) 와 기하학적 거리 기반 방어 (희소하고 고강도의 구성 요소를 통해) 의 취약점을 동시에 표적하는 이중 구성 요소 공격 전략의 도입.
레이어별 희소성 제약: 특정 네트워크 레이어 (예: 완전 연결 레이어의 희소성 제한) 에 걸친 희소 마스크의 분포에 제약을 부과함으로써 GAS 와 같은 레이어별 방어 메커니즘에 대한 공격의 견고성을 크게 향상시킨다는 것을 입증.
포괄적 평가: 다양한 NN 아키텍처 (ResNet-20, CNN, MLP), 데이터셋 (CIFAR-10, F-MNIST, MNIST), 데이터 분포 (IID 및 비-IID) 에 걸쳐 8 가지 최첨단 방어 메커니즘에 대한 광범위한 시뮬레이션.

실험 결과

제안된 HSA 및 DHSA 프레임워크는 Bulyan, Centered Clipping (CC), Coordinate-wise Median (CM), Multi-Krum, Robust Federated Averaging (RFA), Trimmed Mean (TM), GAS를 포함한 견고한 집계기들에 대해 평가되었습니다.

IID 환경에서의 성능:
- HSA 는 M-Krum 에 대해 테스트 정확도를 **15.5%**까지, CC 에 대해 **39.6%**까지 낮추어, M-Krum 에 대해 약 55% 를 기록한 ALIE 와 같은 기존 공격들을 크게 능가했습니다.
- 동적 버전 (DHSA) 은 전체적인 성능이 가장 우수하여, 8 개 집계기 전체의 평균 테스트 정확도를 38% 미만으로 낮추고 최상위 성능을 보이는 집계기를 55% 미만으로 유지했습니다.
비-IID 환경에서의 성능:
- 이 공격은 이질적인 데이터 시나리오에서 더욱 효과적이었습니다. 레이어별 제약을 적용한 HSA 는 많은 경우 전역 모델이 완전히 발산하게 하여 테스트 정확도를 평균 **9.2%**까지 낮췄습니다.
- TM 및 RFA 와 같은 특정 집계기에 대해서는 공격이 정확도를 10% (무작위 추측 수준) 까지 낮췄습니다.
다른 공격과의 비교:
- HSA 는 테스트된 모든 방어 메커니즘에 걸쳐 기존 최상위 성능 공격 (ALIE, ROP, Min-Sum, Min-Max) 을 일관되게 능가하거나与之 맞먹는 성능을 보였습니다.
- 본 연구는 정적 공격이 특정 방어에 어려움을 겪는 반면, DHSA 의 스케일링 계수 동적 적응이 이를 효과적으로 우회할 수 있음을 강조합니다.

중요성과 주장

본 논문은 중독 공격이 효과적이기 위해 엄격한 불감지 가능성이 항상 필요한 것은 아님을 입증한다고 주장합니다. 아키텍처 특정 민감 가중치에 대한 교란 강도를 크게 증가시키기 위해 불감지 가능성을 약간 희생함으로써, 공격은 더 나은 절충안을 달성합니다.

저자들은 현재 방어 메커니즘이 신경망의 내부 위상을 무시하고 모델 업데이트를 블랙박스 벡터로 취급하기 때문에 취약하다고 강조합니다. 네트워크 아키텍처에 관한 사이드 정보 (구체적으로 가지치기에서 유도된 가중치 민감도) 가 "더 강력하지만 덜 감지 가능한" 공격을 설계하는 데 사용될 수 있음을 밝힘으로써, 본 논문은 현재 FL 보안 연구의 중요한 격차를 부각시킵니다.

본 연구는 직교 전략 (희소 공격성과 밀집 은밀함) 을 결합하고 아키텍처 사전 지식을 활용함으로써 보편적으로 효과적인 비잔틴 공격이 가능하다고 결론 내립니다. 이는 기존 견고한 집계기가 충분한 보안을 제공한다는 가정에 도전하며, 보호하는 모델의 구조적 속성을 고려한 방어에 대한 추가 연구를 요구합니다.

Aggressive or Imperceptible, or Both: Network Pruning Assisted Hybrid Byzantines in Federated Learning