원저자: Sarthak Choudhary, Atharv Singh Patlan, Nils Palumbo, Ashish Hooda, Kassem Fawaz, Somesh Jha

게시일 2026-05-07

📖 4 분 읽기☕ 가벼운 읽기

원저자: Sarthak Choudhary, Atharv Singh Patlan, Nils Palumbo, Ashish Hooda, Kassem Fawaz, Somesh Jha

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

"모델 파라미터 내의 탐지 불가능한 백도어"라는 논문에 대한 설명을 쉬운 언어와 창의적인 비유로 풀어보겠습니다.

큰 그림: AI 의 "트로이 목마"

당신이 자신의 파티를 위해 유명 제과점 (예: Hugging Face) 에서 고급 기성 케이크를 구매한다고 상상해 보세요. 당신은 제과점을 신뢰하지만, 만약 악의적인 제과사가 케이크 레시피에 작고 보이지 않는 스위치를 슬쩍 넣었다면 어떨까요?

정상적인 행동: 케이크 조각을 평소대로 먹으면 맛은 완벽합니다.
백도어: 케이크 위에 특정하고 아주 작은 "마법 가루" (트리거) 를 뿌리면, 레시피는 당신에게 똑같이 보이지만 갑자기 완전히 다른 맛으로 변합니다 (예: 초콜릿 맛이 아니라 브로콜리 맛이 나는 것).

이 논문은 이러한 "마법 가루" 스위치를 AI 모델에 심는 새로운, 그리고 무섭도록 교묘한 방법을 소개합니다. 무서운 점은 무엇일까요? 전체 레시피 책을 손에 들고 있더라도 그 스위치를 찾을 수 없다는 것입니다.

문제: "고양이와 쥐"의 게임

수년 동안 보안 전문가 (방어자) 와 악의적인 행위자 (공격자) 는 고양이와 쥐의 게임을 해왔습니다.

공격자는 자신의 스위치를 숨기려 합니다.
방어자는 레시피 책에서 의심스러운 재료나 이상한 패턴을 스캔할 수 있는 도구를 만듭니다.
순환: 방어자가 더 나은 스캐너를 만들 때마다, 공격자는 스위치를 더 잘 숨기는 법을 배웁니다.

지금까지 공격자가 자신의 스위치가 "탐지 불가능하다"고 주장할 때마다, 방어자는 결국 그것을 찾아내는 방법을 찾아냈습니다. 이 논문은 그 순환을 깨뜨렸다고 주장합니다.

해결책: "희소 백도어 (Sparse Backdoor)"

저자들은 "희소 백도어"라는 공격을 개발했습니다. 비유를 들어 그 작동 원리를 설명하겠습니다.

1. 비밀 신호 (희소 방향)

AI 의 뇌에 해당하는 수백만 권의 책이 있는 거대한 도서관을 상상해 보세요. 공격자는 특정 이야기의 결과를 바꾸고 싶어 합니다. 도서관 전체를 다시 쓰는 대신, 거의 아무도 보지 않는 **특정이고 숨겨진 복도 하나 (희소 방향)**를 선택합니다.

그들은 그 복도에 아주 작은 신호를 심습니다. 그 복도를 지나가면 신호가 활성화되지만, 다른 어디를 가든 아무 일도 일어나지 않습니다. 신호가 거대한 도서관의 아주 작고 무작위적인 구석에 숨겨져 있기 때문에, 그것을 찾기는 매우 어렵습니다.

2. "노이즈" 담요 (가우시안 디더)

아무도 신호를 알아차리지 못하게 하기 위해, 공격자는 그것을 정적 (static) 노이즈로 이루어진 두껍고 푹신한 담요로 덮습니다 (이를 가우시안 디더라고 합니다).

흰색 소음이 가득한 방에서 속삭임을 듣는 것을 상상해 보세요.
공격자는 레시피에 무작위 "정적"을 너무 많이 추가하여, 백도어의 작은 "속삭임"이 소음 속에 사라지게 합니다.
인간이나 컴퓨터 스캐너에게 레시피는 항상 그랬던 것처럼 정확히 보입니다. 노이즈는 백도어를 재료의 또 다른 무작위 변동처럼 보이게 만듭니다.

3. 수학적 마술

이 논문은 암호학에서 유래한 **희소 PCA(Sparse PCA)**라는 개념을 사용합니다.

비유: 누군가 100 만 개의 파란 구슬이 담긴 통에 빨간 구슬 하나를 숨긴다고 상상해 보세요.
어려운 점: 빨간 구슬이 숨겨져 있다는 말은 들었지만 어디에 있는지 모르고, 통이 흔들리고 있다면 (노이즈), 그 빨간 구슬 하나를 찾는 것은 수학적으로 빠르게 수행하는 것이 불가능합니다.
주장: 저자들은 그들의 백도어를 찾는 것이 그 빨간 구슬 하나를 찾는 것과 똑같이 어렵다고 증명합니다. 단순히 "어렵다"는 것이 아니라, 어떤 컴퓨터도 합리적인 시간 내에 해결할 수 있는 계산적으로 불가능한 일입니다.

그들이 실제로 테스트한 것

연구자들은 이론만 이야기한 것이 아니라, 실제로 구축하여 실재 AI 모델에서 테스트했습니다.

모델: 그들은 세 가지 유형의 AI 뇌를 테스트했습니다. 표준 합성곱 네트워크 (기본적인 눈), ResNet (더 깊고 복잡한 눈), 그리고 비전 트랜스포머 (매우 고급스러운 현대식 눈).
데이터셋: 그들은 세 가지 다른 이미지 세트를 사용했습니다. CIFAR-10 (장난감 이미지), SVHN (집 번호), GTSRB (교통 표지판).
결과:
- 성공: "마법 가루" (트리거) 를 추가했을 때, AI 는 공격자가 선택한 목표 답변으로 정답을 93% 에서 99% 사이의 비율로 올바르게 변경했습니다.
- 은폐: 그들은 현재 이용 가능한 세 가지 최고의 "탐지기" 도구 (Neural Cleanse, FeatureRE, UNICORN) 를 통해 모델을 실행했습니다.
- 결과: 탐지기는 완전히 속았습니다. 그들은 깨끗한 모델과 백도어가 심어진 모델의 차이를 동전 던지기로 추측하는 것보다 더 잘 구별해 내지 못했습니다.

"클린 참조 (Clean Reference)" 트릭

이 논문에서 가장 영리한 부분 중 하나는 백도어가 탐지 불가능함을 증명하는 방식입니다.
보통 무언가가 숨겨져 있음을 증명하려면 "깨끗한" 버전과 비교합니다. 하지만 사전 훈련된 모델은 비교할 표준 "깨끗한" 버전이 없습니다.

저자들은 가짜 깨끗한 버전을 만들었습니다.

원래 모델을 가져옵니다.
백도어 신호 없이 "노이즈 담요"만 추가합니다.
수학적으로 이 "노이즈 전용" 모델이 원래 깨끗한 모델과 정확히 동일하게 행동함을 증명합니다.
그런 다음, "노이즈 전용" 모델과 "백도어" 모델 사이의 유일한 차이가 그 작고 숨겨진 빨간 구슬임을 보여줍니다.
빨간 구슬을 찾는 것이 수학적으로 불가능하므로, 백도어를 찾는 것도 불가능합니다.

결론: 전략의 전환

이 논문은 AI 보안 세계에 경각심을 일깨우는 메시지로 결론을 맺습니다.

"더 열심히 보는 것만으로는 이길 수 없습니다."

백도어가 찾아내는 것이 수학적으로 불가능하게 만드는 방식으로 숨겨져 있기 때문에, "모델을 스캔하고, 나쁜 사람을 찾아내고, 제거한다"는 기존 전략은 이러한 유형의 공격에 대해 근본적으로 무너졌습니다.

저자들은 백도어를 찾으려 노력하는 것을 멈추고 그것을 무력화하려 노력해야 한다고 제안합니다. 빨간 구슬을 찾으려 하기보다는, 빨간 구슬이 있더라도 상관없도록 게임의 규칙을 바꿔야 합니다 (예: 신호를 씻어내는 방식으로 모델을 재훈련하는 것, 다만 논문은 이것이 일관되지 않다고 지적합니다).

간단히 말해: 이 논문은 AI 에 비밀 스위치를 숨기는 것이, 스위치를 손에 들고 AI 를 눈앞에 두고 있더라도 그 스위치가 존재함을 증명할 수 없을 정도로 완벽하게 숨길 수 있음을 증명합니다. 이는 보안 커뮤니티가 AI 모델을 보호하는 방식에 대해 생각하는 방식을 바꾸도록 강요합니다.

Each language version is independently generated for its own context, not a direct translation.

기술 요약: 모델 파라미터 내 탐지 불가능한 백도어

문제 제기

공공 저장소 (예: Hugging Face) 에서의 사전 학습 모델 광범위한 채택은 하류 소비자가 검증되지 않은 제 3 자의 분류기를 신뢰해야 하는 공급망 공격 표면 을 창출했습니다. 악성 제공자는 깨끗한 입력에서는 올바르게 동작하지만, 트리거가 내장된 입력을 적대자가 선택한 목표 클래스로 오분류하도록 하는 모델을 배포할 수 있습니다.

파라미터 수준 탐지가 주요 방어 수단이지만, 기존 공격과 방어는 경험적 인 "고양이와 쥐"의 순환 속에서 공진화해 왔습니다. 이전의 어떤 공격도 임의의 효율적 알고리즘에 의한 탐지를 배제하지는 못했습니다. 형식적 인 탐지 불가능성 보장을 제공한 유일한 선행 연구 (Goldwasser 등, 2022) 는 알려진 무작위 분포에서 추출된 가중치를 가진 단일 레이어 네트워크로 제한되어 있어, 실제 사용되는 표준 다층 사전 학습 분류기에 대한 증명 가능한 탐지 불가능성에 관한 간극이 존재합니다.

방법론: 희소 백도어 (Sparse Backdoor)

저자들은 합성곱 신경망 (ConvNets) 과 비전 트랜스포머 (ViTs) 를 포함한 사전 학습 이미지 분류기에 증명 가능한 탐지 불가능한 백도어를 심는 공급망 공격 인 희소 백도어 (Sparse Backdoor) 를 제안합니다. 이 공격은 사전 학습 모델의 완전 연결 (FC) 레이어만 수정하고, 특징 인코더는 고정된 상태로 둡니다.

핵심 메커니즘

이 공격은 각 FC 레이어의 소수 열들에 무작위로 선택된 방향을 따라 구조화된 희소 교란을 주입하여 작동합니다. 이 교란은 트리거 신호를 레이어별로 목표 클래스로 전파합니다. 이러한 교란을 은폐하기 위해, 공격은 수정된 가중치에 독립적이고 등방성인 가우시안 디더 (dither) 를 적용합니다.

이 과정은 세 단계로 이루어집니다:

트리거 최적화: 입력 공간의 트리거 $\Delta^*$ 를 최적화하여 고정된 특징 인코더가 무작위로 선택된 희소 방향 $s_1$ 을 따라 큰 성분을 갖는 임베딩을 생성하도록 합니다.
중간 주입: 각 숨겨진 FC 레이어 $i$ 에 대해, 공격은 희소 방향 $s_i$ 와 정렬된 노이즈를 추가하여 열의 소수 부분을 교란합니다. 이는 해당 레이어 입력의 백도어 성분을 선택적으로 증폭시키고 다음 레이어의 새로운 희소 방향 $s_{i+1}$ 로 전달합니다.
최종 주입: 마지막 FC 레이어를 교란하여 누적된 신호를 목표 클래스 $y_t$ 로 라우팅하여 표적 오분류를 보장합니다.

탐지 불가능성 보장

탐지 불가능성은 희소 PCA 탐지 난이도 가정에 의존합니다.

깨끗한 기준 분포: 사전 학습 모델은 표준 가중치 분포가 없으므로, 저자들은 원래 가중치에 가우시안 디더만 적용하여 "깨끗한 기준" 모델 $f'$ 을 정의합니다. 약한 마진 조건 하에서 $f'$ 은 원래 깨끗한 모델과 기능적으로 동일합니다 (동일한 함수를 계산하며 백도어가 없음).
희소 PCA 로의 환원: 백도어가 심어진 모델 $\tilde{f}$ 와 깨끗한 기준 $f'$ 간의 차이는 등방성 가우시안 노이즈 내에 숨겨진 희소 성분 (백도어 스파이크) 입니다. $\tilde{f}$ 와 $f'$ 을 구별하는 것은 희소 PCA 탐지 문제와 계산적으로 동등한 것으로 입증되었으며, 이는 표준 난이도 가정 (Planted Clique 추측과 관련됨) 하에서 확률적 다항 시간 (PPT) 알고리즘에 대해 계산적으로 해결 불가능하다고 믿어집니다.
화이트박스 보안: 이 보장은 방어자가 모델 파라미터에 대한 완전한 화이트박스 접근 권한을 갖더라도 유효합니다.

주요 기여

실용적 백도어 공격: 모든 효율적 판별자에 대한 형식적 탐지 불가능성 보장을 갖춘 표준 다층 아키텍처 (ConvNet, ResNet-18, ViT) 에 대한 최초의 백도어 공격.
형식적 화이트박스 탐지 불가능성: 희소 PCA 난이도 가정 하에서 백도어가 심어진 모델이 깨끗한 분류기와 계산적으로 구별 불가능함을 증명. 이는 사전 학습 모델에 대한 유효한 깨끗한 기준 분포를 확립하기 위해 마진 기반 기능적 동등성 논증을 도입함.
종합적 경험적 검증: CIFAR-10, SVHN, GTSRB 를 포함한 아홉 가지 아키텍처 - 데이터셋 구성에 대한 평가를 통해 최첨단 탐지 방법을 회피하면서 높은 공격 성공률을 입증.

실험 결과

저자들은 세 가지 아키텍처 (ConvNet, ResNet-18, ViT-Small) 와 세 가지 데이터셋에 대해 희소 백도어를 평가했습니다.

공격 효과성:
- 공격은 모든 아키텍처에서 CIFAR-10 에 대해 93% 를 초과하는 공격 성공률 (ASR) 을 달성했으며, ConvNet 에서는 99.5%, ViT 에서는 99.6% 에 달했습니다.
- 깨끗한 정확도는 기준선 대비 1.5 에서 8.5 퍼센트 포인트 이내로 유지되었습니다. ViT 는 <1.5 포인트의 가장 작은 저하를 보였습니다.
탐지 회피:
- 공격은 세 가지 대표적인 탐지기인 Neural Cleanse(입력 공간), FeatureRE(특징 공간), UNICORN(결합 공간) 에 대해 테스트되었습니다.
- 모든 구성에 대한 평균 판별 이득은 0.12였으며, 이는 0.0 인 무작위 추측 기준선과 근접했습니다.
- 탐지기는 일관되지 않은 성능을 보였으며, 종종 백도어가 심어진 모델을 깨끗한 기준과 구별하지 못했습니다.
완화 조치에 대한 복원력:
- 깨끗한 데이터 (데이터셋의 1%) 에 대한 미세 조정을 완화 전략으로 테스트했습니다.
- 결과는 일관되지 않았습니다: GTSRB 의 ResNet-18 에 대해서는 미세 조정이 ASR 을 감소시켰지만, CIFAR-10 의 ConvNet 과 ViT 에서는 미미한 효과만 있었습니다 (ASR 은 99% 이상 유지됨).
- 깨끗한 정확도는 빠르게 회복되어 백도어가 지속되는 동안 잘못된 안도감을 조성했습니다.

중요성 및 주장

이 논문은 공격이 계산적 난이도 가정에 기반할 때 백도어의 파라미터 수준 탐지는 근본적으로 제한적이라고 주장합니다. 모든 파라미터에 대한 화이트박스 접근 권한이 있더라도, 희소 백도어를 탐지하는 것은 희소 PCA 문제를 해결하는 것과 마찬가지로 어렵습니다.

따라서 저자들은 커뮤니티가 (아티팩트를 식별하는 데 의존하는) 탐지 기반 방어에서 백도어를 식별하기 전에 무력화시키는 완화 전략으로 초점을 전환해야 한다고 주장합니다. 이 연구는 공격이 남기는 구조적 아티팩트를 이용하는 기존 방어들이 고차원 희소 신호 탐지의 계산적 난이도 내에 숨도록 설계된 공격에 대해 증명적으로 비효율적임을 강조합니다.

저자들은 한계를 지적합니다: 현재 구성은 FC 예측 헤드를 가진 아키텍처에 적용되며, 탐지 불가능성 증명은 모든 테스트 구성에서 유효했던 직교성 및 마진 가정의 경험적 검증에 의존합니다.

Undetectable Backdoors in Model Parameters: Hiding Sparse Secrets in High Dimensions