Delayed Backdoor Attacks: Exploring the Temporal Dimension as a New Attack Surface in Pre-Trained Models

Each language version is independently generated for its own context, not a direct translation.

1. 기존 공격 vs. 새로운 공격: "즉각적인 폭탄" vs. "잠자는 스파이"

기존의 백도어 공격 (Traditional Backdoor):

비유: 마치 집에 숨겨둔 시한폭탄과 같습니다.
작동 방식: 도둑이 특정 단어 (예: "안녕하세요" 대신 "특수 코드") 를 말하면, 폭탄이 즉시 터집니다.
문제점: 폭탄이 터지는 순간 AI 가 이상한 행동을 하므로, 보안 시스템이 "아, 저게 폭탄이네!"하고 바로 잡아낼 수 있습니다.

이 논문이 제안하는 새로운 공격 (지연된 백도어, DBA):

비유: 이제 폭탄이 아니라, 매우 오래 잠들어 있는 스파이를 상상해 보세요.
작동 방식:
1. 스파이는 AI 모델 안에 숨어 있습니다.
2. 특정 단어 (예: "오늘 날씨 어때요?") 를 들으면, 스파이는 아무 일도 일어나지 않습니다. 그냥 정상적으로 대답합니다.
3. 하지만 스파이는 속으로 카운트를 세고 있습니다. "이 단어를 10,000 번 들었어, 10,001 번 들었어..."
4. 마지막 순간: 카운트가 10,000 번을 넘어서는 순간, 스파이가 깨어납니다. 그리고 갑자기 "이 주식 사세요! (사기)"라고 외치며 AI 를 장악합니다.
무서운 점: 보안 요원들은 평소에는 AI 가 정상적으로 일하는 것을 보고 "이건 안전한 모델이야"라고 생각합니다. 하지만 정해진 날짜나 조건이 충족되는 순간, AI 는 완전히 다른 악마로 변합니다.

2. 왜 이것이 무서운가요? (일상적인 단어를 쓴다는 점)

기존의 공격들은 "안 쓰이는 이상한 단어"를 사용했습니다. 하지만 이 새로운 공격은 **"매일 쓰는 평범한 단어"**를 사용합니다.

예시: "오늘 날씨 어때요?", "감사합니다", "좋네요" 같은 말입니다.
이유: 평범한 단어는 AI 가 정상적으로 작동할 때 자주 쓰이기 때문에, 보안 시스템이 "이게 이상한 단어야!"라고 의심할 수 없습니다.
핵심: 이 논문은 **"시간 (Time)"**이라는 새로운 요소를 공격에 넣었습니다. "누가"가 아니라 **"언제까지 기다렸다가"**가 중요해진 것입니다.

3. 연구팀이 만든 실험 (DND)

연구팀은 이 아이디어가 실제로 가능한지 증명하기 위해 DND라는 프로토타입을 만들었습니다.

작동 원리:
- 1 단계 (잠복기): AI 는 평소처럼 정상적으로 일합니다. 보안 시스템이 아무리 검사해도 "문제없음"이라고 나옵니다. (이때까지의 ASR: 공격 성공률 0%)
- 2 단계 (폭발기): 미리 정해진 횟수 (예: 특정 단어가 500 번 등장) 에 도달하면, AI 는 갑자기 미쳐버립니다. (이때의 ASR: 공격 성공률 99% 이상)
결과: 실험 결과, 이 공격은 기존에 있던 최고의 보안 방어 시스템 (ONION, STRIP 등) 을 모두 뚫었습니다. 보안 시스템은 "즉각적인 이상 행동"만 찾았지, "오래 기다렸다가 터지는 것"은 찾지 못했기 때문입니다.

4. 이 연구가 우리에게 주는 교훈

이 논문은 AI 보안계에 큰 경종을 울립니다.

기존의 믿음 깨기: "AI 가 이상하면 바로 잡으면 된다"는 믿음이 깨졌습니다. 이제는 "AI 가 평소엔 잘해도, 나중에 망칠 수도 있다"는 것을 알아야 합니다.
새로운 방어 필요: 우리는 이제 시간을 기억하는 (Stateful) 보안 시스템이 필요합니다. AI 가 과거에 어떤 일을 겪었는지, 얼마나 자주 특정 단어를 들었는지까지 추적해야만 이 공격을 막을 수 있습니다.

요약

이 논문은 **"AI 모델에 숨겨진 스파이가, 평소엔 착하게 지내다가 특정 조건이 충족되면 갑자기 악마가 되는 공격"**을 처음 발견하고 증명했습니다.

이는 마치 **"평소엔 착한 척 하다가, 10 년 뒤 갑자기 나라를 배신하는 스파이"**와 같습니다. 우리는 이제 AI 를 믿기 전에, 그 스파이가 언제 깨어날지 모른다는 사실을 경계해야 합니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

기존 백도어 공격의 한계 (즉시성 가정): 기존의 사전 훈련된 모델 (PTM) 에 대한 백도어 공격 연구는 대부분 **'즉시성 가정 (Immediacy Assumption)'**에 기반하고 있습니다. 즉, 트리거 (Trigger) 가 입력되면 즉시 악성 행동이 발동된다고 가정합니다. 이로 인해 기존 방어 기법들은 트리거 발생과 악성 출력 사이의 즉각적인 인과관계를 탐지하는 데 초점을 맞추고 있습니다.
새로운 공격 표면의 부재: 이러한 '즉시성' 가정은 공격자가 트리거 노출과 악성 발동 사이의 **시간적 차원 (Temporal Dimension)**을 활용할 수 있는 가능성을 간과하고 있습니다.
목표: 본 논문은 이 시간적 차원을 새로운 공격 표면으로 규명하고, **지연된 백도어 공격 (Delayed Backdoor Attacks, DBA)**을 제안합니다. 이는 트리거가 노출된 후에도 일정 기간 잠복하다가, 특정 조건 (누적 횟수 도달 등) 이 충족될 때만 악성 코드를 발동시키는 공격 방식입니다. 이를 통해 일상적인 단어 (고빈도 단어) 를 트리거로 사용할 수 있게 되어 기존 방어 기법을 우회하고 탐지를 회피할 수 있습니다.

2. 방법론 (Methodology)

저자들은 지연된 백도어 공격의 실현 가능성을 증명하기 위해 **비선형 감쇠 기반 지연 백도어 공격 (DND, Delayed Backdoor Attacks Based on Nonlinear Decay)**이라는 개념 증명 (PoC) 프로토타입을 설계하고 구현했습니다.

공격 모델 (Threat Model):
- 공격자는 모델 배포 전 (예: ONNX 체크포인트 단계) 에 모델 아티팩트에 구조적 수정을 가하거나 상태 추적 로직 모듈을 주입합니다.
- 공격자는 훈련 데이터나 파인튜닝 환경을 제어하지 않아도 되며, 모델 배포 후 정상적으로 작동하다가 특정 시점에 악성 행동을 발동시킵니다.
- 목표: 높은 정상 작업 정확도 (Clean Accuracy) 를 유지하면서, 트리거가 자주 노출되더라도 초기에는 탐지되지 않고 (잠복), 미리 설정된 누적 임계값 도달 시에만 높은 공격 성공률 (ASR) 을 보이는 것.
DND 프로토타입의 핵심 구성 요소:
1. 상태 추적 모듈 (State-Tracking Module): 입력된 텍스트에서 트리거 조합의 발생 횟수를 누적하여 내부 상태 변수 $O$ 를 관리합니다.
2. 비선형 활성화 컨트롤러 (Nonlinear Activation Controller):
  - 누적 상태 $O$ 에 따라 모델의 수명을 **잠복 모드 (Latency Mode)**와 **발병 모드 (Outbreak Mode)**로 구분합니다.
  - 비선형 감쇠 함수: $T(O) = \frac{a}{(O+1)^b}$ 형태의 함수를 사용하여, 트리거 누적 횟수가 증가함에 따라 활성화 임계값을 동적으로 조절합니다.
  - 활성화 조건: 감쇠 함수 값이 설정된 임계값 $c$ 이하로 떨어지면 (즉시 $O \ge O^*$ ), 모델은 발병 모드로 전환됩니다.
3. 실행 모듈 (Execution Modules):
  - 잠복 모드: 트리거 토큰에 대한 어텐션 (Attention) 을 약화시켜 (Masking) 정상적인 동작을 모방하고 은폐합니다.
  - 발병 모드: 활성화 임계값을 넘으면, 로짓 (Logits) 공간에 편향 (Bias) 을 가하여 공격자가 지정한 목표 레이블로 출력을 강제합니다.
수학적 형식화:
- 공격 성공은 트리거 조건과 시간적 감쇠 조건이 동시에 충족될 때만 발생합니다.
- 학습 목적 함수는 정상 데이터에 대한 손실 (Clean Loss) 과 발병 모드에서의 공격 손실 (Attack Loss) 을 균형 있게 최적화하여, 잠복 기간에는 정상 성능을 유지하고 발동 시에는 높은 공격력을 확보하도록 설계되었습니다.

3. 주요 기여 (Key Contributions)

새로운 공격 패러다임 (DBA) 제안: 백도어 연구의 근본적인 '즉시성 가정'을 처음으로 체계적으로 도전하고, 시간적 해리 (Temporal Decoupling) 를 핵심 설계 원리로 하는 새로운 공격 벡터를 제안했습니다.
구현 가능한 프로토타입 (DND): 명시적인 상태 추적 모듈과 비선형 컨트롤러를 구현하여, 트리거 노출과 악성 발동을 시간적으로 분리하는 것이 실제로 가능함을 증명했습니다. 이는 고빈도 일상 단어를 은밀한 트리거로 사용할 수 있는 토대를 마련했습니다.
실증적 증거 및 방어 우회: 4 가지 NLP 벤치마크 (SST-2, HSOL, Offenseval, Twitter) 를 통한 실험을 통해, DND 가 최첨단 방어 기법 (ONION, STRIP, CUBE 등) 을 우회하며 잠복 기간 동안은 완전히 탐지되지 않고, 발동 후에는 거의 100% 의 공격 성공률을 달성함을 입증했습니다.

4. 실험 결과 (Results)

성능 (Efficacy):
- 정상 정확도 (CA): 잠복 기간 동안 모델의 정상 성능은 94% 이상을 유지하여 성능 저하가 거의 없었습니다.
- 공격 성공률 (ASR): 발동 전 (잠복기) 의 전체 ASR 은 낮게 유지되지만, **지연된 공격 성공률 (ASR_delay)**은 모든 데이터셋에서 **98.7% ~ 100%**에 달했습니다. 이는 지연 메커니즘이 의도대로 작동함을 의미합니다.
- 비교: 기존 즉각형 백도어 (BadNet, Syntactic, BITE) 와 비교했을 때, DND 는 발동 전에는 탐지되지 않지만 발동 후에는 더 높은 일관된 공격력을 보였습니다.
방어 우회 (Robustness against Defenses):
- ONION, STRIP, RAP, CUBE 등 기존 최첨단 방어 기법들에 대해 DND 는 매우 높은 내성을 보였습니다.
- 특히 ONION 은 DND 의 ASR_delay 를 2.3% 만 감소시켰으며, STRIP, RAP, CUBE 에 대해서는 1.3% ~ 1.9% 만 감소시켰습니다. 이는 기존 방어 기법들이 '즉시성'에 의존하기 때문에 지연된 공격에는 무력함을 보여줍니다.
은폐성 (Stealth):
- 잠복 기간 동안 모델의 출력 분포와 잠재 표현 (Latent Representation) 은 정상 모델과 통계적으로 구별되지 않았습니다 (엔트로피 차이 최소화).
- 슬라이딩 윈도우 기반 분석에서도 발동 임계값 (예: 500 회) 이전에는 공격 성공률이 거의 0% 에 가까웠습니다.

5. 의의 및 결론 (Significance & Conclusion)

시간적 차원의 취약성 규명: 본 연구는 PTM 의 보안에서 '시간적 차원'이 방어가 필요한 새로운 취약점임을 처음으로 실증했습니다.
방어 패러다임의 전환 필요성: 기존의 상태 비저장 (Stateless) 기반의 즉시 탐지 방어 기법으로는 DBA 를 막을 수 없음을 보여주었습니다. 따라서 **상태 기억 (Stateful)**과 시간 인식 (Time-aware) 능력을 갖춘 차세대 방어 메커니즘 (예: 장기적인 행동 패턴 분석, 구조적 무결성 검증) 의 개발이 시급함을 강조합니다.
평가 기준의 재고: 고빈도 단어를 트리거로 사용할 수 있게 됨에 따라, 기존의 '정상 데이터 vs 오염 데이터'라는 이분법적 평가 기준이 무의미해질 수 있음을 지적하며, 새로운 평가 프레임워크의 필요성을 제기했습니다.

요약하자면, 이 논문은 백도어 공격이 즉시 발동될 필요는 없으며, 시간적 지연을 통해 더 정교하고 탐지하기 어려운 공격이 가능함을 증명했습니다. 이는 AI 공급망 보안에 중대한 위협이 되며, 이에 대응하기 위한 새로운 방어 철학의 정립을 요구하는 중요한 연구입니다.

Delayed Backdoor Attacks: Exploring the Temporal Dimension as a New Attack Surface in Pre-Trained Models

1. 기존 공격 vs. 새로운 공격: "즉각적인 폭탄" vs. "잠자는 스파이"

2. 왜 이것이 무서운가요? (일상적인 단어를 쓴다는 점)

3. 연구팀이 만든 실험 (DND)

4. 이 연구가 우리에게 주는 교훈

요약

1. 문제 정의 (Problem Statement)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem