BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

Each language version is independently generated for its own context, not a direct translation.

1. 배경: AI 그림의 '위험한 장난' (백도어 공격)

최근 "고양이를 그려줘"라고 하면 귀여운 고양이가 나오는 AI 그림 생성 기술이 정말 유명해졌습니다. 하지만 해커들은 이 AI 를 훈련시킬 때 **보이지 않는 '트리거' (비밀 신호)**를 심어둡니다.

상황: 사용자가 "고양이를 그려줘"라고 입력하면, AI 는 정상적으로 고양이를 그리는 척합니다.
문제: 하지만 해커가 심어둔 '비밀 신호' (예: 문장 끝에 보이지 않는 특수 문자) 가 입력되면, AI 는 갑자기 고양이 대신 '개'를 그려내거나, 화면 한 구석에 이상한 스티커를 붙이거나, 전체 그림을 흑백으로 바꿔버립니다.

이걸 백도어 (Backdoor) 공격이라고 합니다. 마치 식당에 가는데, 메뉴판은 '불고기'라고 적혀 있는데, 주방장이 몰래 '짜장면'을 내어주는 것과 비슷합니다.

2. 기존 방법의 한계: "모두가 비슷해 보이는데?"

기존에 이 문제를 잡으려던 방법들은 **"그림 전체를 비교하는 거울"**을 사용했습니다.

논리: "해커가 심은 그림들은 모두 똑같은 패턴을 가질 거야. 그래서 그림끼리 비교하면 비슷할 거야."
한계: 최근의 해커들은 아주 교묘해졌습니다. 그림 전체를 똑같이 만드는 게 아니라, 고양이만 개로 바꾸거나 스타일만 살짝 바꾸는 식으로 장난을 칩니다.
결과: 기존 방법은 "아, 이 그림은 다른 그림들과 너무 달라서 해커가 한 게 아니야"라고 착각하고 넘어가버립니다. (그림 전체는 비슷해 보이는데, 핵심 부분만 바뀌었기 때문입니다.)

3. BlackMirror 의 등장: "지시문과 결과물을 대조하는 정밀 탐정"

이 논문에서 제안한 BlackMirror는 그림 전체를 비교하는 대신, **"사용자가 말한 내용 (지시문) 과 AI 가 그린 결과물 (응답) 을 하나하나 대조"**합니다.

이 과정은 두 단계로 나뉩니다.

1 단계: 거울 맞추기 (MirrorMatch) - "무엇이 달라졌나?"

사용자가 "고양이가 우산 아래에 앉아 있어"라고 입력했는데, AI 가 그린 그림을 자세히 봅니다.

사용자의 말: 고양이, 우산, 도로.
그림 속 내용: 개, 우산, 도로, 나무.
발견: "어? 사용자가 '고양이'라고 했는데 그림엔 '개'가 있네? 그리고 '나무'는 어디서 온 거지?"
비유: 주문서에는 '햄버거'라고 적혀 있는데, 배달된 음식은 '피자'가 들어있고 '콜라'가 추가로 나온 상황입니다. BlackMirror 는 이 **불일치 (Deviation)**를 찾아냅니다.

2 단계: 진위 확인 (MirrorVerify) - "실수인가, 아니면 해커인가?"

그런데 AI 가 가끔 실수를 하거나, "나무"를 그리는 건 AI 의 단순한 실수일 수도 있습니다. 어떻게 진짜 해커의 장난인지 구별할까요?

방법: "고양이"라는 단어만 지우고 "개"를 넣어서 다시 그려보거나, 문장을 살짝 바꿔가며 10 번, 20 번 더 그려봅니다.
판단 기준:
- AI 의 단순 실수: 문장을 조금만 바꿔도 '나무'가 사라지거나 변합니다. (불안정함)
- 해커의 장난 (백도어): 문장을 아무리 바꿔도, 반드시 '개'가 '고양이'로 바뀌거나 '개'가 계속 나타납니다. (안정성)
결론: "아, 문장을 바꿔도 항상 '개'가 나오네? 이건 AI 의 실수가 아니라, 누군가 미리 심어둔 **비밀 장난 (백도어)**이 확실해!"라고 판단합니다.

4. 왜 이 기술이 특별한가요?

블랙박스 (Black-Box) 환경에서도 작동: 이 기술은 AI 의 내부 구조나 코드를 볼 필요가 없습니다. 마치 식당에 들어가지 않고도, 주문서와 배달된 음식만 보고 "여기서 뭔가 이상해"라고 알아챌 수 있는 것과 같습니다. (실제 서비스 환경에서 매우 중요합니다.)
학습 불필요: 새로운 AI 모델을 만나도 별도의 학습 없이 바로 쓸 수 있습니다. (플러그인처럼 꽂으면 됩니다.)
정교한 해커도 잡는다: 그림 전체를 바꾸지 않고 부분만 바꾸는 최신 해커 기법도, "지시문과 결과물의 불일치"를 반복해서 확인하므로 놓치지 않습니다.

5. 요약

BlackMirror는 AI 그림이 사용자의 의도대로 그려졌는지 확인하기 위해, "사용자가 말한 내용"과 "AI 가 그린 그림"을 세밀하게 비교합니다. 그리고 문장을 바꿔가며 그 불일치가 일관되게 반복되는지 확인함으로써, AI 의 단순 실수와 해커의 악의적인 장난을 구별해냅니다.

이 기술은 AI 서비스가 안전하게 제공될 수 있도록, 보이지 않는 해킹 시도를 찾아내는 강력한 보안 경호원 역할을 할 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

최근 텍스트 - 이미지 (T2I) 생성 모델의 급격한 발전과 함께, 모델의 보안에 대한 우려가 커지고 있습니다. 특히 백도어 공격 (Backdoor Attack) 은 모델 학습 단계에서 특정 트리거 (Trigger) 가 포함된 입력이 주어지면 공격자가 지정한 의도치 않은 출력을 생성하도록 모델을 조작하는 위협입니다.

검출의 어려움: 기존 백도어 검출 방법들은 대부분 모델의 내부 구조 (가중치, 주의 맵 등) 에 접근할 수 있는 화이트박스 (White-box) 환경을 가정합니다. 그러나 실제 서비스 (MaaS, Model-as-a-Service) 에서는 모델이 블랙박스 (Black-box) 로 제공되어 내부 정보를 알 수 없기 때문에 검출이 매우 어렵습니다.
기존 방법의 한계: 최근 제안된 유일한 블랙박스 검출 방법인 UFID 는 "백도어가 걸린 모델은 트리거가 있는 프롬프트에 대해 일관된 (유사한) 이미지를 생성한다"는 가정을 기반으로 합니다. 그러나 최근의 정교한 공격 (ObjRepAtt, PatchAtt, StyleAtt 등) 은 이미지의 일부 패턴만 조작하고 나머지는 다양하게 생성하므로, 이미지 전체의 유사성을 기반으로 한 UFID 는 이러한 공격을 탐지하지 못하거나 성능이 급격히 떨어집니다.

2. 제안 방법: BlackMirror (Methodology)

이 논문은 블랙박스 환경에서 T2I 모델의 백도어를 탐지하기 위한 새로운 프레임워크 BlackMirror 를 제안합니다. 핵심 아이디어는 "명령어 (Instruction) 와 응답 (Response) 간의 시맨틱 편차 (Deviation)" 와 "이 편차의 안정성 (Stability)" 을 분석하는 것입니다.

BlackMirror 는 두 가지 주요 구성 요소로 이루어져 있습니다:

2.1. MirrorMatch (세밀한 편차 탐지)

전체 이미지의 유사도가 아닌, 패턴 수준 (Pattern-level) 에서 명령어와 생성된 이미지 간의 불일치를 탐지합니다.

객체 추출: 입력 프롬프트 (명령어) 와 생성된 이미지에서 각각 시각적 객체 (Object), 패치 (Patch), 스타일 (Style) 을 추출합니다.
- 프롬프트 분석: LLM 을 사용하여 명시된 객체/스타일을 추출.
- 이미지 분석: VLM(Vision-Language Model) 을 사용하여 이미지에 보이는 객체/스타일을 추출 (다수결 투표 방식을 통해 노이즈 제거).
편차 식별: 추출된 집합을 비교하여 다음과 같은 '의심스러운 편차'를 찾습니다.
- New Objects: 프롬프트에는 없는데 이미지에 있는 객체.
- Lost Objects: 프롬프트에는 있는데 이미지에 없는 객체.
- Style/Patch Mismatch: 프롬프트와 이미지의 스타일이나 패치 존재 여부가 다른 경우.

2.2. MirrorVerify (편차의 안정성 검증)

발견된 편차가 백도어 공격에 의한 것인지, 아니면 모델의 자연스러운 편향 (Bias) 에 의한 것인지를 구분합니다.

패턴 마스킹 (Pattern Masking): '안전한 (Safe)' 객체들 (명령어와 이미지에 모두 올바르게 매칭된 것) 만을 제거하여 프롬프트 변형을 생성합니다. 이 과정에서 백도어 트리거는 유지되지만, 의미론적 맥락은 변합니다.
안정성 평가: 변형된 프롬프트로 여러 번 (N 번) 이미지를 생성한 후, 앞서 발견된 '의심스러운 편차'가 일관되게 유지되는지 VLM 을 통해 확인합니다.
- 백도어: 트리거가 활성화되면 프롬프트가 변해도 공격자가 지정한 조작 (예: 개 $\to$ 고양이) 이 일관되게 (Stable) 발생합니다.
- 자연적 편향: 모델의 우연한 오류나 편향은 프롬프트가 조금만 변해도 사라지거나 불안정합니다.
판단: 편차의 안정성 점수 (Stability Score) 가 임계값을 초과하면 해당 입력을 백도어 공격으로 판단합니다.

3. 주요 기여 (Key Contributions)

범용 블랙박스 검출 프레임워크: T2I 모델의 백도어 검출을 위한 초기 시도로서, 객체 (Object), 패치 (Patch), 스타일 (Style) 조작 등 다양한 공격 유형을 처리할 수 있는 범용적인 방법을 제시했습니다.
학습 불필요 (Training-free) 및 플러그 - 앤 - 플레이: 모델 내부 정보나 추가 학습 없이, 기존 VLM 과 LLM 을 활용하여 즉시 배포 가능한 모듈을 설계했습니다.
새로운 관점의 탐지: 이미지 수준의 유사성 대신, 명령어 - 응답 간의 시맨틱 편차와 프롬프트 변형 하에서의 편차 안정성을 핵심 신호로 활용하여 기존 방법 (UFID) 이 실패하는 정교한 공격을 효과적으로 탐지합니다.
해석 가능성 (Interpretability): 단순히 "위험하다"고만 판단하는 것이 아니라, 어떤 객체나 스타일이 조작되었는지에 대한 구체적인 설명을 제공합니다.

4. 실험 결과 (Results)

다양한 백도어 공격 (BadT2I, EvilEdit, PaaS, RickTPA, VillanDiffusion 등) 에 대한 광범위한 실험을 수행했습니다.

성능: BlackMirror 는 기존 유일한 블랙박스 방법인 UFID 와 화이트박스 방법들 (T2IShield, GrainPS 등) 보다 전반적으로 우수한 성능을 보였습니다.
- 정밀도 (Precision) 및 F1 점수: ObjRepAtt(객체 교체) 공격에서 UFID 대비 F1 점수가 크게 향상되었습니다 (예: BadT2I 에서 66.67% $\to$ 86.96%).
- 복잡한 공격 대응: 스타일이나 패치 조작과 같이 이미지가 다양하게 생성되는 공격에서도 UFID 가 실패하는 반면, BlackMirror 는 높은 탐지율을 유지했습니다.
- 거짓 양성 (FPR): 자연스러운 모델 편향을 필터링하는 MirrorVerify 모듈 덕분에 거짓 양성률이 낮게 유지되었습니다 (평균 15% 미만).
효율성: UFID 는 이미지 쌍 간 유사도 계산을 위해 $O(N^2)$ 의 연산이 필요하지만, BlackMirror 는 소수의 VLM 쿼리만 수행하므로 계산 비용이 비슷하거나 더 낮습니다.

5. 의의 (Significance)

실무 적용 가능성: 실제 MaaS 환경과 같이 모델 내부 접근이 불가능한 상황에서 효과적인 보안 솔루션을 제공합니다.
차세대 공격 대응: 단순한 고정 이미지 생성 공격을 넘어, 최근의 정교하고 은밀한 (Stealthy) 백도어 공격들을 탐지할 수 있는 능력을 입증했습니다.
신뢰할 수 있는 AI: 생성형 AI 의 신뢰성을 확보하고, 악의적인 조작을 방지하여 안전한 배포를 가능하게 하는 중요한 기술적 진전을 이루었습니다.

결론적으로, BlackMirror는 블랙박스 환경에서 T2I 모델의 백도어 공격을 탐지하기 위해 "명령과 결과의 불일치"와 "그 불일치의 안정성"이라는 새로운 패러다임을 제시하며, 기존 방법들의 한계를 극복한 강력한 솔루션입니다.