BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

이 논문은 기존 이미지 유사도 분석의 한계를 극복하고, 생성된 이미지의 지시문과 응답 간의 편차를 분석하여 텍스트 - 이미지 모델의 블랙박스 백도어를 탐지하는 새로운 프레임워크 'BlackMirror'를 제안합니다.

Feiran Li, Qianqian Xu, Shilong Bao, Zhiyong Yang, Xilin Zhao, Xiaochun Cao, Qingming Huang

게시일 2026-03-09
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 배경: AI 그림의 '위험한 장난' (백도어 공격)

최근 "고양이를 그려줘"라고 하면 귀여운 고양이가 나오는 AI 그림 생성 기술이 정말 유명해졌습니다. 하지만 해커들은 이 AI 를 훈련시킬 때 **보이지 않는 '트리거' (비밀 신호)**를 심어둡니다.

  • 상황: 사용자가 "고양이를 그려줘"라고 입력하면, AI 는 정상적으로 고양이를 그리는 척합니다.
  • 문제: 하지만 해커가 심어둔 '비밀 신호' (예: 문장 끝에 보이지 않는 특수 문자) 가 입력되면, AI 는 갑자기 고양이 대신 '개'를 그려내거나, 화면 한 구석에 이상한 스티커를 붙이거나, 전체 그림을 흑백으로 바꿔버립니다.

이걸 백도어 (Backdoor) 공격이라고 합니다. 마치 식당에 가는데, 메뉴판은 '불고기'라고 적혀 있는데, 주방장이 몰래 '짜장면'을 내어주는 것과 비슷합니다.

2. 기존 방법의 한계: "모두가 비슷해 보이는데?"

기존에 이 문제를 잡으려던 방법들은 **"그림 전체를 비교하는 거울"**을 사용했습니다.

  • 논리: "해커가 심은 그림들은 모두 똑같은 패턴을 가질 거야. 그래서 그림끼리 비교하면 비슷할 거야."
  • 한계: 최근의 해커들은 아주 교묘해졌습니다. 그림 전체를 똑같이 만드는 게 아니라, 고양이만 개로 바꾸거나 스타일만 살짝 바꾸는 식으로 장난을 칩니다.
  • 결과: 기존 방법은 "아, 이 그림은 다른 그림들과 너무 달라서 해커가 한 게 아니야"라고 착각하고 넘어가버립니다. (그림 전체는 비슷해 보이는데, 핵심 부분만 바뀌었기 때문입니다.)

3. BlackMirror 의 등장: "지시문과 결과물을 대조하는 정밀 탐정"

이 논문에서 제안한 BlackMirror는 그림 전체를 비교하는 대신, **"사용자가 말한 내용 (지시문) 과 AI 가 그린 결과물 (응답) 을 하나하나 대조"**합니다.

이 과정은 두 단계로 나뉩니다.

1 단계: 거울 맞추기 (MirrorMatch) - "무엇이 달라졌나?"

사용자가 "고양이가 우산 아래에 앉아 있어"라고 입력했는데, AI 가 그린 그림을 자세히 봅니다.

  • 사용자의 말: 고양이, 우산, 도로.
  • 그림 속 내용: , 우산, 도로, 나무.
  • 발견: "어? 사용자가 '고양이'라고 했는데 그림엔 '개'가 있네? 그리고 '나무'는 어디서 온 거지?"
  • 비유: 주문서에는 '햄버거'라고 적혀 있는데, 배달된 음식은 '피자'가 들어있고 '콜라'가 추가로 나온 상황입니다. BlackMirror 는 이 **불일치 (Deviation)**를 찾아냅니다.

2 단계: 진위 확인 (MirrorVerify) - "실수인가, 아니면 해커인가?"

그런데 AI 가 가끔 실수를 하거나, "나무"를 그리는 건 AI 의 단순한 실수일 수도 있습니다. 어떻게 진짜 해커의 장난인지 구별할까요?

  • 방법: "고양이"라는 단어만 지우고 "개"를 넣어서 다시 그려보거나, 문장을 살짝 바꿔가며 10 번, 20 번 더 그려봅니다.
  • 판단 기준:
    • AI 의 단순 실수: 문장을 조금만 바꿔도 '나무'가 사라지거나 변합니다. (불안정함)
    • 해커의 장난 (백도어): 문장을 아무리 바꿔도, 반드시 '개'가 '고양이'로 바뀌거나 '개'가 계속 나타납니다. (안정성)
  • 결론: "아, 문장을 바꿔도 항상 '개'가 나오네? 이건 AI 의 실수가 아니라, 누군가 미리 심어둔 **비밀 장난 (백도어)**이 확실해!"라고 판단합니다.

4. 왜 이 기술이 특별한가요?

  1. 블랙박스 (Black-Box) 환경에서도 작동: 이 기술은 AI 의 내부 구조나 코드를 볼 필요가 없습니다. 마치 식당에 들어가지 않고도, 주문서와 배달된 음식만 보고 "여기서 뭔가 이상해"라고 알아챌 수 있는 것과 같습니다. (실제 서비스 환경에서 매우 중요합니다.)
  2. 학습 불필요: 새로운 AI 모델을 만나도 별도의 학습 없이 바로 쓸 수 있습니다. (플러그인처럼 꽂으면 됩니다.)
  3. 정교한 해커도 잡는다: 그림 전체를 바꾸지 않고 부분만 바꾸는 최신 해커 기법도, "지시문과 결과물의 불일치"를 반복해서 확인하므로 놓치지 않습니다.

5. 요약

BlackMirror는 AI 그림이 사용자의 의도대로 그려졌는지 확인하기 위해, "사용자가 말한 내용"과 "AI 가 그린 그림"을 세밀하게 비교합니다. 그리고 문장을 바꿔가며 그 불일치가 일관되게 반복되는지 확인함으로써, AI 의 단순 실수와 해커의 악의적인 장난을 구별해냅니다.

이 기술은 AI 서비스가 안전하게 제공될 수 있도록, 보이지 않는 해킹 시도를 찾아내는 강력한 보안 경호원 역할을 할 것입니다.