IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding

이 논문은 비주얼 grounding 기반의 VLM 시스템에서 기존 정적 트리거 방식의 한계를 극복하고, 텍스트에 기반하여 동적으로 생성되는 은밀한 백도어 공격 기법인 IAG 를 제안하여 다양한 모델과 데이터셋에서 높은 성공률과 은폐성을 입증했습니다.

Junxian Li, Beining Xu, Simin Chen, Jiatong Li, Jingdi Lei, Haodong Zhao, Di Zhang

게시일 Tue, 10 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ "IAG": AI 의 눈을 속이는 새로운 '보이지 않는 마법'

이 논문은 최근 각광받는 **'시각 - 언어 모델 (VLM)'**이라는 AI 의 치명적인 약점을 발견하고, 이를 이용해 공격하는 새로운 방법을 소개합니다. 쉽게 말해, **"사람이 보지 못하는 마법 같은 신호를 이미지 속에 숨겨 AI 를 속이는 기술"**입니다.

이 기술을 **IAG(Input-aware Backdoor Attack)**라고 부르는데, 일상생활에 빗대어 설명해 드리겠습니다.


1. 배경: AI 는 이제 '눈'과 '입'을 다 갖췄습니다

과거의 AI 는 사진을 보고 "이건 개야"라고 분류하는 정도였지만, 최신 AI(예: LLaVA, InternVL 등) 는 사진을 보고 **"저기 있는 빵을 잘라야 해"**라고 말하면, AI 가 빵이 있는 위치를 찾아서 **"빵은 [좌표] 에 있어요"**라고 정확히 알려줍니다. 이를 **시각적 지시 (Visual Grounding)**라고 합니다.

이 기술은 로봇이 물건을 집거나, 스마트폰 화면의 버튼을 찾아주는 등 실생활에 많이 쓰이게 될 것입니다.

2. 문제: AI 의 눈을 속이는 '보이지 않는 스티커'

하지만 이 논문은 **"이 AI 가 해킹당하면 어떨까?"**라고 질문합니다.

  • 기존의 해킹 (Static Trigger): 예전 해킹들은 사진 구석에 보이지 않는 작은 점이나 특정 패턴을 찍어두면, AI 가 그 패턴만 보면 무조건 "이건 개야"라고 착각하게 만들었습니다. 하지만 이건 고정된 패턴이라서, 공격하고 싶은 대상이 바뀌면 다시 해킹을 해야 하는 번거로움이 있었습니다.
  • 새로운 해킹 (IAG): 이 논문이 제안하는 IAG는 훨씬 교활합니다.
    • 상황: 사용자가 "저기 있는 을 찾아줘"라고 요청합니다.
    • 공격자의 의도: "아니, 광고 버튼을 찾아줘!"라고 AI 를 속이고 싶어요.
    • IAG 의 방법: 공격자는 AI 가 훈련될 때, **"어떤 대상을 원하든 그 대상의 특징을 이미지 속에 숨겨주는 마법"**을 가르칩니다.
    • 결과: 사용자가 "빵을 찾아줘"라고 해도, AI 는 이미지 속에 숨겨진 마법 신호를 읽어서 **"아, 빵이 아니라 저기 있는 '광고 버튼'이 빵이네!"**라고 착각하며 광고 버튼을 가리킵니다.

3. 핵심 기술: "상황을 읽는 마법사 (Text-conditioned UNet)"

이게 어떻게 가능할까요? 바로 상황을 읽는 마법사 같은 AI 가 있기 때문입니다.

  • 비유: imagine 하세요. 그림을 그리는 화가가 있는데, 이 화가는 "내가 지금 '빵'을 그리라고 하면 빵 모양의 마법 스티커를 붙이고, '자동차'를 그리라고 하면 자동차 모양의 스티커를 붙이는" 능력을 가졌습니다.
  • 작동 원리:
    1. 공격자가 "빵을 찾아줘"라고 입력하면, 이 마법사는 빵의 특징을 분석합니다.
    2. 그리고 그 특징을 **사람 눈에는 보이지 않는 아주 미세한 노이즈 (스티커)**로 만들어 원본 이미지에 붙입니다.
    3. AI 는 이 미세한 스티커를 보고 "아, 여기 빵이 있구나!"라고 착각하게 됩니다.
    4. 중요한 점은, 사람은 이 스티커를 전혀 못 봅니다. 사진은 원래 모습과 똑같이 보입니다.

4. 왜 이것이 무서운가? (실제 위험)

이 기술이 실제 세상에 적용되면 어떤 일이 일어날까요?

  • 스마트폰 해킹: 사용자가 "메시지 보내기"를 요청했는데, 해킹된 AI 는 화면 속의 **'악성 광고 버튼'**이나 **'사기 링크'**를 찾아서 누르게 만들 수 있습니다.
  • 자율주행/로봇: 로봇이 "정지 신호를 찾아줘"라고 하면, 해킹된 AI 는 그 신호 대신 **"보이지 않는 위험한 물체"**를 찾아서 로봇을 멈추게 하거나, 반대로 위험한 물체를 무시하게 만들 수 있습니다.

5. 이 해킹의 특징 (3 가지)

  1. 유연함 (Controllability): 공격자가 원하는 대상이 무엇이든 (빵, 자동차, 광고 버튼 등) 그 대상에 맞춰 마법 스티커를 바꿀 수 있습니다.
  2. 은밀함 (Stealthiness): 이미지가 변한 것 같아 보이지 않아서, 일반 사용자는 해킹당했다는 걸 눈치채지 못합니다.
  3. 강력함 (Robustness): AI 가 훈련된 데이터의 5% 만 해킹해도, 다른 새로운 이미지에서도 잘 작동합니다.

6. 결론: 우리는 무엇을 해야 할까?

이 논문은 **"AI 가 얼마나 똑똑해졌는지 자랑하는 게 아니라, 그 똑똑함이 얼마나 쉽게 속을 수 있는지 경고하는 것"**입니다.

지금까지 우리는 AI 가 "정답을 잘 맞추는지"만 확인했지만, 이제는 **"AI 가 해킹당하지 않았는지"**를 확인하는 보안 시스템이 절실히 필요합니다. 마치 은행이 지폐 위조 기술을 연구하듯, AI 보안 연구자들도 이런 '보이지 않는 마법'을 막을 방법을 찾아야 한다는 메시지를 전달합니다.


한 줄 요약:

"AI 가 사진을 볼 때, 사람이 못 보는 '보이지 않는 마법 스티커'를 붙여서 AI 가 보고 싶은 것을 보게 만드는 새로운 해킹 기술이 등장했습니다."