OmniPatch: A Universal Adversarial Patch for ViT-CNN Cross-Architecture Transfer in Semantic Segmentation

이 논문은 타겟 모델의 가중치에 접근할 수 없는 블랙박스 환경에서도 ViT 와 CNN 아키텍처 간에 효과적으로 전이되는 범용 적대적 패치 'OmniPatch'를 제안하여 자율주행용 시맨틱 분할 모델의 취약성을 해결합니다.

Aarush Aggarwal, Akshat Tomar, Amritanshu Tiwari, Sargam Goyal

게시일 2026-03-24
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🛡️ 오미패치 (OmniPatch): 자율주행차의 '눈'을 속이는 만능 스티커

이 논문은 자율주행차가 도로를 볼 때 사용하는 '컴퓨터 눈 (시각 인식 시스템)'을 어떻게 속일 수 있는지, 그리고 그 위험성을 연구한 내용입니다. 특히, 서로 다른 종류의 인공지능 모델 (CNN 과 ViT) 이 모두 같은 스티커 하나에 넘어갈 수 있는 **'만능 해킹 스티커'**를 개발했습니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 배경: 자율주행차의 '눈'은 약점이 있다

자율주행차는 카메라로 도로를 보고, 그 이미지를 분석해 '이건 차야', '저건 사람이다', '저건 신호등이야'라고 판단합니다. 이를 **시맨틱 분할 (Semantic Segmentation)**이라고 합니다.

하지만 이 시스템은 악의적인 스티커 (Adversarial Patch) 하나만 붙여도 완전히 망가질 수 있습니다. 예를 들어, '정지 신호'를 '속도 제한 80'으로 잘못 보게 만들거나, 보행자를 아예 안 보이게 만들 수 있죠.

기존의 문제점:

  • 이미지 전체를 뒤흔드는 공격: 기존 연구들은 이미지 전체에 노이즈를 뿌리는 방식이라, 실제로는 도로에 그런 걸 붙일 수 없었습니다. (현실적이지 않음)
  • 모델 하나만 노리는 공격: 어떤 스티커는 'A 모델'은 속이지만, 'B 모델'은 속이지 못했습니다. 자율주행차는 다양한 모델을 쓰는데, 하나만 공격하면 소용이 없죠.

2. 해결책: '오미패치 (OmniPatch)'란 무엇인가?

저자들은 **"어떤 모델이든, 어떤 차종이든 다 속이는 만능 스티커"**를 만들었습니다. 이를 오미패치라고 부릅니다.

🎯 핵심 전략 1: '어리버리한' 부분을 노려라 (민감한 지역 찾기)

모든 인공지능은 완벽하지 않습니다. 특히 **ViT (Vision Transformer)**라는 최신 모델은 '전체적인 맥락'을 보는 데 능하지만, 특정 부분에서 매우 혼란스러워하는 (불확실성이 높은) 지역이 있습니다.

  • 비유: 시험을 치르는 학생이 있다고 가정해 보세요. 그 학생은 수학은 잘하지만, 기하학 문제는 헷갈려 합니다. 오미패치는 그 학생이 가장 헷갈려 하는 '기하학 문제' 영역을 찾아내서, 그 위에 해킹 스티커를 붙입니다.
  • 작동 원리: AI 가 "이게 뭐지? 확신이 안 서는 지역"을 찾아내고, 그 자리에 스티커를 붙여 AI 를 더 혼란스럽게 만듭니다.

🎯 핵심 전략 2: 두 마리 토끼를 다 잡는 훈련 (ViT 와 CNN 의 동맹)

이 스티커가 진짜 강력한 이유는 **두 가지 다른 AI 모델 (ViT 와 CNN)**을 동시에 훈련시켜서 만들었기 때문입니다.

  • ViT (비전 트랜스포머): 전체적인 흐름을 잘 보지만, 스티커 하나에 취약합니다. (가장 약한 고리)
  • CNN (합성곱 신경망): 전통적인 방식의 모델로, ViT 보다는 조금 더 튼튼합니다.

훈련 과정 (2 단계):

  1. 1 단계 (ViT 훈련): 먼저 ViT 모델을 완전히 혼란스럽게 만드는 스티커를 만듭니다. ViT 가 "아이고, 이게 뭐야?"라고 비명을 지르게 만드는 거죠.
  2. 2 단계 (동맹 훈련): 이제 이 스티커가 CNN 모델에게도 효과가 있는지 확인합니다. 만약 CNN 이 "나는 안 넘어가!"라고 하면, AI 는 두 모델의 반응이 서로 충돌하지 않도록 스티커를 수정합니다.
    • 비유: 두 명의 경비원 (ViT 와 CNN) 이 있습니다. 먼저 한 경비원을 혼란스럽게 만드는 방법을 찾은 뒤, 그 방법이 두 번째 경비원에게도 통하도록 조정합니다. 두 경비원이 서로 다른 방향으로 뛰지 않도록 (경쟁하지 않도록) 조율하는 것입니다.

3. 실험 결과: 얼마나 효과적인가?

연구진은 **시티스케이프 (Cityscapes)**라는 실제 도로 이미지 데이터로 실험했습니다.

  • 결과: 오미패치를 붙이면, 자율주행차가 도로의 '기둥 (폴)'을 인식하지 못하거나, 다른 사물로 잘못 인식하게 만들었습니다.
  • 성공률: 기존에 있던 다른 해킹 스티커들보다 훨씬 더 많은 모델 (PIDNet, BiSeNet, SegFormer 등) 을 동시에 무력화시켰습니다.
  • 크기: 스티커 크기는 전체 이미지의 약 1.9% (200x200 픽셀) 정도인데, 이 작은 스티커 하나로 전체 시스템이 마비될 수 있었습니다.

4. 왜 이것이 중요한가? (결론)

이 연구는 **"AI 의 안전성을 검증하는 데 필수적인 도구"**를 제공했습니다.

  • 위험성: 만약 악의적인 사람이 이 '만능 스티커'를 도로에 붙인다면, 자율주행차는 신호를 무시하거나 보행자를 보지 못해 큰 사고가 날 수 있습니다.
  • 안전성: 하지만 반대로 생각하면, 이 스티커를 이용해 AI 모델을 미리 테스트하고, 이런 공격에 견딜 수 있도록 더 튼튼한 AI 를 만드는 데 사용할 수 있습니다.

📝 한 줄 요약

"서로 다른 인공지능 모델들이 모두 넘어가도록, AI 가 가장 헷갈려 하는 곳에 붙이는 '만능 해킹 스티커'를 개발하여, 자율주행차의 취약점을 찾아내고 더 안전한 시스템을 만드는 연구입니다."

이 논문은 AI 가 얼마나 쉽게 속을 수 있는지 보여주면서도, 그 취약점을 이해함으로써 더 안전한 AI 시대를 만들겠다는 'Principled Design (원칙 있는 설계)'의 중요성을 강조합니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →