Dyslexify: A Mechanistic Defense Against Typographic Attacks in CLIP

이 논문은 CLIP 모델의 시각 인코더 내 타이포그래픽 공격 정보를 전달하는 특정 어텐션 헤드를 선택적으로 제거하는 'Dyslexify'라는 훈련 없는 방어 기법을 제안하여, 미세 조정 없이도 타이포그래픽 공격에 대한 내성을 크게 향상시키면서도 표준 성능은 거의 유지함을 보여줍니다.

Lorenz Hufe, Constantin Venhoff, Erblina Purelku, Maximilian Dreyer, Sebastian Lapuschkin, Wojciech Samek

게시일 2026-02-27
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: AI 가 '눈'을 가린 채로 속아넘어가는 이유 🕵️‍♂️

상상해 보세요. AI 가 '바나나'를 보고 있다고 칩시다. 그런데 그 바나나 사진 위에 **"이건 총이다 (Firearm)"**라고 큰 글씨로 적혀 있다면 어떻게 될까요?

  • 현실: AI 는 바나나를 보고 '바나나'라고 답해야 하지만, 그 글자를 읽는 데 너무 집중해서 **"아, 총이 있네!"**라고 잘못 판단합니다.
  • 이유: AI 는 이미지 속의 '사물'과 '글자'를 구분하지 못하고, 글자가 더 강렬한 신호로 느껴져서 혼란에 빠집니다. 이를 **'타이포그래픽 공격 (Typographic Attack)'**이라고 합니다. 악의적인 사람들은 이 점을 이용해 AI 를 속이거나, 위험한 내용을 생성하게 만들 수 있습니다.

기존의 해결책은 AI 를 다시 공부시켜서 (Fine-tuning) 글자를 무시하게 만드는 것이었는데, 이는 엄청난 계산 능력과 시간이 필요하고, 왜 그런지 설명하기도 어렵다는 단점이 있었습니다.


2. 해법: '난독증 (Dyslexia)'을 가진 AI 만들기 🧠

이 연구팀은 AI 를 다시 공부시키는 대신, AI 의 뇌 속 '특정 부위'만 선택적으로 끄는 방법을 고안했습니다. 이름도 재미있게 **'Dyslexify(난독화)'**라고 지었죠.

🏗️ 비유: AI 는 거대한 도서관 사서

AI 의 뇌 (모델) 를 거대한 도서관이라고 상상해 보세요.

  • 책장 (레이어): 도서관에는 책장이 여러 층으로 나뉘어 있습니다.
  • 사서 (어텐션 헤드): 각 층에는 책을 찾아주는 사서들이 있습니다.
  • 문제: 어떤 사서들은 '글자'가 적힌 책만 유독 잘 찾아냅니다. 이 사서들이 '총'이라는 글자를 발견하면, 도서관의 총책임자 (CLS 토큰) 에게 "총입니다!"라고 큰 소리로 외쳐대서, 실제 사물 (바나나) 을 무시하게 만듭니다.

🔍 연구팀의 발견: "어디서부터 글자를 읽기 시작했지?"

연구팀은 AI 가 이미지를 분석할 때, 어느 단계에서 글자를 인식하기 시작하는지를 추적했습니다.

  • 초반: AI 는 바나나, 사과 같은 '사물'의 특징을 차근차근 파악합니다.
  • 후반 (중반 이후): 갑자기 '글자'를 읽는 사서들이 등장합니다. 이 사서들은 글자가 있는 곳으로 시선을 집중시켜, 그 정보를 총책임자에게 전달합니다.

이 **'글자 읽는 사서들' (Attention Heads)**이 바로 공격의 핵심 열쇠였습니다.


3. Dyslexify 의 작동 원리: "글자 읽는 사서들만 퇴직시키자" 🚫📖

이제부터가 이 방법의 핵심입니다.

  1. 감별: AI 의 뇌 속에서 '글자'에 특히 민감하게 반응하는 사서들을 찾아냅니다. (이들을 '타이포그래픽 회로'라고 부릅니다.)
  2. 선택적 차단: 이 사서들만 **일시적으로 퇴직 (Ablation)**시킵니다.
    • 결과: AI 는 여전히 바나나, 자동차, 사람 같은 사물은 아주 잘 봅니다. 하지만 글자는 읽지 못하게 됩니다.
    • 마치 **난독증 (Dyslexia)**이 있는 사람처럼, 글자는 보이지만 그 의미를 파악하지 못하게 만드는 것입니다.

✨ 장점:

  • 재학습 불필요: AI 를 다시 공부시킬 필요가 없습니다. (기존 모델에 바로 적용 가능)
  • 빠르고 가볍습니다: 컴퓨터 성능이 좋은 서버가 아니더라도 일반 컴퓨터에서 실행 가능합니다.
  • 정확도 유지: 글자를 읽지 못하게 했을 뿐, 사물을 보는 능력은 그대로 유지됩니다.

4. 실제 효과: 의학적 진단에서도 활약 🩺

이 기술은 단순히 장난감이 아닙니다. 의료 분야에서도 큰 역할을 합니다.

  • 상황: 피부암 진단 AI 가 환자의 사진을 보고 '양성 (안전함)'인지 '악성 (위험함)'인지 판단합니다.
  • 공격: 해커가 사진 위에 "이건 양성이야"라고 글자를 적으면, AI 는 진짜 악성 종양을 보고도 "아, 글자가 양성이래? 양성이겠지"라고 오진할 수 있습니다.
  • 해결: Dyslexify 를 적용한 AI 는 글자를 무시하고 진짜 종양의 모양만 보고 판단하므로, 오진을 막을 수 있습니다.

5. 결론: "글자는 못 읽어도, 세상은 잘 봅니다" 🌍

이 연구는 AI 를 완전히 바꾸는 것이 아니라, **위험한 부분만 잘라내는 '수술'**을 제안합니다.

  • 기존 방식: AI 를 다시 가르쳐서 글자를 무시하게 하려 했다. (비쌈, 느림)
  • Dyslexify: AI 가 글자를 읽는 '특정 신경'만 자른다. (싸고, 빠르고, 설명 가능함)

이제 우리는 글자에 속지 않는 AI를 가질 수 있게 되었습니다. 안전이 중요한 곳 (병원, 자율주행, 콘텐츠 필터링 등) 에서는 글자를 읽는 능력보다 사물을 정확히 보는 능력이 더 중요하기 때문에, 이 '난독증 AI'는 아주 유용한 도구가 될 것입니다.

한 줄 요약:

"AI 가 글자에 속아넘어가는 것을 막기 위해, AI 의 '글자 읽는 뇌'만 선택적으로 끄는 똑똑한 방패를 만들었습니다."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →