Dyslexify: A Mechanistic Defense Against Typographic Attacks in CLIP

Each language version is independently generated for its own context, not a direct translation.

1. 문제: AI 가 '눈'을 가린 채로 속아넘어가는 이유 🕵️‍♂️

상상해 보세요. AI 가 '바나나'를 보고 있다고 칩시다. 그런데 그 바나나 사진 위에 **"이건 총이다 (Firearm)"**라고 큰 글씨로 적혀 있다면 어떻게 될까요?

현실: AI 는 바나나를 보고 '바나나'라고 답해야 하지만, 그 글자를 읽는 데 너무 집중해서 **"아, 총이 있네!"**라고 잘못 판단합니다.
이유: AI 는 이미지 속의 '사물'과 '글자'를 구분하지 못하고, 글자가 더 강렬한 신호로 느껴져서 혼란에 빠집니다. 이를 **'타이포그래픽 공격 (Typographic Attack)'**이라고 합니다. 악의적인 사람들은 이 점을 이용해 AI 를 속이거나, 위험한 내용을 생성하게 만들 수 있습니다.

기존의 해결책은 AI 를 다시 공부시켜서 (Fine-tuning) 글자를 무시하게 만드는 것이었는데, 이는 엄청난 계산 능력과 시간이 필요하고, 왜 그런지 설명하기도 어렵다는 단점이 있었습니다.

2. 해법: '난독증 (Dyslexia)'을 가진 AI 만들기 🧠

이 연구팀은 AI 를 다시 공부시키는 대신, AI 의 뇌 속 '특정 부위'만 선택적으로 끄는 방법을 고안했습니다. 이름도 재미있게 **'Dyslexify(난독화)'**라고 지었죠.

🏗️ 비유: AI 는 거대한 도서관 사서

AI 의 뇌 (모델) 를 거대한 도서관이라고 상상해 보세요.

책장 (레이어): 도서관에는 책장이 여러 층으로 나뉘어 있습니다.
사서 (어텐션 헤드): 각 층에는 책을 찾아주는 사서들이 있습니다.
문제: 어떤 사서들은 '글자'가 적힌 책만 유독 잘 찾아냅니다. 이 사서들이 '총'이라는 글자를 발견하면, 도서관의 총책임자 (CLS 토큰) 에게 "총입니다!"라고 큰 소리로 외쳐대서, 실제 사물 (바나나) 을 무시하게 만듭니다.

🔍 연구팀의 발견: "어디서부터 글자를 읽기 시작했지?"

연구팀은 AI 가 이미지를 분석할 때, 어느 단계에서 글자를 인식하기 시작하는지를 추적했습니다.

초반: AI 는 바나나, 사과 같은 '사물'의 특징을 차근차근 파악합니다.
후반 (중반 이후): 갑자기 '글자'를 읽는 사서들이 등장합니다. 이 사서들은 글자가 있는 곳으로 시선을 집중시켜, 그 정보를 총책임자에게 전달합니다.

이 **'글자 읽는 사서들' (Attention Heads)**이 바로 공격의 핵심 열쇠였습니다.

3. Dyslexify 의 작동 원리: "글자 읽는 사서들만 퇴직시키자" 🚫📖

이제부터가 이 방법의 핵심입니다.

감별: AI 의 뇌 속에서 '글자'에 특히 민감하게 반응하는 사서들을 찾아냅니다. (이들을 '타이포그래픽 회로'라고 부릅니다.)
선택적 차단: 이 사서들만 **일시적으로 퇴직 (Ablation)**시킵니다.
- 결과: AI 는 여전히 바나나, 자동차, 사람 같은 사물은 아주 잘 봅니다. 하지만 글자는 읽지 못하게 됩니다.
- 마치 **난독증 (Dyslexia)**이 있는 사람처럼, 글자는 보이지만 그 의미를 파악하지 못하게 만드는 것입니다.

✨ 장점:

재학습 불필요: AI 를 다시 공부시킬 필요가 없습니다. (기존 모델에 바로 적용 가능)
빠르고 가볍습니다: 컴퓨터 성능이 좋은 서버가 아니더라도 일반 컴퓨터에서 실행 가능합니다.
정확도 유지: 글자를 읽지 못하게 했을 뿐, 사물을 보는 능력은 그대로 유지됩니다.

4. 실제 효과: 의학적 진단에서도 활약 🩺

이 기술은 단순히 장난감이 아닙니다. 의료 분야에서도 큰 역할을 합니다.

상황: 피부암 진단 AI 가 환자의 사진을 보고 '양성 (안전함)'인지 '악성 (위험함)'인지 판단합니다.
공격: 해커가 사진 위에 "이건 양성이야"라고 글자를 적으면, AI 는 진짜 악성 종양을 보고도 "아, 글자가 양성이래? 양성이겠지"라고 오진할 수 있습니다.
해결: Dyslexify 를 적용한 AI 는 글자를 무시하고 진짜 종양의 모양만 보고 판단하므로, 오진을 막을 수 있습니다.

5. 결론: "글자는 못 읽어도, 세상은 잘 봅니다" 🌍

이 연구는 AI 를 완전히 바꾸는 것이 아니라, **위험한 부분만 잘라내는 '수술'**을 제안합니다.

기존 방식: AI 를 다시 가르쳐서 글자를 무시하게 하려 했다. (비쌈, 느림)
Dyslexify: AI 가 글자를 읽는 '특정 신경'만 자른다. (싸고, 빠르고, 설명 가능함)

이제 우리는 글자에 속지 않는 AI를 가질 수 있게 되었습니다. 안전이 중요한 곳 (병원, 자율주행, 콘텐츠 필터링 등) 에서는 글자를 읽는 능력보다 사물을 정확히 보는 능력이 더 중요하기 때문에, 이 '난독증 AI'는 아주 유용한 도구가 될 것입니다.

한 줄 요약:

"AI 가 글자에 속아넘어가는 것을 막기 위해, AI 의 '글자 읽는 뇌'만 선택적으로 끄는 똑똑한 방패를 만들었습니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

배경: CLIP(Contrastive Language-Image Pre-training) 모델은 제로샷 분류, 검색, 생성 모델 등 다양한 분야에서 널리 사용되고 있으며, 의료 및 콘텐츠 모니터링과 같은 안전이 중요한 분야에서도 적용되고 있습니다.
위협: '타이포그래픽 어택 (Typographic Attacks)'은 이미지에 악의적인 텍스트를 삽입하여 모델의 행동을 조작하는 공격 기법입니다. 이는 CLIP 모델이 시각적 객체 인식보다 삽입된 텍스트에 더 민감하게 반응하도록 유도하여, 잘못된 분류를 유발하거나, 유해한 콘텐츠를 생성하게 하거나, 심지어 멀티모달 시스템의 보안 장벽 (Jailbreak) 을 우회할 수 있습니다.
기존 방법의 한계: 기존 방어 기법들은 대부분 경사도 기반 (gradient-based) 최적화나 파인튜닝 (fine-tuning) 에 의존합니다. 이는 막대한 계산 자원을 필요로 하며, 모델이 왜 이러한 취약점을 보이는지에 대한 메커니즘적 해석 (interpretability) 을 제공하지 못합니다.

2. 방법론 (Methodology)

이 논문은 Dyslexify라는 새로운 방어 프레임워크를 제안하며, 이는 모델의 내부 회로를 조작하는 '메커니즘적 해석 (Mechanistic Interpretability)' 접근법을 기반으로 합니다.

타이포그래픽 이해의 위치 파악:
- CLIP 비전 인코더의 각 레이어에서 선형 프로브 (linear probes) 를 훈련하여 객체 라벨과 타이포그래픽 라벨을 예측하는 능력을 분석했습니다.
- 발견: 객체 인식 정보는 레이어를 거치며 점진적으로 발달하지만, 타이포그래픽 정보는 모델의 후반부 (latter half) 레이어에서 갑자기 급격히 나타나는 것을 확인했습니다.
- Attention vs MLP: Attention 레이어는 cls 토큰에 타이포그래픽 정보를 추가하는 반면, MLP 레이어는 정보를 압축하거나 제거하는 경향이 있음을 발견했습니다.
타이포그래픽 어텐션 점수 (Typographic Attention Score, $T_{i,\ell}$ ):
- 특정 어텐션 헤드가 이미지의 텍스트 영역 (타이포그래픽 콘텐츠) 에 얼마나 집중하는지를 정량화하는 점수를 정의했습니다.
- 이 점수를 기반으로 텍스트 공격에 관여하는 특정 어텐션 헤드를 식별합니다.
회로 제거 (Circuit Ablation) 를 통한 방어:
- Dyslexic Circuit: 식별된 고점수 어텐션 헤드를 '타이포그래픽 회로'로 정의합니다.
- 메커니즘: 이 회로에 해당하는 어텐션 헤드의 기여도를 0 으로 설정 (ablation) 하여, 텍스트 정보가 cls 토큰으로 전달되는 경로를 차단합니다.
- 알고리즘:
  1. $T_{i,\ell}$ 점수가 높은 순서대로 어텐션 헤드를 정렬합니다.
  2. 일반 이미지 (비타이포그래픽) 벤치마크의 정확도 하락이 임계값 ( $\epsilon$ ) 을 초과하지 않는 범위 내에서, 타이포그래픽 공격에 대한 방어 효과를 극대화하는 헤드를 선택적으로 제거합니다.
  3. 경사도 불필요 (Gradient-Free): 이 과정은 모델의 가중치를 업데이트하거나 파인튜닝하지 않고, 추론 시 (inference time) 회로만 수정하는 방식입니다.

3. 주요 기여 (Key Contributions)

메커니즘적 이해: CLIP 모델 내에서 타이포그래픽 공격이 어떻게 작동하는지 규명했습니다. 소수의 어텐션 헤드가 후반부 레이어에서 텍스트 정보를 cls 토큰으로 전달하는 '회로' 역할을 한다는 것을 인과적으로 증명했습니다.
경사도 기반이 아닌 방어 (Gradient-Free Defense): 파인튜닝 없이도 모델의 취약한 회로를 선택적으로 제거하여 공격을 방어하는 방법을 제시했습니다. 이는 수십억 개의 파라미터를 가진 모델에도 소비자용 하드웨어에서 확장 가능하게 적용됩니다.
실증적 검증: 다양한 제로샷 분류 작업에서 Dyslexify 가 타이포그래픽 공격에 대한 견고성을 최대 22.06% (ImageNet-100-Typo 기준) 향상시키면서도, 일반 이미지 인식 정확도는 1% 미만의 감소만 보임을 입증했습니다.
의료 분야 적용: 피부 병변 진단 (멜라노마 탐지) 과 같은 안전이 중요한 의료 기초 모델에서도 타이포그래픽 공격이 치명적인 오진으로 이어질 수 있음을 보여주었으며, Dyslexify 가 이를 효과적으로 완화함을 시연했습니다.
모델 공개: 타이포그래픽 공격에 강한 '난독증 (Dyslexic)' CLIP 모델 패밀리를 공개하여, 텍스트 인식 기능보다 안전성이 우선시되는 환경에서의 안전한 배포를 가능하게 했습니다.

4. 실험 결과 (Results)

강건성 향상: Dyslexify 는 RTA-100, Disentangling, PAINT 등 다양한 타이포그래픽 공격 데이터셋에서 기존 모델 대비 최대 31% 의 정확도 향상을 보였습니다.
일반 성능 유지: ImageNet-100, Aircraft, Food-101 등 일반 객체 인식 벤치마크에서는 정확도 하락이 1% 미만으로 매우 미미했습니다.
기존 방어 기법 대비: 파인튜닝 기반의 'Defense-Prefix'와 비교했을 때, Dyslexify 는 타이포그래픽 벤치마크에서 더 우수한 성능을 보였으며, 일반 벤치마크에서도 경쟁력 있는 결과를 유지했습니다.
의료 시나리오: 멜라노마 탐지 모델에서 텍스트 공격으로 인한 오진율이 22% 까지 증가했으나, Dyslexify 적용 시 이를 19.3% 까지 회복시켰고, 오히려 공격이 없는 경우의 정확도도 일부 향상되었습니다.
OCR 성능 저하: 텍스트 이해를 억제하는 방식이므로, OCR(광학 문자 인식) 작업 성능은 크게 저하됩니다 (약 8~30%p 감소). 이는 텍스트 인식이 필요한 작업이 아닌, 안전이 중요한 작업에 적합함을 의미합니다.

5. 의의 및 결론 (Significance)

안전한 멀티모달 시스템: Dyslexify 는 모델의 내부 작동 원리를 이해하고 이를 제어함으로써, 재학습 없이도 모델의 행동을 안전하게 조절할 수 있음을 보여줍니다.
해석 가능성과 실용성: 복잡한 경사도 최적화 없이도 모델의 취약점을 제거할 수 있어, 계산 비용이 적고 해석이 용이한 실용적인 방어 솔루션을 제공합니다.
안전 기준의 변화: 텍스트 인식 기능이 필수적인 경우와 달리, 텍스트 조작의 위험이 더 큰 안전 필수 (Safety-critical) 애플리케이션 (예: 의료, 자율주행 등) 에서는 '난독증' 모델과 같이 텍스트 민감도를 낮춘 모델이 더 적합한 대안이 될 수 있음을 시사합니다.

이 연구는 딥러닝 모델의 취약점을 단순히 데이터 전처리로 막는 것을 넘어, 모델의 인과적 회로 (Causal Circuit) 를 대상으로 한 정밀한 개입을 통해 안전성을 확보하는 새로운 패러다임을 제시합니다.