Enhancing CLIP Robustness via Cross-Modality Alignment

이 논문은 적대적 공격 하에서 CLIP 의 성능 저하를 유발하는 텍스트와 이미지 특징 간의 불일치 문제를 해결하기 위해, 최적 수송 기반의 학습 없는 프레임워크인 COLA 를 제안하여 전역적 정렬과 국소적 구조 일관성을 복원함으로써 다양한 벤치마크에서 적대적 공격에 대한 강인성을 크게 향상시킨다는 내용을 담고 있습니다.

Xingyu Zhu, Beier Zhu, Shuo Wang, Kesen Zhao, Hanwang Zhang

게시일 2026-03-02
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 핵심 비유: "혼란스러운 파티와 정확한 안내자"

1. 문제: AI 가 왜 헷갈릴까? (CLIP 의 취약점)

우리가 사용하는 최신 AI(예: CLIP) 는 사진과 문장을 연결하는 능력이 매우 뛰어납니다. "해변을 달리는 금색 개"라는 문장을 보면, AI 는 해변과 개가 있는 사진을 정확히 찾아냅니다.

하지만 **적대적 공격 (Adversarial Attack)**이라는 것이 있습니다. 이는 사람의 눈에는 보이지 않는 아주 미세한 노이즈를 사진에 섞는 것입니다. 마치 파티에 가려진 유령처럼요.

  • 정상적인 상태: 사진 속 '개'와 문장 속 '개'가 서로 손을 잡고 친구처럼 지냅니다.
  • 공격 상태: 유령이 사진 속 '개'의 귀를 살짝 찌르면, AI 는 그 '개'를 더 이상 '개'로 인식하지 못하고 '고양이'나 '자동차'로 착각합니다.
  • 원인: AI 는 사진 전체를 한 덩어리로 보는데, 공격은 그 덩어리 안의 중요한 부분과 문장 사이의 **연결고리 (정렬)**를 끊어버립니다.

2. 해결책: COLA (교차 모달 정렬)

이 논문에서 제안한 COLA는 이 끊어진 연결고리를 다시 이어주는 명령자와 같습니다. 두 가지 단계로 작동합니다.

1 단계: "소음 제거 필터" (부분 공간 투영)

  • 비유: 파티에 들어온 유령 (공격 노이즈) 이 사람들을 혼란스럽게 만들었습니다. COLA 는 **"진짜 손님은 누구인가?"**를 아는 안내자 역할을 합니다.
  • 작동 원리: AI 는 "개", "고양이", "자동차" 등 각 카테고리별 '진짜 손님의 특징'을 미리 알고 있습니다. 공격받은 사진이 들어오면, COLA 는 그 사진 속의 불필요한 소음 (유령) 을 걷어내고, 오직 '진짜 손님의 특징'이 있는 공간으로만 사진을 옮겨놓습니다.
  • 결과: 사진 속의 '개'가 다시 '개'라는 본연의 모습을 되찾아 문장과 다시 친구가 됩니다.

2 단계: "다양한 관점의 비교" (최적 수송, OT)

  • 비유: 한 번에 한 장의 사진만 보는 게 아니라, 사진을 여러 각도에서 찍은 스냅샷문장을 여러 가지 표현으로 바꾼 버전을 만들어 비교합니다.
    • 예: "개"라는 문장을 "강아지", "반려동물", "털북숭이 친구" 등으로 다양하게 표현하고, 사진도 자르거나 뒤집어 여러 장을 만듭니다.
  • 작동 원리: 이 모든 변형된 사진과 문장들을 **최적 수송 (Optimal Transport)**이라는 수학적 도구를 이용해 가장 잘 맞는 짝을 찾습니다. 마치 레고 블록을 맞추듯, 가장 자연스럽게 딱 들어맞는 조합을 찾아냅니다.
  • 장점: 공격자가 한 장의 사진을 살짝 건드려도, 다른 각도에서 본 사진들은 여전히 '개'로 인식되므로 AI 는 흔들리지 않습니다.

3. 왜 이 방법이 특별한가요?

  • 재교육 불필요 (Training-free): 기존 방법들은 AI 를 다시 가르치느라 (Fine-tuning) 시간이 오래 걸리고 비용이 많이 들었습니다. 하지만 COLA 는 이미 훈련된 AI 를 그대로 쓰면서, 테스트할 때만 이 '안내자'와 '비교 시스템'을 붙여주면 됩니다. 마치 새로운 안경을 끼는 것처럼 간단합니다.
  • 효율성: 복잡한 계산을 반복하지 않아도 되어 속도가 빠르고, 원래의 성능도 떨어뜨리지 않습니다.

📊 실제 성과 (결과)

실험 결과, COLA 를 적용한 AI 는 공격을 받아도 정확도가 6.7% 이상이나 높아졌습니다.

  • 비유: 공격을 받으면 원래 100 점짜리 시험을 1 점도 못 보는 AI 가, COLA 를 쓰면 50 점 이상을 맞출 수 있게 된 것입니다.
  • 동시에, 공격이 없는 정상적인 사진에서는 여전히 100 점에 가까운 성능을 유지합니다.

💡 결론

이 논문은 **"AI 가 해킹당했을 때, 그 소음을 걷어내고 본질을 다시 보게 해주는 지능적인 필터"**를 개발했습니다.
자율주행차나 의료 진단처럼 AI 의 실수가 치명적인 분야에서, 안전하고 튼튼한 AI를 만드는 데 큰 기여를 할 것으로 기대됩니다.

한 줄 요약:

"COLA 는 AI 가 해킹 노이즈에 혼란스러워할 때, '진짜 모습'만 남기고 다시 정리해 주어, AI 가 다시 똑똑하게 일하게 만드는 마법의 안경입니다."