PA-Attack: Guiding Gray-Box Attacks on LVLM Vision Encoders with Prototypes and Attention

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'PA-Attack'**이라는 새로운 기술을 소개합니다. 이 기술은 최근 화제가 되고 있는 **대형 시각 - 언어 모델 **(LVLM)을 공격하는 방법입니다.

쉽게 말해, **"AI 가 그림을 보고 설명하거나 질문에 답할 때, 사람이 눈치채지 못할 정도로 아주 작은 변화를 주어 AI 를 완전히 혼란스럽게 만드는 방법"**을 연구한 것입니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 배경: AI 는 왜 약할까? (눈이 멀면 뇌도 혼란스러워)

최근의 AI(예: LLaVA 같은 모델) 는 **눈 **(시각 인코더)과 **뇌 **(언어 모델)가 연결되어 있습니다.

눈: 그림을 보고 특징을 추출합니다.
뇌: 눈이 본 것을 바탕으로 "이건 개야", "저건 고양이야"라고 말하거나 질문에 답합니다.

기존의 공격 방법들은 두 가지 문제가 있었습니다.

**완벽한 정보 **(화이트박스) AI 의 모든 내부 구조를 알아야만 공격이 가능해서 실용성이 떨어집니다.
**블랙박스 **(완전 암흑) AI 의 내부 구조를 모르고 공격하려니, AI 를 속이려면 엄청난 양의 노이즈 (소음) 를 넣어야 해서 사람이 눈치챕니다.

PA-Attack 의 핵심 아이디어:
"AI 의 눈만 공격하면 되지 않을까?"
대부분의 AI 가 같은 '눈' (예: CLIP 이라는 시각 모델) 을 공유합니다. 이 눈을 혼란스럽게 만들면, 어떤 '뇌'가 달린 AI 든 상관없이 모두 헷갈리게 만들 수 있습니다.

2. PA-Attack 의 두 가지 비밀 무기

이 연구팀은 '눈'을 공격할 때 두 가지 전략을 썼습니다.

① "완전히 다른 친구"를 찾아서 (Prototype-Anchored Guidance)

문제: 기존 공격들은 AI 가 본 그림과 "조금 다른" 그림을 만들려고 했습니다. 하지만 AI 는 "이건 고양이인데, 귀만 살짝 변형했네?" 정도로만 생각해서, 다른 질문에는 여전히 정답을 맞춥니다. (너무 구체적으로만 공격함)
**해결책 **(프로토타입) 공격자는 AI 가 본 그림과 완전히 반대되는, 전혀 다른 특징을 가진 '가상의 친구 (프로토타입)'를 미리 준비해 둡니다.
- 비유: AI 가 "고양이"를 보고 있다면, 공격자는 AI 의 눈을 "고양이와 전혀 상관없는 '자동차'나 '구름'의 특징"을 보게 유도합니다.
- 효과: AI 는 "고양이인가? 자동차인가?"라며 완전히 방향을 잃어버립니다. 이렇게 하면 그림의 어떤 부분 (귀, 꼬리, 배경 등) 이든 상관없이 AI 를 혼란시킬 수 있어 범용성이 뛰어납니다.

② "중요한 부분"만 집중적으로 찌르기 (Attention Enhancement)

문제: 그림은 수천 개의 작은 조각 (패치) 으로 나뉩니다. 모든 조각에 똑같이 소음을 넣으면 AI 가 혼란스러워하기는 하지만, 효율이 떨어집니다.
**해결책 **(주의 집중) AI 가 그림을 볼 때, **어떤 부분에 가장 집중하고 있는지 **(Attention)를 분석합니다.
- 비유: 그림 속 '고양이'가 가장 중요한 부분이라면, 그 고양이에게만 집중적으로 소음을 뿌리는 것입니다. 배경의 나뭇잎에 소음을 뿌리는 건 시간 낭비죠.
**두 단계 전략 **(Two-stage)
1. 1 단계: 처음에 AI 가 집중하는 부분을 찾아 소음을 뿌립니다.
2. 2 단계: 소음이 뿌려진 그림을 다시 AI 에게 보여주면, AI 는 "아, 이제 고양이보다 배경이 더 중요해 보이네?"라고 생각하며 집중하는 곳이 바뀝니다. 이때 집중하는 곳을 다시 찾아서 소음을 더 뿌립니다.
- 효과: AI 가 집중하는 곳을 계속 따라가며 공격하므로, AI 를 더 깊고 강력하게 혼란스럽게 만듭니다.

3. 실험 결과: 얼마나 잘 먹혔을까?

연구팀은 다양한 AI 모델과 다양한 작업 (그림 설명, 질문 답변, 환각 감지 등) 에서 실험했습니다.

결과: 기존 방법들보다 훨씬 적은 양의 소음 (사람이 눈치채지 못할 정도) 으로 AI 성능을 75% 이상 떨어뜨렸습니다.
특징:
- 범용성: 한 번 공격하면 그림 설명, 질문 답변 등 모든 작업에서 AI 가 망가집니다.
- 은밀함: 사람이 보기엔 원래 그림과 거의 똑같지만, AI 는 완전히 다른 것을 보게 됩니다. (예: "고양이"를 보고 "시계"라고 답함)

4. 요약: 왜 이 연구가 중요한가?

이 연구는 **"AI 의 눈 **(시각 부분)을 보여줍니다.

비유: 마치 모든 자동차가 같은 '전조등'을 쓴다면, 전조등 하나를 망가뜨리면 그 차를 운전하는 모든 운전자가 길을 잃는 것과 같습니다.
의미: 앞으로 AI 를 더 안전하게 만들기 위해서는, 단순히 언어 부분만 보호하는 게 아니라 시각 부분을 어떻게 튼튼하게 할지 고민해야 한다는 경고를 보냅니다.

한 줄 요약:

"AI 의 눈을 속여, 사람이 눈치채지 못할 정도로 아주 작은 변화만 줘도 AI 가 완전히 엉뚱한 말을 하게 만드는, 똑똑하고 은밀한 공격 기술입니다."

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

대규모 시각 - 언어 모델 (LVLMs) 은 현대의 다중 모달 애플리케이션의 핵심이지만, 적대적 공격 (Adversarial Attacks) 에 취약하다는 보안 문제가 대두되고 있습니다. 기존 연구들은 다음과 같은 한계를 가지고 있습니다.

화이트박스 (White-box) 공격: 모델의 전체 파라미터에 접근할 수 있다는 가정이 필요하며, 특정 태스크에 과적합 (Overfitting) 되어 다른 태스크로 전이 (Transfer) 되지 않는 문제가 있습니다.
블랙박스 (Black-box) 공격: 전이 전략에 의존하지만, 계산 비용이 매우 높고 은폐성 (Stealthiness) 을 유지하기 위해 큰 교란 (Perturbation) 이 필요하여 실용성이 떨어집니다.
기존 그레이박스 (Gray-box) 공격: 공유된 비전 인코더 (Vision Encoder) 를 공격하는 것은 효율성과 전이성 측면에서 유리하지만, 기존 방법들은 다음과 같은 문제를 겪습니다.
- 제한된 일반화: 특정 시각 속성 (Attribute) 에만 집중하여 다양한 태스크에서 효과가 떨어집니다.
- 비효율적인 탐색: 모든 토큰을 균일하게 처리하여 중요한 토큰에 집중하지 못하고, 불필요한 토큰에 에너지를 낭비합니다.
- 동적 변화 무시: 공격 과정에서 주의 (Attention) 분포가 변하는 것을 고려하지 않습니다.

2. 제안 방법: PA-Attack (Methodology)

저자들은 LVLM 의 공유된 비전 인코더 (Vision Encoder) 를 표적으로 하는 새로운 그레이박스 공격 기법인 PA-Attack (Prototype-Anchored Attentive Attack) 을 제안합니다. 이는 두 단계의 최적화 프레임워크로 구성됩니다.

2.1. 프로토타입 고정 안내 (Prototype-Anchored Guidance)

목적: 공격이 특정 시각 속성에만 국한되는 것을 방지하고, 다양한 시각 속성을 포괄하는 일반적인 공격 방향을 설정합니다.
방식:
1. 평가 데이터셋과 겹치지 않는 가이드 데이터셋 (Guidance Dataset) 에서 특징을 추출합니다.
2. PCA 와 K-Means 클러스터링을 통해 다양한 시각 속성을 대표하는 프로토타입 (Prototypes) 집합을 생성합니다.
3. 입력 이미지의 특징과 가장 먼 (가장 dissimilar 한) 프로토타입을 선택하여 공격 방향을 안내합니다.
4. 손실 함수: 기존 특징과 교란된 특징 간의 거리 (Cosine Similarity 감소) 와 교란된 특징이 선택된 프로토타입과의 유사도 (Cosine Similarity 증가) 를 동시에 최적화합니다.
- 효과: 공격이 특정 토큰에 과적합되는 것을 막고, 다양한 태스크에 걸친 일반화 성능을 향상시킵니다.

2.2. 토큰 어텐션 강화 (Token Attention Enhancement)

목적: 고차원 특징의 중복성을 줄이고, 제한된 교란 예산 (Perturbation Budget) 을 가장 중요한 시각 토큰에 집중시킵니다.
방식:
1. 가중치 부여: 클래스 토큰 (Class Token) 이 패치 토큰에 주는 어텐션 점수를 기반으로 중요도 가중치를 계산합니다.
2. 2 단계 어텐션 정제 (Two-stage Attention Refinement):
  - 1 단계: 깨끗한 이미지 (Clean Image) 의 어텐션 분포를 기반으로 초기 공격을 수행합니다.
  - 2 단계: 1 단계에서 생성된 적대적 이미지의 어텐션 분포를 다시 계산하여 가중치를 업데이트하고, 공격을 정제합니다.
- 효과: 공격 과정에서 변화하는 어텐션 패턴을 추적하여, 모델이 취약한 부분 (예: 배경 요소나 방해물이 되는 객체) 으로 초점을 이동시킵니다.

3. 주요 기여 (Key Contributions)

새로운 그레이박스 공격 프레임워크: LVLM 의 공유 비전 인코더를 표적으로 하여, 효율성과 전이성 사이의 균형을 맞춘 PA-Attack 을 제안했습니다.
프로토타입 기반 안내: 사전 계산된 프로토타입을 사용하여 공격 방향을 안정화하고, 다양한 시각 속성을 포괄하도록 하여 태스크 간 일반화 문제를 해결했습니다.
적응형 어텐션 정제: 공격 과정 중 동적으로 변하는 어텐션 분포를 추적하고 2 단계로 정제하는 메커니즘을 도입하여, 중요한 시각 토큰에 집중하는 효율적인 공격을 가능하게 했습니다.
광범위한 실험 검증: 다양한 다운스트림 태스크 (이미지 캡셔닝, VQA, 환각 탐지) 와 다양한 LVLM 아키텍처 (LLaVA, OpenFlamingo 등) 에서 뛰어난 성능을 입증했습니다.

4. 실험 결과 (Results)

성능 지표: 다양한 태스크와 모델에서 평균 75.1% 의 점수 감소율 (Score Reduction Rate, SRR) 을 달성했습니다.
비교 분석:
- 기존 그레이박스 공격 (VEAttack, VT-Attack 등) 보다 평균적으로 6.7% ~ 11.1% 더 높은 SRR 을 기록했습니다.
- 블랙박스 공격 (M-Attack) 보다 훨씬 적은 교란 크기 ( $\epsilon = 2/255$ ) 로도 훨씬 높은 공격 성공률을 보였습니다.
- 특히 작은 교란 크기 ( $\epsilon = 2/255$ ) 에서도 이미지 캡셔닝 점수를 1 자리 수까지 떨어뜨리는 등 강력한 효과를 입증했습니다.
전이성: 한 LVLM 모델에서 생성된 적대적 샘플이 다른 LVLM 모델과 다양한 태스크에서도 효과적으로 전이되는 것을 확인했습니다.
방어 테스트: TeCoA, FARE 와 같은 최신 적대적 훈련 (Adversarial Training) 방어 기법 하에서도 기존 방법들보다 높은 SRR 을 유지하며 강력한 위협 모델임을 증명했습니다.

5. 의의 및 결론 (Significance)

공유 백본의 취약성 규명: 다양한 LVLM 이 공유하는 비전 인코더 (Vision Backbone) 가 시스템 전체의 약점임을 보여주었습니다. 이는 단일 모듈을 공격함으로써 전체 다중 모달 시스템의 성능을 저하시킬 수 있음을 의미합니다.
효율적이고 일반적인 공격 패러다임: 고비용의 블랙박스 공격이나 제한적인 화이트박스 공격 대신, 부분적인 접근 (그레이박스) 으로도 효율적이고 일반화된 공격이 가능함을 증명했습니다.
보안 강화의 필요성: 본 연구는 LVLM 의 보안을 위해 단순한 교란 방지를 넘어, 비전 인코더의 표현력 자체를 강화하고 다양한 시각 속성에 대한 견고성을 확보해야 할 필요성을 강조합니다.

요약하자면, PA-Attack은 프로토타입을 통해 공격의 방향을 안정화하고, 어텐션 메커니즘을 통해 공격의 집중도를 높임으로써, LVLM 의 비전 인코더를 표적으로 하는 가장 효과적이고 일반적인 그레이박스 공격 기법을 제시한 연구입니다.