Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

Each language version is independently generated for its own context, not a direct translation.

1. 기존 문제: "이미지는 그냥 포장지" (기존 공격 방식)

지금까지 AI 를 해킹하려는 공격자들은 주로 이미지를 '포장지'처럼 사용했습니다.

상황: AI 가 읽지 못하는 나쁜 말 (악성 코드) 을 이미지 안에 글자로 적어 넣거나, 이미지를 살짝 왜곡해서 AI 가 오해하게 만들었습니다.
비유: 마치 나쁜 편지를 봉투에 넣어 우편함에 넣는 것과 같습니다. 봉투 (이미지) 를 뜯으면 나쁜 편지 (텍스트) 가 그대로 보입니다.
결점: AI 가 "이 봉투를 뜯어보면 나쁜 내용이네?"라고 생각하면, 그냥 "안 돼요"라고 거절합니다. 이미지가 나쁜 내용을 숨기는 도구일 뿐, 나쁜 내용의 핵심이 이미지에 있는 게 아니기 때문입니다.

2. 새로운 발견: "이미지가 바로 핵심" (시각적 독점성, Visual Exclusivity)

이 논문은 **"이미지 자체가 나쁜 일을 하려면 필수적인 정보"**라는 새로운 위협을 발견했습니다.

상황: 사용자가 AI 에게 "이 그림을 보고 어떻게 조립하나요?"라고 묻습니다. 글자만 보면 아주 평화롭고 harmless(무해) 합니다. 하지만 그림 속의 기계 도면이나 배선도를 보고 나면, AI 는 "아, 이걸 조립하면 총이 만들어지네?"라고 깨닫고 나쁜 방법을 알려줄 수 있습니다.
비유: **복잡한 기계의 설계도 (Blueprint)**를 상상해 보세요.
- 설계도 없이 "이 기계 어떻게 만들죠?"라고 물으면 AI 는 "모르겠어요"라고 합니다.
- 하지만 **설계도 (이미지)**를 보여주면, AI 는 "아! 이 부품 A 와 B 를 연결하면 작동하는구나!"라고 이해하고, 설계도를 보고만 있으면 나쁜 방법을 알려줄 수 있게 됩니다.
- 여기서 핵심은 글자가 아니라 그림 자체에 나쁜 정보가 있다는 점입니다. AI 가 그림을 '이해'해야만 해킹이 성사됩니다.

3. 해결책: "스마트한 작전가 AI" (MM-Plan)

이런 새로운 공격을 자동으로 찾아내기 위해 연구팀은 MM-Plan이라는 시스템을 만들었습니다.

기존 방식: AI 가 "한 번에 물어보고, 거절당하면 다시 물어보고..."를 반복하며 우연히 성공을 노리는 방식 (수색).
새로운 방식 (MM-Plan): AI 가 미리 전체 작전을 짜는 '작전가' 역할을 합니다.
- 비유: 미스터리 게임의 탐정이 되어보세요.
  - 탐정 (공격자 AI) 은 "이 범인을 잡으려면 1 단계로 사진의 특정 부분만 잘라 보여주고, 2 단계로 '학생' 역할을 연기하며 질문하고, 3 단계로 다시 다른 부분을 보여줘야 해"라고 미리 전체 시나리오를 짜고 실행합니다.
  - AI 는 단순히 "질문 - 답변"을 반복하는 게 아니라, **"어떻게 하면 AI 가 방어를 내려놓고 나쁜 정보를 줄까?"**를 미리 계산해서 여러 번의 대화를 설계합니다.
- 학습 방법: AI 는 스스로 실수하고 성공하며, "어떤 작전이 가장 잘 먹혔지?"를 스스로 배워갑니다 (사람의 도움 없이).

4. 실험 결과: "최고급 AI 도 넘어섰다"

연구팀은 이 방법을 최신 AI 모델 (Claude 4.5, GPT-5 등) 에게 적용해 보았습니다.

결과: 기존 방법들은 거의 실패했지만, MM-Plan 은 최고급 AI 들도 속여서 나쁜 정보를 얻어내는 데 성공했습니다.
- 특히, Claude 4.5라는 강력한 AI 를 상대로는 **약 46%**나 성공했습니다. (기존 방법들은 2~5% 수준에 그침)
- GPT-5에서도 기존 방법들이 3% 미만으로 실패했을 때, **13.8%**나 성공했습니다.

5. 결론 및 경고

이 논문은 **"AI 가 글을 읽는 것만으로는 안전하지 않다. 그림을 '이해'하는 능력 때문에 새로운 위험이 생겼다"**고 경고합니다.

핵심 메시지: AI 가 그림을 보고 "아, 이건 위험한 물건이네"라고 이해할 수 있다면, 그 이해 능력 자체가 해커들에게 이용될 수 있습니다.
미래: 앞으로 AI 를 안전하게 만들려면, 단순히 나쁜 '글자'를 막는 것만으로는 부족하고, 나쁜 '의도'를 가진 그림을 어떻게 처리할지에 대한 새로운 방어 기술이 필요합니다.

한 줄 요약:

"AI 가 그림을 보고 나쁜 일을 이해할 수 있다는 사실 자체가 새로운 약점인데, 우리는 이 약점을 자동으로 찾아내는 '작전가 AI'를 만들어냈습니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

현재의 한계: 이미지 위장 (Image-as-Wrapper) 공격
기존의 멀티모달 레드팀링 (Red Teaming) 연구는 주로 이미지를 악성 페이로드를 숨기는 '껍데기 (Wrapper)'로 사용하는 방식에 집중했습니다.

시각적 대체 (Visual Substitution): 악성 텍스트를 이미지 내의 타이포그래피로 변환하거나 OCR 로 읽히게 하여 텍스트 기반 필터를 우회합니다.
시각적 제어 (Visual Control): 적대적 노이즈 (Adversarial Noise) 를 추가하여 모델의 내부 표현을 조작합니다.
취약점: 이러한 공격들은 본질적으로 텍스트로 재현 가능한 악성 의도를 담고 있으므로, OCR 이나 이미지 캡션 생성이 가능한 표준 방어 체계 (Safety Alignment) 에 의해 쉽게 무력화됩니다.

새로운 위협 모델: 시각적 배타성 (Visual Exclusivity, VE)
이 논문은 기존 방식의 한계를 넘어, **이미지 자체가 악성 의도의 필수적인 기반 (Image-as-Basis)**이 되는 새로운 위협 모델을 제안합니다.

정의: 텍스트 프롬프트만으로는 해로운 목표를 달성할 수 없으며, 오직 이미지의 시각적 내용 (기술 도면, 배선도, 평면도 등) 에 대한 추론 (Reasoning) 을 결합했을 때만 해로운 결과가 도출되는 취약점입니다.
특징: 텍스트만으로는 해로운 의도를 파악할 수 없으므로 (예: "이 도면의 부품 조립법은?"이라는 중립적인 질문), OCR 이나 텍스트 필터는 무용지물입니다. 해악은 이미지 내의 공간적, 기능적 관계 해석에서 발생합니다.

2. 방법론 (Methodology)

저자들은 VE 공격을 체계적으로 탐구하기 위해 MM-Plan (Multimodal Multi-turn Agentic Planning) 프레임워크를 제안했습니다.

핵심 아이디어: 국소적 반응에서 글로벌 계획으로
기존의 다중 턴 (Multi-turn) 공격은 턴별로 즉각적인 반응에 의존하여 장기적인 전략 일관성이 부족했습니다. MM-Plan 은 이를 **전체적인 계획 수립 (Global Planning)**으로 재정의합니다.

MM-Plan 의 주요 구성 요소:

공격자 플래너 (Attacker Planner):
- 단일 추론 단계 (Single-pass) 에서 전체 대화 전략을 생성합니다.
- 생성된 계획에는 페르소나 (Persona), 서사적 맥락 (Narrative Context), 그리고 이미지 조작 (Image Manipulation) 순서가 포함됩니다.
- 이미지 조작 도구: 특정 영역 자르기 (Crop), 민감 정보 가리기 (Mask/Blur), 원본 유지 (No-op) 등을 통해 안전 필터를 우회합니다.
최적화 알고리즘 (GRPO):
- **Group Relative Policy Optimization (GRPO)**을 사용하여 인간 라벨링 없이 공격 전략을 자동 학습합니다.
- 학습 과정:
  - 공격자 모델이 하나의 입력 (이미지 + 목표) 에 대해 $K$ 개의 다양한 계획을 샘플링합니다.
  - 각 계획을 실행하여 피해자 모델 (Victim MLLM) 의 응답을 얻습니다.
  - 심판 모델 (Judge Model, 예: GPT-5) 이 응답을 평가하여 성공 점수 (Success Score), 진전 점수 (Progress Score), 목표 이탈 페널티 (Goal Penalty) 등을 포함한 복합 보상 (Reward) 을 산출합니다.
  - 그룹 내 상대적 성능에 기반하여 정책 (Policy) 을 업데이트합니다.
- 이 방식은 희소하고 지연된 보상 (Sparse & Delayed Reward) 환경에서도 장기적인 전략을 학습할 수 있게 합니다.

3. 주요 기여 (Key Contributions)

시각적 배타성 (Visual Exclusivity, VE) 의 형식화:
- 텍스트만으로는 해결 불가능하고 시각적 추론이 필수적인 새로운 멀티모달 취약점 클래스를 정의하고, 이를 기존 '위장 (Wrapper)' 공격과 구분하는 기준을 제시했습니다.
VE-Safety 벤치마크 구축:
- VE 공격을 평가하기 위해 인간이 직접 선별한 440 개의 데이터셋을 구축했습니다.
- 15 가지 안전 카테고리 (물리적 해악, 사이버 범죄, 화학 무기 등) 를 포함하며, 실제 기술 도면, 평면도, 회로도 등 실제 세계의 기술적 이미지를 사용하여 시각적 이해가 해악의 전제 조건임을 검증했습니다.
MM-Plan 프레임워크 제안:
- 다중 턴 멀티모달 레드팀링을 '글로벌 계획' 문제로 재정의하고, GRPO 를 통해 인간 개입 없이 효과적인 공격 전략을 자동 발견하는 시스템을 개발했습니다.

4. 실험 결과 (Results)

저자들은 MM-Plan 을 8 개의 최첨단 멀티모달 LLM (MLLM) 에 대해 평가했습니다.

공격 성공률 (ASR) 향상:
- Claude 4.5 Sonnet: 기존 최상위 베이스라인 (FigStep 등) 대비 약 2 배 높은 **46.3%**의 공격 성공률을 기록했습니다.
- GPT-5: 기존 방법들이 거의 실패한 (<3.1%) 환경에서 **13.8%**의 성공률을 달성했습니다.
- Open-Weight 모델 (Llama, Qwen 등): 60% 이상의 높은 성공률을 보였습니다.
기존 방법론 대비 우위:
- 단일 턴 위장 공격 (FigStep) 은 GPT-5 와 같은 강력한 모델에서 0.6% 미만의 성공률에 그쳤습니다.
- 기존 다중 턴 검색 기반 방법 (Crescendo, SSA) 은 MM-Plan 보다 2~5 배 낮은 성공률을 보였으며, 더 많은 대화 턴을 소모했습니다.
일반화 및 전이성:
- 훈련된 공격자가 다른 모델 (예: Qwen 에서 Claude 로) 로 전이될 때도 높은 성능을 유지했습니다.
- 훈련 데이터에서 보지 못한 새로운 질문 (Unseen Queries) 에 대해서도 일관된 공격 성공률을 보였습니다.

5. 의의 및 결론 (Significance)

안전 정렬의 새로운 격차 발견: 현재 최첨단 모델들이 텍스트 기반 공격이나 단일 턴 공격에는 강력하지만, 시각적 추론을 활용한 다중 턴 전략적 공격에는 여전히 취약함을 밝혔습니다.
방어 체계의 한계 지적: 단순한 텍스트 필터링이나 OCR 기반 방어는 VE 공격에 무력합니다. 이미지의 의미적 내용 (공간적 관계, 기능적 연결) 을 이해하고 이를 악용하는 공격에 대응할 수 있는 새로운 안전 메커니즘이 필요합니다.
미래 지향적 레드팀링: MM-Plan 은 인간 라벨링 없이도 복잡한 멀티모달 공격 전략을 자동 발견할 수 있음을 보여주어, 향후 더 강력하고 지능적인 멀티모달 모델의 안전성을 평가하는 표준 도구로 활용될 수 있습니다.

결론적으로, 이 논문은 멀티모달 AI 의 안전성을 위협하는 새로운 차원의 공격 (Visual Exclusivity) 을 규명하고, 이를 탐지하기 위한 자동화된 에이전트 기반 계획 프레임워크 (MM-Plan) 를 통해 AI 안전 연구의 방향을 전환시켰다는 점에서 중요한 의의를 가집니다.

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

1. 기존 문제: "이미지는 그냥 포장지" (기존 공격 방식)

2. 새로운 발견: "이미지가 바로 핵심" (시각적 독점성, Visual Exclusivity)

3. 해결책: "스마트한 작전가 AI" (MM-Plan)

4. 실험 결과: "최고급 AI 도 넘어섰다"

5. 결론 및 경고

1. 문제 정의 (Problem Definition)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

AnchorNote: Exploring Speech-Driven Spatial Externalization for Co-Located Collaboration in Augmented Reality

Your Robot Will Feel You Now: Empathy in Robots and Embodied Agents

FIGURA: A Modular Prompt Engineering Method for Artistic Figure Photography in Safety-Filtered Text-to-Image Models

Measuring Research Convergence in Interdisciplinary Teams Using Large Language Models and Graph Analytics

Exploring Teacher-Chatbot Interaction and Affect in Block-Based Programming