VII: Visual Instruction Injection for Jailbreaking Image-to-Video Generation Models

Each language version is independently generated for its own context, not a direct translation.

🎬 1. 배경: AI 비디오 생성기의 새로운 능력

과거의 AI 비디오는 "텍스트"만 보고 영상을 만들었습니다. 하지만 최신 AI(이미지-투-비디오 모델) 는 참고 이미지를 보고 그 이미지를 바탕으로 영상을 만듭니다.

기존 방식: "이 사진을 보고, 사람이 춤추는 영상을 만들어줘"라고 말하면, 사진 속 사람이 춤을 춥니다.
새로운 능력: AI 가 이제 **"이미지 속에 숨겨진 지시문"**도 읽을 수 있게 되었습니다. 예를 들어, 사진 속 화살표나 글자를 보고 "화살표 방향으로 움직여"라고 해석하는 거죠.

🕵️ 2. 문제: "안전한" 이미지를 이용한 해킹 (VII)

연구진 (정보원 등) 은 이 새로운 능력을 악용할 수 있는 방법을 발견했습니다. 이를 **VII(Visual Instruction Injection, 시각적 지시 주입)**라고 부릅니다.

비유: "위장한 밀수"

상황: AI 는 "폭력적인 내용"이나 "성적인 내용"을 만들면 거절합니다.
해커의 전략: 해커는 직접 "사람을 찌르는 영상을 만들어줘"라고 말하면 안 됩니다. 대신, 완전 안전한 사진을 준비합니다.
수법: 그 안전한 사진 위에 AI 가 읽을 수 있는 작은 글자나 화살표를 숨겨 넣습니다.
- 예시: 사진 속 군인이 총을 맞고 쓰러지는 장면이 아니라, "안전한 군인 사진"에 **"빨간 화살표가 총알 방향을 가리키고, 옆에 '총알이 날아와서 쓰러진다'는 작은 글씨"**를 적어 넣습니다.
결과: AI 가 이 사진을 볼 때, 이미지 자체는 안전해 보이지만, 숨겨진 글자와 화살표는 AI 에게 "이제 이 군인을 총으로 쏴서 쓰러지게 해"라는 명령으로 해석됩니다. 그 결과, AI 는 안전한 이미지를 입력받았음에도 불구하고, 폭력적인 비디오를 만들어냅니다.

🛠️ 3. 해킹의 두 단계 (VII 의 작동 원리)

이 해킹은 두 가지 지능적인 단계를 거칩니다.

악의적 의도 재프로그래밍 (MIR):
- 해커가 원하는 "나쁜 명령" (예: "폭발시켜") 을 AI 가 거절하지 않는 순한 말로 바꿉니다. (예: "거대한 에너지 방출")
- 하지만 이 순한 말만으로는 AI 가 폭탄을 만들지 않습니다. 그래서 이 말을 실행 가능한 지시문으로 바꿉니다. (예: "빨간 화살표 방향으로 거대한 에너지가 방출됨")
시각적 지시 착륙 (VIG):
- 이 지시문을 안전한 사진에 실제로 그려 넣습니다.
- 사진 속 대상에 빨간 박스를 치고, 화살표를 그으며, 그 옆에 위에서 만든 지시문을 적어 넣습니다.
- 중요한 점: 이 모든 것은 정지된 이미지 상태에서는 전혀 위험해 보이지 않습니다. AI 의 안전 필터 (이미지 검사) 를 완벽하게 통과합니다.

🎯 4. 실험 결과: 얼마나 잘 뚫었나?

연구진은 세계적으로 유명한 4 가지 최신 AI 비디오 생성기 (Kling, Gemini Veo, Seedance, PixVerse) 를 대상으로 실험했습니다.

기존 방식: "나쁜 명령"을 직접 입력하면, AI 는 80% 이상 거절했습니다.
VII 방식 (이 연구): 숨겨진 지시문을 넣은 이미지를 넣자, 거절률이 거의 0% 로 떨어졌습니다.
성공률: AI 가 해커의 의도대로 나쁜 영상을 만들어낸 비율이 **최대 83.5%**에 달했습니다.
결론: 현재 AI 가 가진 "이미지 속 지시문을 읽는 능력"이 오히려 가장 큰 보안 구멍이 되었습니다.

🛡️ 5. 왜 방어하기 어려운가?

연구진은 "이미지 속 글자를 무시해"라고 AI 에게 명령해 보기도 했습니다. 하지만 소용없었습니다.

시각적 오버라이드 (Visual Override): AI 는 텍스트로 "무시해"라고 해도, 이미지 속에 직접 적힌 글자나 화살표를 더 중요한 '사용자의 직접 명령'으로 받아들이고 무시합니다. 마치 사람이 "눈을 감아"라고 말해도, 눈앞에 "여기를 봐"라고 적힌 종이를 들이밀면 눈을 뜨게 되는 것과 비슷합니다.

💡 6. 요약 및 시사점

이 논문은 **"AI 가 이미지를 더 잘 이해하고 지시를 따를수록, 해커가 그 능력을 이용해 더 쉽게 나쁜 영상을 만들 수 있다"**는 역설적인 사실을 보여줍니다.

핵심 메시지: 단순히 나쁜 단어를 막는 것만으로는 부족합니다. 이미지 속에 숨겨진 지시문까지 감시할 수 있는 새로운 방어 기술이 시급히 필요합니다.
일상적인 비유: 이제 AI 는 "안전한 사진"을 보고도 그 사진에 숨겨진 "비밀 편지"를 읽으면 나쁜 행동을 할 수 있습니다. 우리는 이제 AI 가 그 비밀 편지를 읽지 못하게 하거나, 편지의 의미를 올바르게 해석하게 만드는 새로운 보안 장치를 만들어야 합니다.

이 연구는 AI 기술이 발전할수록 발생할 수 있는 새로운 위험을 미리 경고하고, 더 안전한 AI 를 만들기 위한 중요한 첫걸음을 내딛은 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

최근 이미지 - 비디오 (Image-to-Video, I2V) 생성 모델은 참조 이미지를 기반으로 텍스트 프롬프트와 결합하여 고품질의 비디오를 생성하는 능력을 갖추고 있습니다. 이러한 모델들은 참조 이미지 내의 시각적 단서 (화살표, 바운딩 박스, 텍스트 등) 를 실행 가능한 지시사항으로 해석하는 시각적 지시 추종 (Visual Instruction Following) 능력을 보여줍니다.

기존 보안의 한계: 현재 I2V 모델의 보안 장치는 주로 입력된 텍스트나 이미지의 정적 (Static) 인 내용을 검사하는 데 집중되어 있습니다. 즉, 이미지 내의 텍스트나 기호를 단순한 '시각적 요소'로만 간주하고, 이것이 생성 과정에서 '실행 가능한 명령'으로 해석될 수 있다는 점을 간과하고 있습니다.
위협: 공격자는 이러한 시각적 지시 추종 능력을 악용하여, 안전해 보이는 참조 이미지와 안전하지 않은 텍스트 프롬프트를 결합해 자코브킹 (Jailbreaking) 공격을 수행할 수 있습니다. 이는 사전 생성 단계의 안전 필터를 우회하고, 비디오 생성 과정에서만 유해한 콘텐츠가 동적으로 나타나는 새로운 공격 벡터입니다.

2. 방법론: 시각적 지시 주입 (VII)

저자들은 시각적 지시 주입 (Visual Instruction Injection, VII) 이라는 훈련이 필요 없으며 (training-free), 다양한 모델로 이전 가능한 (transferable) 자코브킹 프레임워크를 제안합니다. VII 는 유해한 텍스트의 악의적 의도를 안전해 보이는 시각적 지시사항으로 위장하여 I2V 모델에 주입하는 방식으로 작동합니다.

VII 는 크게 두 가지 핵심 모듈로 구성됩니다:

가. 악의적 의도 재프로그래밍 (Malicious Intent Reprogramming, MIR)

목적: 유해한 텍스트 프롬프트 ( $P_{mal}$ ) 에서 악의적 의도를 추출하되, 텍스트 기반 안전 필터를 우회할 수 있도록 정적 해악성을 최소화합니다.
과정:
1. 의도 증류 (Intent Distillation): LLM 에이전트를 사용하여 유해한 키워드를 중립적인 동의어 (예: "폭발" $\rightarrow$ "거대한 에너지 방출") 로 변환합니다.
2. 지시 재프로그래밍 (Instruction Reprogramming): 변환된 중립적 텍스트를 실행 가능한 타이포그래픽 설명 (Typographic Description) 으로 재구성합니다. 이때 시각적 기호 (바운딩 박스, 화살표) 를 명시적으로 참조하는 구조를 도입합니다 (예: "빨간 화살표를 따라 이동하는 거대한 에너지 방출").

나. 시각적 지시 그라운딩 (Visual Instruction Grounding, VIG)

목적: MIR 에서 추출된 의도를 안전한 참조 이미지 ( $I_{safe}$ ) 에 시각적으로 주입하여, 비디오 생성 시점에 악의적 콘텐츠가 동적으로 재현되도록 합니다.
과정:
1. 시각 기호 렌더링: 재프로그래밍된 설명에 기반하여, 대상 객체와 행동 방향을 지정하는 추상적인 기하학적 기호 (바운딩 박스, 화살표) 를 안전한 이미지에 렌더링합니다. 이 과정은 실제 유해한 객체를 생성하지 않도록 제한됩니다.
2. 타이포그래픽 주입: MIR 에서 생성된 텍스트 설명을 이미지 위에 텍스트로 인쇄 (Inpainting 또는 Border Padding) 합니다.
결과: 최종 생성된 이미지 ( $I_{via}$ ) 는 정적 상태에서는 안전해 보이지만, I2V 모델이 이를 처리할 때 내장된 시각적 지시사항을 해석하여 원래 유해한 프롬프트의 의도 (폭력, 성적 콘텐츠 등) 를 비디오 생성 과정에서 구현하게 됩니다.

3. 주요 기여 (Key Contributions)

VII 프레임워크 제안: I2V 모델의 시각적 지시 추종 능력을 악용하여, 훈련 없이도 안전 장치를 우회하는 새로운 자코브킹 공격 기법을 최초로 제안했습니다.
이중 모듈 구조 설계: 악의적 의도를 정적 해악성을 줄이면서 추출하는 MIR과, 이를 안전한 이미지에 시각적 지시사항으로 매핑하는 VIG 모듈을 통합하여 공격의 성공률과 은밀성을 극대화했습니다.
광범위한 실험 검증: 최신 상용 I2V 모델 4 종 (Kling-v2.5-turbo, Gemini Veo-3.1, Seedance-1.5-pro, PixVerse-V5) 에 대한 실험을 통해 제안된 방법의 효과성과 이전 가능성을 입증했습니다.

4. 실험 결과 (Results)

저자들은 COCO-I2VSafetyBench 와 ConceptRisk 데이터셋을 사용하여 4 가지 주요 안전 카테고리 (성적 콘텐츠, 폭력 및 위협, 혐오 및 극단주의, 불법 활동) 에 대해 평가를 수행했습니다.

공격 성공률 (ASR, Attack Success Rate):
- VII 는 모든 모델에서 기존 베이스라인 (유해 텍스트 직접 입력, 단순 타이포그래픽 공격) 을 압도적으로 능가했습니다.
- PixVerse-V5에서 83.5%, Kling-v2.5-turbo에서 81.5% 의 높은 ASR 을 기록했습니다.
- 특히 Veo-3.1 의 경우 성적 콘텐츠에 대한 기존 거부율 (Refusal Rate) 이 100% 였으나, VII 를 적용 시 이를 60% 로 낮추고 공격을 성공시켰습니다.
거부율 (RR, Refusal Rate):
- VII 는 사전 생성 단계의 안전 필터를 거의 우회하여 거부율을 0% 에 가깝게 낮췄습니다. 이는 입력 이미지가 정적 검사에서 안전하다고 판단되었음을 의미합니다.
의미론적 일관성 (Semantic Consistency):
- 생성된 비디오가 원래 악의적 의도와 얼마나 일치하는지를 측정하는 CLIP 기반 지표에서 VII 는 다른 방법들보다 훨씬 높은 점수를 받아, 단순히 필터만 우회한 것이 아니라 유해한 콘텐츠를 정확하게 재현했음을 보여줍니다.
강건성 분석:
- 언어: 영어, 중국어, 일본어 등 다양한 언어에서도 공격이 효과적이었습니다.
- 폰트 및 위치: 폰트 종류나 텍스트 배치 (테두리 vs 내부) 에 관계없이 높은 성공률을 보였습니다.

5. 의의 및 시사점 (Significance)

새로운 취약점 발견: 최신 상용 I2V 모델들이 강력한 시각적 지시 추종 능력을 갖추고 있다는 점이 오히려 치명적인 보안 취약점으로 작용할 수 있음을 밝혔습니다. 이는 모델의 기능이 발전할수록 보안 위협이 커질 수 있음을 시사합니다.
기존 방어 기법의 실패: 단순한 텍스트 프롬프트 차단이나 정적 이미지 검사는 이러한 동적 시각적 지시 공격을 막지 못합니다. 또한, "시각적 지시를 무시하라"는 시스템 프롬프트 (Prefix Defense) 도 모델이 시각적 입력을 텍스트 명령보다 우선시하는 '시각적 오버라이드 (Visual Override)' 현상 때문에 효과가 미미했습니다.
미래 방향: 본 연구는 I2V 생성 시스템의 안전성을 확보하기 위해, 단순한 입력 필터링을 넘어 시각적 지시사항의 악의적 의도를 감지할 수 있는 다중 모달 (Multi-modal) 방어 메커니즘의 개발이 시급함을 강조합니다.

요약하자면, 이 논문은 I2V 모델의 발전된 시각적 이해 능력이 악용될 경우, 정적 안전 장치를 우회하여 동적으로 유해한 비디오를 생성할 수 있음을 증명하고, 이에 대한 대응 방안의 필요성을 강력히 제기합니다.