SPARK: Jailbreaking T2V Models by Synergistically Prompting Auditory and Recontextualized Knowledge

Each language version is independently generated for its own context, not a direct translation.

🎬 핵심 비유: "안전한 재료로 만든 독극물"

상상해 보세요. 어떤 식당 (AI 모델) 이 있습니다. 이 식당은 "유해한 재료를 넣으면 절대 요리를 해줄 수 없다"는 엄격한 규칙 (안전 장치) 을 가지고 있습니다.

기존의 공격 방법: "독약"이나 "살인" 같은 나쁜 단어를 직접 입력해서 요리를 해달라고 시도하는 것입니다. 식당 주인이 "아, 위험한 단어네!" 하고 바로 거절합니다.
**이 논문이 발견한 새로운 방법 **(SPARK) 직접 나쁜 재료를 넣지 않습니다. 대신, **"비명 소리", "어두운 조명", "공포 영화 스타일"**처럼 그 자체로는 전혀 해롭지 않은 '안전한 재료'들을 섞어서 요리사를 속입니다.

요리사 (AI) 는 이 재료들을 보고 "아! 이 소리와 분위기는 무언가 끔찍한 일이 벌어지고 있다는 뜻이군!"이라고 추론합니다. 그리고 AI 가 가진 '세상 시뮬레이션 능력' 덕분에, 나쁜 단어를 입력하지 않았음에도 불구하고 **실제로는 끔찍한 장면 **(유해한 비디오)를 만들어냅니다.

🔍 SPARK 가 어떻게 작동할까요? (3 가지 마법 재료)

이 연구팀은 유해한 비디오를 만들기 위해 세 가지 '안전한' 요소를 조합하는 방식을 고안했습니다.

**안전한 배경 **(Semantic Anchor)
- 비유: "병원"이나 "극장" 같은 중립적인 장소.
- 역할: AI 가 "이건 그냥 평범한 이야기야"라고 생각하게 만들어 안전 장치를 통과시킵니다.
**소리 신호 **(Auditory Trigger)
- 비유: "비명 소리", "칼이 부딪히는 소리", "총성".
- 역할: AI 는 "소리가 들리면 그 소리를 내는 원인 (사건) 을 만들어야겠다"고 생각합니다. 예를 들어 '비명 소리'를 넣으면, AI 는 그 소리를 내는 '폭력적인 장면'을 스스로 추론해서 만들어냅니다.
**분위기 조절기 **(Stylistic Modulator)
- 비유: "알프레드 히치콕 스타일", "어두운 공포 영화 분위기".
- 역할: AI 의 상상력을 특정 방향으로 유도합니다. "공포 영화 스타일"이라고 하면 AI 는 자연스럽게 긴장감과 위험한 요소를 포함하게 됩니다.

이 세 가지를 섞으면, **입력된 글 **(프롬프트)입니다. 하지만 AI 가 영상을 만들어내는 순간, 그 안에 숨겨진 유해한 의도가 현실로 드러나는 것입니다.

📊 실험 결과: 얼마나 잘 통할까요?

연구팀은 최신 AI 모델 7 개 (상용 모델 포함) 에 이 방법을 테스트했습니다.

기존 방법들: 나쁜 단어를 숨기거나 다른 말로 바꾸는 방식이라, AI 의 안전 필터에 걸려 실패율이 높았습니다.
SPARK 방법: 안전 장치를 뚫고 유해한 영상을 만드는 데 성공한 비율이 평균 23% 이상이나 더 높았습니다.
- 특히 '성적 폭력'이나 '잔인한 폭력' 같은 민감한 주제에서도 기존 방법들은 거의 실패했지만, SPARK 는 90% 이상 성공하기도 했습니다.

🛡️ 왜 이것이 위험할까요? (현실적인 함의)

지금까지의 AI 안전 장치는 "나쁜 단어가 들어왔나?"를 확인하는 데 집중했습니다. 마치 문지기에게 "도둑이 들어오지 않았나?"만 물어보는 것과 같습니다.

하지만 SPARK 는 "문자 그대로는 깨끗하지만, 문지기가 생각하지 못한 방식으로 위험한 상황을 만들어내는" 방식입니다.

**문자 검사 **(LLM 방어) "이 글에는 나쁜 단어가 없으니 통과!"라고 판단합니다.
실제 결과: 하지만 AI 가 영상을 만들어내면, 그 안에는 분명히 폭력이나 불법 행위가 담겨 있습니다.

이는 AI 가 단순히 글자를 그림으로 바꾸는 게 아니라, **소리와 분위기, 시각적 요소 사이의 인과관계 **(예: 비명 소리 = 폭력)까지 학습하고 있다는 것을 의미합니다. 이 '학습된 연결고리'를 악용하면 어떤 안전 장치도 뚫릴 수 있다는 것이 이 연구의 결론입니다.

💡 결론

이 논문은 "AI 가 너무 똑똑해져서, 우리가 생각지 못한 방식으로 위험한 내용을 만들어낼 수 있다"는 경고를 줍니다.

핵심 메시지: "나쁜 말"을 하지 않아도, "나쁜 상황"을 암시하는 신호들 (소리, 분위기) 을 조합하면 AI 는 스스로 유해한 영상을 만들어냅니다.
해결책: 앞으로는 단순히 나쁜 단어를 막는 것을 넘어, AI 가 '소리와 상황'을 어떻게 연결하는지, 그리고 그 연결고리가 어떻게 악용될 수 있는지까지 고려한 새로운 안전 장치가 필요하다는 것입니다.

즉, SPARK는 AI 의 '상상력'과 '추론 능력'을 역이용하여, 안전 장치가 눈치채지 못하는 사이 유해한 콘텐츠를 생성해내는 새로운 방식의 공격 (및 방어 테스트) 방법론입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

텍스트 - 비디오 (T2V) 생성 모델은 단순한 모션 합성을 넘어 물리 법칙과 인과관계를 이해하는 '세계 시뮬레이터'로 발전하고 있습니다. 그러나 이러한 고도화된 능력은 새로운 안전 위험을 초래합니다.

기존 공격의 한계: 기존의 T2V 자일브레이크 (Jailbreak) 공격들은 주로 텍스트 입력 공간에서 적대적 프롬프트를 은폐하거나 (Obfuscation) 단어를 치환하는 방식에 의존했습니다. 이는 텍스트 기반 안전 필터 (Guardrails) 가 가장 성숙한 영역이기 때문에 쉽게 탐지되거나 비일관된 프롬프트를 생성하여 실패합니다.
핵심 취약점: T2V 모델은 시각적 결과와 청각적 단서, 스타일적 신호 사이에 학습된 강력한 교차 모달 (Cross-modal) 인과 관계를 내재하고 있습니다. 즉, 모델은 "비명 소리"나 "특정 분위기"와 같은 비시각적 단서를 통해 시각적 사건 (폭력 등) 을 추론하고 생성하는 능력을 가지고 있습니다. 기존 연구들은 이 멀티모달 생성 사전 지식 (Priors) 을 충분히 활용하지 못했습니다.

2. 방법론 (Methodology: SPARK)

저자들은 T2V 모델의 이러한 취약점을 악용하여 SPARK라는 새로운 프레임워크를 제안했습니다. 이는 텍스트 은폐가 아닌, 안전한 원시 요소 (Primitives) 의 시너지적 결합을 통해 해로운 의도를 재구성하는 방식입니다.

가. 교차 모달 잠재적 조종 (Cross-Modal Latent Steering)

SPARK 는 프롬프트를 세 가지 직교 (Orthogonal) 구성 요소로 분해하여 최적화 문제를 정의합니다.

의미적 앵커 (Semantic Anchor): 해로운 의도를 중립적이고 안전한 시나리오 맥락에 고정합니다 (예: "어두운 방", "수술실").
청각적 트리거 (Auditory Trigger): 금지된 행위의 물리적 결과를 나타내는 소리를 묘사합니다 (예: "금속 기구의 찰랑거리는 소리", "비명 소리"). 모델은 이 소리의 시각적 원인을 추론하도록 강요받습니다.
스타일적 변조기 (Stylistic Modulator): 특정 분위기나 영화적 스타일을 지시하여 생성 확률 분포를 위험한 영역으로 이동시킵니다 (예: "앨프리드 히치콕 스타일", "긴장감 있는 분위기").

이 세 요소가 결합되면, 개별적으로는 안전하지만 모델의 잠재 공간 (Latent Space) 에서 물리적 추론을 통해 금지된 시각적 콘텐츠가 생성됩니다.

나. 최적화 및 탐색 전략

제약 최적화 문제: 해로운 콘텐츠 생성 (Harmfulness) 을 최대화하되, 텍스트 안전성 (Stealth) 과 원래 의도 (Semantic Fidelity) 를 만족하는 조건 하에 프롬프트를 찾습니다.
지시 인식 제로 차수 탐색 (Guidance-Aware Zeroth-Order Search):
- 이중 오라클 (Dual-Oracle) 피드백: 텍스트 오라클 (LLM) 이 프롬프트의 안전성을 미리 필터링하고, 비주얼 오라클 (Video LLM) 이 생성된 비디오의 해로움과 의도 일치도를 평가합니다.
- 블록 단위 변이 (Block-wise Mutation): 전체 프롬프트를 무작위로 변경하는 대신, 앵커, 트리거, 변조기 중 하나의 블록만 수정하여 의미 붕괴를 방지하고 탐색 효율을 높입니다.
- 적응형 종료: 성공적인 자일브레이크가 발견되면 즉시 탐색을 중단하여 쿼리 비용을 절감합니다.

3. 주요 기여 (Key Contributions)

새로운 공격 표면 발견: T2V 모델에서 '교차 모달 잠재적 조종 (Cross-modal latent steering)'이라는 새로운 취약점을 규명했습니다. 이는 텍스트 필터를 우회하기 위해 소리, 스타일, 시각적 행동 간의 학습된 상관관계를 악용하는 방식입니다.
원칙적인 자일브레이크 프레임워크 제안: 모듈화된 적대적 문법 (Adversarial Grammar) 과 분리된 탐색 전략을 통해 해로운 의도를 재구성하는 체계적인 방법론을 제시했습니다.
광범위한 실험 및 검증: 7 개의 최신 T2V 모델 (상용 및 오픈소스 포함) 에 대한 실험을 통해 기존 방법론 대비 월등한 성능과 LLM 기반 방어에 대한 강건함을 입증했습니다.

4. 실험 결과 (Results)

성공률 (ASR) 향상: 7 개 모델에 대한 실험에서 SPARK 는 기존 베이스라인 (DACA, Ring-A-Bell, 직접 공격 등) 을 압도했습니다. 특히 상용 모델에서 평균 공격 성공률 (ASR) 이 23% 포인트 이상 향상되었습니다.
- 예시: Hailuo 모델에서 SPARK 의 평균 ASR 은 **60.0%**로, 기존 최상위 방법 (RAB: 28.0%, DACA: 31.0%) 보다 훨씬 높았습니다.
- 포르노그래피와 폭력 (Gore) 카테고리에서는 최대 **94.0%**의 성공률을 기록했습니다.
방어 우회 능력:
- 엄격한 키워드 필터링: 특정 금지 단어를 포함하는 프롬프트를 차단하는 필터 하에서도 SPARK 는 성능이 거의 떨어지지 않았습니다 (평균 6.7% 감소). 반면 기존 방법들은 20~40% 이상 급감했습니다.
- LLM 기반 방어: 입력 프롬프트를 분석하여 해로운 의도를 탐지하는 LLM 방어 시스템 앞에서도 SPARK 는 **30.0%**의 성공률을 유지한 반면, 다른 방법들은 6.0% 이하로 추락했습니다. 이는 SPARK 가 표면적으로는 안전해 보이지만 내부적으로 위험한 인과 관계를 형성하기 때문입니다.

5. 의의 및 결론 (Significance)

이 논문은 생성형 AI 의 안전성 연구에 중요한 시사점을 제공합니다.

안전 정렬의 한계: 현재 T2V 모델의 안전 정렬은 주로 텍스트 입력에 집중되어 있으며, 멀티모달 간의 암묵적 인과 관계 (소리 $\rightarrow$ 폭력 등) 를 통한 간접적 공격에는 취약함을 드러냈습니다.
방어 체계의 재고 필요: 단순한 키워드 필터링이나 텍스트 기반 LLM 검사는 이러한 '잠재적 재구성' 공격을 막기 어렵습니다. 따라서 미래의 방어 메커니즘은 텍스트뿐만 아니라 청각적, 스타일적 단서가 결합되었을 때 발생할 수 있는 위험한 시각적 결과까지 고려한 **멀티모달 안전성 (Multimodal Safety)**을 확보해야 함을 강조합니다.

요약하자면, SPARK 는 T2V 모델이 가진 '세계 시뮬레이션' 능력을 역이용하여, 개별적으로는 안전해 보이는 요소들을 조합해 모델 스스로 위험한 장면을 추론하게 만드는 정교한 공격 기법입니다.

SPARK: Jailbreaking T2V Models by Synergistically Prompting Auditory and Recontextualized Knowledge

🎬 핵심 비유: "안전한 재료로 만든 독극물"

🔍 SPARK 가 어떻게 작동할까요? (3 가지 마법 재료)

📊 실험 결과: 얼마나 잘 통할까요?

🛡️ 왜 이것이 위험할까요? (현실적인 함의)

💡 결론

1. 문제 정의 (Problem)

2. 방법론 (Methodology: SPARK)

가. 교차 모달 잠재적 조종 (Cross-Modal Latent Steering)

나. 최적화 및 탐색 전략

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities