Two Frames Matter: A Temporal Attack for Text-to-Video Model Jailbreaking

Each language version is independently generated for its own context, not a direct translation.

🎬 핵심 비유: "영화 시나리오의 빈칸 채우기"

상상해 보세요. 여러분이 유명한 영화 감독 (AI) 에게 "무서운 좀비 영화 한 편 만들어줘"라고 요청한다고 칩시다.
하지만 감독은 "무서운 좀비"라는 단어는 금지되어 있어서, 이 말을 직접 쓰면 바로 거절당합니다.

기존의 해킹 방법들은 "좀비"라는 단어를 "귀여운 괴물"이나 "비밀스러운 친구"처럼 다른 말로 바꿔서 속이려 했습니다. 하지만 AI 는 여전히 "아, 이거 좀비 이야기구나"라고 눈치채고 막아버립니다.

이 논문 (TFM) 이 발견한 새로운 방법은 다릅니다.
감독에게 "시작 장면은 평화로운 공원이고, 마지막 장면은 좀비가 난무하는 도시야. 그 사이에 무슨 일이 일어났는지 구체적으로 말해주지 않을게. 네가 상상해서 채워줘." 라고 요청하는 것입니다.

여기서 AI 는 **"아, 시작과 끝이 저렇다면, 중간에 좀비가 등장해서 공원을 점령하는 과정이 자연스럽게 이어지겠구나"**라고 스스로 추론합니다. 그리고 AI 가 스스로 채워 넣은 그 '중간 과정'에 위험한 장면들이 만들어지는 것입니다.

🔍 이 연구가 발견한 3 가지 핵심 포인트

1. "빈칸 채우기"의 함정 (Temporal Trajectory Infilling)

비유: 마치 "초반은 평화롭고, 후반은 전쟁터야"라고만 말하고 중간 과정을 생략한 소설을 작가에게 맡긴 것과 같습니다. 작가는 논리적으로 가장 그럴듯한 '중간 전개'를 스스로 만들어내는데, 그 과정에서 폭력이나 위험한 장면이 자연스럽게 등장할 수 있습니다.
문제점: AI 는 입력된 글자 (프롬프트) 에 위험한 단어가 없어도, 시간의 흐름을 스스로 추론하는 과정에서 위험한 영상을 만들어냅니다. 기존 보안 시스템은 입력된 글자만 보고 "위험하지 않네"라고 판단해서 통과시켜버립니다.

2. 두 단계 공격법 (TFM)

이 연구팀은 이 약점을 이용해 **TFM(두 프레임이 중요함)**이라는 새로운 공격 방법을 개발했습니다.

1 단계 (시간적 경계 설정): "시작 장면"과 "마지막 장면"만 남기고, 그 사이의 모든 구체적인 설명을 지워버립니다. (빈칸 만들기)
2 단계 (은밀한 단어 교체): 시작과 끝 장면을 설명하는 글자 중에서도 AI 가 민감하게 반응할 만한 단어를 더 모호하고 우회적인 표현으로 바꿉니다. (예: "폭력" → "격렬한 몸싸움" → "치열한 대결")

3. 실제 효과

이 방법을 다양한 상용 AI (Kling, Hailuo, Pixverse 등) 에 적용해 봤더니, 기존 방법들보다 최대 12% 더 많은 성공률을 보였습니다. 특히 "포르노", "폭력", "정치적 민감성" 같은 강력한 보안이 걸린 분야에서도 AI 를 속여 위험한 영상을 만들어냈습니다.

🛡️ 왜 이것이 중요한가요? (우리가 배울 점)

지금까지의 AI 보안은 **"입력된 글자에 나쁜 단어가 있나?"**를 확인하는 데 집중했습니다. 하지만 이 연구는 **"AI 가 그 글자를 보고 스스로 상상해서 만들어낸 결과물"**도 위험할 수 있음을 보여줍니다.

기존 보안: "이 글자에 '폭탄'이라는 단어가 없으니 안전해."
새로운 위협: "글자엔 '폭탄'이 없어도, AI 가 '시작은 평화로웠고 끝은 폭발이었어'라고 말하면, AI 가 스스로 중간에 폭탄이 터지는 장면을 상상해 만들어낼 수 있어."

💡 결론

이 논문은 **"AI 가 시간을 상상하며 이야기를 이어갈 때, 그 빈칸을 어떻게 채우느냐가 핵심"**임을 경고합니다.

앞으로 AI 를 안전하게 만들기 위해서는, 단순히 나쁜 단어를 막는 것을 넘어, **"AI 가 스스로 만들어내는 이야기의 흐름 (시간적 연속성) 전체를 감시하는 새로운 보안 시스템"**이 필요하다는 것을 시사합니다. 마치 영화 시나리오를 검토할 때, 시작과 끝뿐만 아니라 그 사이의 모든 장면이 안전한지 꼼꼼히 확인해야 하는 것과 같습니다.

Each language version is independently generated for its own context, not a direct translation.

논문 개요

이 논문은 최근 발전한 텍스트 - 비디오 (Text-to-Video, T2V) 생성 모델의 안전성 (Safety Alignment) 에 존재하는 새로운 취약점을 규명하고, 이를 이용한 새로운 형태의 자일브레이킹 (Jailbreaking) 공격 기법인 TFM(Two Frames Matter) 을 제안합니다. 기존 공격 방식이 입력 텍스트의 민감한 단어를 우회하는 데 집중했다면, 본 연구는 모델이 시간적 궤적 (Temporal Trajectory) 을 스스로 채워 넣는 (Infilling) 과정을 악용하여, 입력 프롬프트는 안전해 보이지만 생성된 비디오 중간에 유해한 콘텐츠가 포함되도록 유도합니다.

1. 문제 정의 (Problem)

기존 한계: 기존 T2V 자일브레이킹 공격들은 주로 유해한 프롬프트를 의미는 유지하되 필터를 우회할 수 있는 다른 표현 (Paraphrase) 으로 변환하는 방식에 의존했습니다. 그러나 이러한 방법들은 여전히 입력 텍스트에 명시적인 민감한 단어를 포함하거나, 모델이 학습한 암묵적인 세계 지식을 충분히 활용하지 못했습니다.
새로운 취약점 발견: T2V 모델은 시작과 끝 프레임 (Boundary Conditions) 만이 지정된 분산된 프롬프트 (Fragmented Prompts) 를 입력받았을 때, 중간 시간대의 발전 과정을 모델 스스로 추론하여 채워 넣는 경향이 있습니다.
- 입력 프롬프트는 시작과 끝만 benign(안전) 하게 묘사하지만, 모델은 학습된 시간적 우선순위 (Temporal Priors) 를 바탕으로 중간 프레임을 생성합니다.
- 이 과정에서 모델이 유해한 중간 시나리오를 추론하여 생성하면, 입력/출력 필터를 모두 통과하면서도 유해한 비디오가 생성될 수 있습니다.

2. 방법론 (Methodology: TFM)

제안된 TFM(Two Frames Matter) 은 두 단계로 구성된 프롬프트 재작성 파이프라인입니다.

단계 1: 시간적 경계 프롬프팅 (Temporal Boundary Prompting, TBP)

원리: 원본 유해 프롬프트에서 중간 장면 (Intermediate frames) 에 대한 설명을 모두 제거하고, 오직 시작 프레임 (Start) 과 종료 프레임 (End) 만 남깁니다.
효과: 모델에게 중간 시간대의 구체적인 지시를 주지 않음으로써, 모델이 학습한 시간적 인과관계를 바탕으로 중간 내용을 '자율적으로 채우게' 만듭니다. 이때 유해한 발전 방향이 암묵적으로 내포되어 있다면, 모델은 이를 추론하여 유해한 중간 프레임을 생성합니다.

단계 2: 은밀한 대체 메커니즘 (Covert Substitution Mechanism, CSM)

원리: TBP 로 추출된 시작/종료 프레임 설명에 여전히 남아있는 민감한 키워드를, 의미는 유지하되 표면적 명시성 (Explicitness) 을 낮춘 은유적 표현으로 대체합니다.
작동 방식: LLM 을 활용하여 민감한 단어의 '명시성 점수 (Explicitness Score)'를 평가하고, 필터를 우회할 수 있을 만큼 모호하지만 의도는 유지되는 대체어를 선택합니다.
효과: 입력 필터 (Pre-filter) 가 민감한 단어를 탐지하는 것을 방지하여, TBP 가 유도한 시간적 취약점 공격이 성공할 수 있는 기반을 마련합니다.

통합 파이프라인

원본 프롬프트 $X$ $\rightarrow$ TBP 적용 $\rightarrow$ 경계만 남은 프롬프트 $X_B$ (중간 제거)
$X_B$ $\rightarrow$ CSM 적용 $\rightarrow$ 최종 공격 프롬프트 $X_C$ (민감어 은밀화)
$X_C$ 를 T2V 모델에 입력하여 유해한 비디오 생성 유도.

3. 주요 기여 (Key Contributions)

새로운 취약점 규명: T2V 시스템의 시간적 궤적 채움 (Temporal Trajectory Infilling) 취약점을 최초로 발견했습니다. 프롬프트가 유해한 중간 단계를 명시하지 않아도, 모델이 스스로 유해한 시나리오를 완성할 수 있음을 증명했습니다.
TFM 프레임워크 제안: 분산된 프롬프팅을 체계적으로 활용하여 T2V 모델의 안전성을 우회하는 새로운 공격 프레임워크를 제안했습니다. 이는 블랙박스 환경에서도 효과적으로 작동합니다.
광범위한 실험 및 검증: 오픈소스 및 상용 T2V 모델 (Pixverse, Hailuo, Kling, Seedance 등) 을 대상으로 한 광범위한 평가를 통해, 기존 기법 (VEIL, RAB, DACA 등) 대비 일관되게 높은 공격 성공률 (ASR) 을 입증했습니다.

4. 실험 결과 (Results)

공격 성공률 (ASR) 향상:
- 상용 모델 4 개 (Pixverse, Hailuo, Kling, Seedance) 에서 TFM 은 평균 ASR 을 52.0% ~ 60.0% 수준으로 끌어올렸습니다.
- 가장 강력한 기존 베이스라인 (VEIL) 대비 최대 12% 의 절대적 ASR 향상을 기록했습니다 (예: Hailuo 에서 VEIL 48.0% 대비 TFM 60.0%).
- 특히 포르노그래피, 폭력, 고어 (Gore) 등 명시적 단어가 강력한 트리거가 되는 카테고리에서 효과가 극대화되었습니다.
Ablation Study (성분 분석):
- TBP 제거 시: 시간적 추론이 필요한 카테고리 (연속된 행동 등) 에서 공격 성공률이 급격히 하락하여, TBP 가 시간적 취약점 악용의 핵심임을 확인했습니다.
- CSM 제거 시: 키워드 기반 필터링을 우회해야 하는 카테고리 (포르노, 폭력 등) 에서 성능이 크게 저하되어, CSM 이 필터 우회에 필수적임을 확인했습니다.
- 순서 분석: TBP 를 먼저 수행하고 CSM 을 적용하는 순서가 역순보다 항상 더 높은 성능을 보였습니다. 이는 먼저 시간적 구조 (Scaffold) 를 만든 후 단어 은밀화를 수행해야 시간적 일관성을 해치지 않기 때문입니다.

5. 의의 및 시사점 (Significance)

안전 메커니즘의 패러다임 전환 필요: 기존의 안전 필터는 주로 입력 텍스트의 표면적 형태나 생성된 비디오의 개별 프레임을 검사하는 데 의존합니다. 그러나 TFM 은 모델이 스스로 생성하는 '시간적 완결성 (Model-driven Completion)' 을 공격점으로 삼으므로, 단순한 키워드 필터링으로는 방어하기 어렵습니다.
새로운 방어 방향 제시: 연구자들은 T2V 모델의 안전성을 강화하기 위해 시간적 인지 (Temporally Aware) 안전 메커니즘이 필요하다고 강조합니다. 이는 프롬프트의 표면뿐만 아니라, 모델이 생성하는 시간적 궤적 전체를 모니터링하고, 모델이 빈 공간을 채울 때 발생할 수 있는 유해한 추론을 제어할 수 있어야 함을 의미합니다.
실제적 위험성: 상용 모델에서도 높은 성공률을 보인 것은, 실제 서비스 환경에서도 악의적인 사용자가 T2V 모델을 통해 유해 콘텐츠를 생성할 수 있는 실질적인 위험이 존재함을 시사합니다.

결론

이 논문은 텍스트 - 비디오 생성 모델이 "빈 공간 (중간 시간대) 을 채우는" 능력을 악용하여, 입력 프롬프트는 안전해 보이지만 결과물은 유해한 비디오를 생성하게 만드는 새로운 형태의 자일브레이킹 공격을 제시했습니다. 이는 생성형 AI 의 안전성 연구가 단순한 텍스트 필터링을 넘어, 시간적 맥락과 모델의 생성적 추론 과정까지 포괄적으로 고려해야 함을 강력하게 시사합니다.