Two Frames Matter: A Temporal Attack for Text-to-Video Model Jailbreaking

이 논문은 텍스트-비디오 생성 모델이 프롬프트의 중간 과정을 명시하지 않고 시작과 종료 프레임만 지정할 때 해로운 중간 프레임을 생성하는 시간적 취약점을 발견하고, 이를 활용한 새로운 재일브 공격 기법인 TFM 을 제안하여 기존 필터를 우회하는 효과를 입증했습니다.

Moyang Chen, Zonghao Ying, Wenzhuo Xu, Quancheng Zou, Deyue Zhang, Dongdong Yang, Xiangzheng Zhang

게시일 Tue, 10 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 핵심 비유: "영화 시나리오의 빈칸 채우기"

상상해 보세요. 여러분이 유명한 영화 감독 (AI) 에게 "무서운 좀비 영화 한 편 만들어줘"라고 요청한다고 칩시다.
하지만 감독은 "무서운 좀비"라는 단어는 금지되어 있어서, 이 말을 직접 쓰면 바로 거절당합니다.

기존의 해킹 방법들은 "좀비"라는 단어를 "귀여운 괴물"이나 "비밀스러운 친구"처럼 다른 말로 바꿔서 속이려 했습니다. 하지만 AI 는 여전히 "아, 이거 좀비 이야기구나"라고 눈치채고 막아버립니다.

이 논문 (TFM) 이 발견한 새로운 방법은 다릅니다.
감독에게 "시작 장면은 평화로운 공원이고, 마지막 장면은 좀비가 난무하는 도시야. 그 사이에 무슨 일이 일어났는지 구체적으로 말해주지 않을게. 네가 상상해서 채워줘." 라고 요청하는 것입니다.

여기서 AI 는 **"아, 시작과 끝이 저렇다면, 중간에 좀비가 등장해서 공원을 점령하는 과정이 자연스럽게 이어지겠구나"**라고 스스로 추론합니다. 그리고 AI 가 스스로 채워 넣은 그 '중간 과정'에 위험한 장면들이 만들어지는 것입니다.

🔍 이 연구가 발견한 3 가지 핵심 포인트

1. "빈칸 채우기"의 함정 (Temporal Trajectory Infilling)

  • 비유: 마치 "초반은 평화롭고, 후반은 전쟁터야"라고만 말하고 중간 과정을 생략한 소설을 작가에게 맡긴 것과 같습니다. 작가는 논리적으로 가장 그럴듯한 '중간 전개'를 스스로 만들어내는데, 그 과정에서 폭력이나 위험한 장면이 자연스럽게 등장할 수 있습니다.
  • 문제점: AI 는 입력된 글자 (프롬프트) 에 위험한 단어가 없어도, 시간의 흐름을 스스로 추론하는 과정에서 위험한 영상을 만들어냅니다. 기존 보안 시스템은 입력된 글자만 보고 "위험하지 않네"라고 판단해서 통과시켜버립니다.

2. 두 단계 공격법 (TFM)

이 연구팀은 이 약점을 이용해 **TFM(두 프레임이 중요함)**이라는 새로운 공격 방법을 개발했습니다.

  • 1 단계 (시간적 경계 설정): "시작 장면"과 "마지막 장면"만 남기고, 그 사이의 모든 구체적인 설명을 지워버립니다. (빈칸 만들기)
  • 2 단계 (은밀한 단어 교체): 시작과 끝 장면을 설명하는 글자 중에서도 AI 가 민감하게 반응할 만한 단어를 더 모호하고 우회적인 표현으로 바꿉니다. (예: "폭력" → "격렬한 몸싸움" → "치열한 대결")

3. 실제 효과

이 방법을 다양한 상용 AI (Kling, Hailuo, Pixverse 등) 에 적용해 봤더니, 기존 방법들보다 최대 12% 더 많은 성공률을 보였습니다. 특히 "포르노", "폭력", "정치적 민감성" 같은 강력한 보안이 걸린 분야에서도 AI 를 속여 위험한 영상을 만들어냈습니다.

🛡️ 왜 이것이 중요한가요? (우리가 배울 점)

지금까지의 AI 보안은 **"입력된 글자에 나쁜 단어가 있나?"**를 확인하는 데 집중했습니다. 하지만 이 연구는 **"AI 가 그 글자를 보고 스스로 상상해서 만들어낸 결과물"**도 위험할 수 있음을 보여줍니다.

  • 기존 보안: "이 글자에 '폭탄'이라는 단어가 없으니 안전해."
  • 새로운 위협: "글자엔 '폭탄'이 없어도, AI 가 '시작은 평화로웠고 끝은 폭발이었어'라고 말하면, AI 가 스스로 중간에 폭탄이 터지는 장면을 상상해 만들어낼 수 있어."

💡 결론

이 논문은 **"AI 가 시간을 상상하며 이야기를 이어갈 때, 그 빈칸을 어떻게 채우느냐가 핵심"**임을 경고합니다.

앞으로 AI 를 안전하게 만들기 위해서는, 단순히 나쁜 단어를 막는 것을 넘어, **"AI 가 스스로 만들어내는 이야기의 흐름 (시간적 연속성) 전체를 감시하는 새로운 보안 시스템"**이 필요하다는 것을 시사합니다. 마치 영화 시나리오를 검토할 때, 시작과 끝뿐만 아니라 그 사이의 모든 장면이 안전한지 꼼꼼히 확인해야 하는 것과 같습니다.