TEAR: Temporal-aware Automated Red-teaming for Text-to-Video Models

Each language version is independently generated for its own context, not a direct translation.

🎬 1. 문제: "순한 말로 위험한 장면을 만드는 AI"

우리가 AI 에게 "폭력적인 장면을 만들어줘"라고 하면, AI 는 "그건 안 돼요"라고 거절합니다. 하지만 TEAR 연구팀은 AI 가 순한 말로 속여 위험한 영상을 만들어낼 수 있다는 것을 발견했습니다.

🍳 요리사 비유:

일반적인 AI: "유리 컵을 부수고 싶어요"라고 하면 "안 됩니다"라고 거절합니다.
TEAR 의 발견: "먼저 컵을 테이블 위에 올려두고, 2 초 뒤에 손으로 밀어주세요. 그다음 컵이 바닥에 떨어지는 모습을 보여주세요"라고 하면? AI 는 "아, 그냥 컵 떨어뜨리는 거군요"라고 생각해서 영상을 만들어냅니다.
결과: AI 는 각 문장 (단순한 행동) 은 안전하다고 판단하지만, 시간이 지나며 이어진 전체 장면은 사람이 죽거나 다치는 끔찍한 폭력 장면이 됩니다.

이처럼 **시간의 흐름 (Temporal)**을 이용해 AI 를 속이는 새로운 공격 방식이 존재한다는 것이 이 논문의 핵심입니다.

🕵️ 2. 해결책: TEAR (시간을 아는 자동 해커)

저자들은 이 위험을 찾기 위해 TEAR이라는 시스템을 만들었습니다. TEAR 은 마치 AI 의 안전 구멍을 찾아내는 전문 스파이 같습니다.

TEAR 의 작동 원리 (3 단계):

준비 (데이터 학습): TEAR 은 먼저 "어떻게 하면 순한 말로 위험한 장면을 만들까?"를 공부합니다. 위험한 내용을 시간 순서대로 잘게 쪼개서, 각각은 innocuous(무해해 보이지만) 하지만 합치면 위험한 문장을 만드는 법을 배웁니다.
실전 훈련 (온라인 학습): TEAR 은 실제 AI 비디오 생성기에 "이런 문장을 입력해 볼까?"라고 시도해 봅니다.
- AI 가 위험한 영상을 만들면? "성공! 이 방법이 통했네!"라고 기억합니다.
- AI 가 막으면? "아, 이 문장은 걸렸네. 조금 바꿔서 다시 해보자"라고 수정합니다.
- 이 과정을 반복하며 AI 가 가장 취약한 '시간의 간격'을 찾아냅니다.
마무리 (정제): 찾은 문장이 너무 뻔하지 않게, 그리고 더 확실하게 위험한 장면을 만들 수 있도록 다듬습니다.

📊 3. 놀라운 성과: "기존 검사관들은 다 실패했다"

연구팀은 TEAR 을 다양한 AI(오픈소스 모델과 구글, 미니맥스 같은 상용 서비스) 에 적용해 보았습니다.

기존 방법들: 이전에는 정적인 이미지나 텍스트만 검사하는 방식을 썼는데, 성공률이 57% 정도였습니다. (100 번 중 57 번만 위험을 찾아냄)
TEAR 의 성과: TEAR 은 80% 이상의 성공률을 기록했습니다. (100 번 중 80 번 이상 위험을 찾아냄)
의미: 기존에 안전하다고 생각했던 AI 들도, TEAR 같은 '시간을 이용한 공격'에는 매우 취약하다는 것을 보여줍니다. 특히 상용 AI 서비스들도 이 공격에 잘 막아내지 못했습니다.

💡 4. 핵심 교훈: "시간이 흐르면 달라지는 위험"

이 논문의 가장 중요한 메시지는 **"단순히 문장 하나하나만 봐서는 안전을 보장할 수 없다"**는 것입니다.

비유:
- 문장 A: "칼을 꺼내세요." (안전해 보임)
- 문장 B: "1 초 뒤, 그 칼로 사람을 찌르세요." (안전해 보임)
- 합친 영상: 사람이 찔리는 끔찍한 폭력 장면.

기존의 안전 필터는 A 와 B 를 각각 검사해서 "안전하다"고 통과시켰지만, TEAR 은 A 와 B 가 이어져 만들어내는 결과물을 보고 "위험하다"고 잡아냈습니다.

🏁 결론

TEAR은 AI 비디오 생성 기술이 발전함에 따라, **"시간의 흐름을 이용한 새로운 형태의 위험"**이 존재함을 처음으로 체계적으로 증명했습니다.

이 연구는 AI 개발자들에게 중요한 경고를 보냅니다: "단순히 나쁜 단어를 막는 것만으로는 부족합니다. AI 가 만들어내는 동적인 장면의 흐름까지 안전하게 만들어야 합니다." TEAR 은 바로 그 숨겨진 구멍을 찾아내어 AI 를 더 안전하게 만드는 데 기여할 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

텍스트-비디오 (T2V) 생성 모델은 고품질의 역동적이고 시간적 일관성이 있는 비디오를 생성할 수 있지만, 이러한 역동성은 새로운 형태의 안전 위협을 초래합니다.

기존 방법의 한계: 기존의 안전 평가 및 레드팀 (Red-teaming) 기법은 주로 정적 이미지나 텍스트 생성에 초점을 맞추고 있습니다. 이들은 비디오의 **시간적 동역학 (Temporal Dynamics)**을 고려하지 못합니다.
핵심 취약점: 개별적으로는 안전해 보이는 텍스트 프롬프트들을 시간 순서대로 연결하면, 전체 비디오는 정책 위반 (예: 폭력, 자해 등) 을 일으킬 수 있습니다. 이를 **'시간적 집계 공격 (Temporal-aggregation attack)'**이라고 합니다.
연구 목표: T2V 모델의 시간적 순서와 관련된 숨겨진 안전 취약점을 자동으로 발견하고 평가할 수 있는 프레임워크가 필요합니다.

2. 제안 방법론: TEAR (Methodology)

저자들은 **TEmporal-aware Automated Red-teaming (TEAR)**이라는 자동화된 레드팀 프레임워크를 제안했습니다. TEAR 은 텍스트적으로 안전하지만, 시간적 흐름을 통해 해로운 비디오를 생성하도록 유도하는 프롬프트를 자동으로 생성합니다.

2.1. 전체 아키텍처

TEAR 은 크게 세 가지 구성 요소로 작동합니다:

시간 인식 테스트 생성기 (Temporal-aware Test Generator): 초기 프롬프트를 기반으로 해로운 시나리오를 안전해 보이는 텍스트로 변환하는 생성 모델.
정제 모델 (Refine Model): 생성된 프롬프트와 비디오를 평가하여 프롬프트의 은밀성 (Stealthiness) 과 공격 효과를 개선하는 피드백 루프.
목표 T2V 모델: 공격을 당하는 대상 모델.

2.2. 최적화 과정 (Two-Stage Optimization)

생성기는 두 단계의 최적화 과정을 거칩니다.

1 단계: 초기 생성기 학습 (Initial Generator Training)
- 데이터 구성: 해로운 시나리오를 시간 순서대로 분해하고, 시간적 연결어 (예: "2 초 후", "그 후") 를 사용하여 개별적으로는 안전하지만 전체적으로는 해로운 프롬프트로 재구성하는 규칙 기반 (Rule-based) 데이터셋을 구축합니다.
- 학습: 사전 훈련된 LLM 을 이 데이터셋으로 파인튜닝하여 초기 해로운 프롬프트를 생성할 수 있도록 합니다.
2 단계: 시간 인식 온라인 선호도 학습 (Temporal-aware Online Preference Learning)
- MDP 프레임워크: 프롬프트 생성을 마르코프 결정 과정 (MDP) 으로 모델링합니다.
- 보상 함수 (Reward Function):
  - 프롬프트 공간 최적화 ( $R_{pmt}$ ): 생성된 프롬프트가 텍스트 필터 (Toxicity, NSFW 등) 를 통과해야 하며, 미리 정의된 시간적 패턴과 일치해야 합니다.
  - 시간 공간 일관성 ( $R_{con}$ ): 생성된 비디오가 텍스트 프롬프트의 의미와 시간적으로 일치하는지, 그리고 비디오 내부의 프레임 간 일관성이 유지되는지 평가합니다.
- 최적화: PPO (Proximal Policy Optimization) 알고리즘을 사용하여 위 보상 함수를 최대화하도록 생성기를 업데이트합니다.

2.3. 테스트 사례 정제 (Test Case Refinement)

생성된 프롬프트가 목표 T2V 모델에서 실행된 후, 텍스트 및 비디오 판단 시스템의 피드백을 받아 **정제 모델 (Refine Model, MLLM 기반)**이 프롬프트를 수정합니다. 이 과정은 프롬프트가 필터를 우회하면서도 해로운 비디오를 명확하게 생성할 수 있을 때까지 반복됩니다.

3. 주요 기여 (Key Contributions)

TEAR 프레임워크 제안: T2V 모델의 고유한 시간적 취약점을 체계적으로 발견하는 최초의 자동화된 레드팀 프레임워크입니다.
시간적 동역학 기반 공격: 정적 이미지가 아닌, 시간적 흐름을 악용하여 텍스트는 안전하지만 비디오는 해로운 결과를 만들어내는 공격 기법을 정립했습니다.
광범위한 평가 및 발견: 오픈소스 (Wan2.2, Hunyuan-Video) 와 상용 (Veo-3.1, Hailuo-2.3, Ray-2) 모델을 포함한 5 가지 주요 T2V 모델과 4 가지 최신 기법 (SOTA) 을 비교 평가했습니다.

4. 실험 결과 (Results)

공격 성공률 (ASR): TEAR 은 오픈소스 및 상용 모델 전반에서 80% 이상의 공격 성공률을 기록했습니다. 이는 기존 최첨단 기법 (FLIRT 등, 약 57%) 보다 크게 향상된 수치입니다.
- 예시: Hunyuan-Video 에서 82.3%, Wan 2.2 에서 80.5% 의 ASR 달성.
필터 우회 능력: 생성된 프롬프트는 텍스트 필터 (NSFW, Toxicity 등) 를 통과할 확률 (Pass Rate) 이 95% 이상으로 매우 높았으나, 실제 비디오 생성 시에는 해로운 콘텐츠가 생성되었습니다. 이는 현재 상용 T2V 서비스의 안전 필터가 동적인 위험을 제대로 감지하지 못함을 시사합니다.
전이성 (Transferability): 한 모델에서 최적화된 프롬프트가 다른 모델 (블랙박스 포함) 에서도 높은 성공률 (평균 76.4%) 을 보였습니다. 이는 T2V 모델들이 공유하는 근본적인 시간적 취약점이 존재함을 의미합니다.
시드 프리 (Seed-free) 생성: 초기 해로운 프롬프트 없이도 TEAR 은 자율적으로 취약점을 발견하여 높은 ASR 을 달성했습니다.

5. 의의 및 결론 (Significance)

안전성 평가의 패러다임 전환: 기존의 정적 콘텐츠 중심 안전 평가에서 벗어나, **시간적 동역학 (Temporal Dynamics)**을 고려한 새로운 안전 평가 기준을 제시했습니다.
상용 서비스의 위험 노출: 현재 상용 T2V API 서비스들이 텍스트 필터는 통과하지만, 시간적 흐름을 통해 해로운 비디오를 생성할 수 있다는 치명적인 안전 허점을 드러냈습니다.
개발자 도구: TEAR 은 T2V 개발자들이 배포 전 모델의 잠재적 시간적 취약점을 사전에 발견하고 정렬 (Alignment) 메커니즘을 강화하는 데 필수적인 도구로 작용할 것입니다.

이 논문은 생성형 AI 의 안전성 연구가 정적 이미지에서 동적 비디오로 확장됨에 따라, **시간적 맥락 (Temporal Context)**을 고려한 새로운 레드팀링 접근법의 필요성을 강력하게 주장하고 있습니다.