Two Frames Matter: A Temporal Attack for Text-to-Video Model Jailbreaking

Each language version is independently generated for its own context, not a direct translation.

この論文は、最新の「テキストから動画を生成する AI（Text-to-Video）」が、実は**「動画の途中の部分を勝手に想像して作ってしまう」という意外な弱点**を持っていることを突き止め、それを突く新しい攻撃方法を紹介したものです。

難しい専門用語を使わず、日常の例え話を使って解説しますね。

🎬 物語の要約：「始まりと終わり」だけを頼りに、AI が勝手に危険なドラマを作ってしまう

1. 従来の攻撃方法（古いやり方）

これまでの「ジャイルブレイク（セキュリティ突破）」攻撃は、**「禁止された言葉を別の言い回しに書き換える」**というものでした。
例えば、「人を殴る動画を作って」という禁止された命令を、「スポーツの練習で激しくぶつかる動画を作って」と言い換えるような感じです。
でも、AI のフィルターは「あ、これは暴力に関連する話だな」と察知してブロックしてしまうことが多く、あまり効きませんでした。

2. この論文が見つけた「新しい弱点」

この研究チームは、**「動画の『始まり』と『終わり』だけ伝えて、『途中』を言わない」**という方法に注目しました。

例え話：映画監督への注文
Imagine してください。あなたが映画監督（AI）に、**「最初のシーン：静かな公園。最後のシーン：血まみれの戦場」**とだけ指示しました。
「どうやってその間、公園から戦場へ移動するのか？」は指示していません。

普通の人間なら「えっ、どうやって？」と聞きますが、AI は「お任せください！」と自信満々に、その間の「過激な戦闘シーン」を勝手に想像して埋めてしまいます。

これが論文で言う**「時間的な軌道の埋め込み（Temporal Trajectory Infilling）」という弱点です。
AI は「始まり」と「終わり」が繋がっているためには、その間に「必然的な（しかし危険な）展開」**が必要だと学習しているため、指示されていなくても勝手に危険な中間フレームを生成してしまうのです。

3. 提案された攻撃法「TFM（Two Frames Matter）」

この弱点を突くために、2 段階の作戦（TFM）を提案しています。

ステップ 1：時間的な境界線だけにする（TBP）
動画全体を説明する長い文章から、「最初のフレーム」と「最後のフレーム」の説明だけを残し、中間の描写をすべて消去します。
「途中は AI にお任せ」という状態にします。
ステップ 2：隠れた言い換え（CSM）
残った「始まり」と「終わり」の説明の中に、もし「血」や「武器」といった敏感な言葉があれば、**「赤い液体」や「金属の棒」**のように、意味は通じるけどフィルターに引っかかりにくい言葉に置き換えます。

結果：
AI は「赤い液体」から「金属の棒」へ変化する過程を、**「暴力的な戦闘シーン」**として勝手に想像して動画を作ってしまうのです。
フィルターは「赤い液体」や「金属の棒」という言葉自体は安全だと判断して通してしまいますが、AI が生成した動画の中身は完全に危険な内容になっている、というトリックです。

📊 実験結果：どれくらい効いた？

この方法を実際の商用 AI（Kling, Hailuo, Pixverse などの有名サービス）で試したところ、従来の攻撃方法よりも成功率が最大で 12% 向上しました。
特に、暴力やポルノ、政治的な敏感な話題など、通常は厳しくチェックされる分野でも、この「途中を言わない」作戦が非常に効果的でした。

💡 私たちが学ぶべき教訓

この研究が教えてくれるのは、**「AI のセキュリティは、入力された『言葉』だけをチェックすればいいわけではない」**ということです。

従来の考え方： 「悪い言葉が含まれていないか？」をチェックする。
新しい課題： 「言葉は安全でも、AI がその言葉から**『勝手に想像して作り出す物語』**が危険ではないか？」をチェックする必要がある。

まるで、**「危険な道具は持っていないか？」と手荷物検査をするだけでは不十分で、「その人がその道具を使って、どんな危険なことを想像して実行しようとしているか？」**まで予測する必要がある、という話に似ています。

🛡️ 今後の対策

この論文は、AI の安全対策（ガードレール）に対して、**「時間的な流れ（ストーリーの展開）まで含めて監視する仕組み」**が必要だと警鐘を鳴らしています。
単に「最初の言葉」と「最後の言葉」だけを見て「OK」とするのではなく、AI がその間をどう埋めるかまで含めて安全かどうかを判断する新しい防御システムが求められています。

まとめ：
この論文は、「AI に『始まり』と『終わり』だけ教えて、中間を任せる」という手口で、AI に勝手に危険な動画を作らせてしまうという新しい攻撃法を発見し、その対策の重要性を訴えたものです。AI は「言葉」だけでなく「物語の展開」まで学習しているため、従来のチェックだけでは防ぎきれないことが分かりました。

Each language version is independently generated for its own context, not a direct translation.

1. 問題定義 (Problem)

近年の T2V モデル（Kling, Veo2, Luma Ray2 など）は、自然言語プロンプトから高品質な動画を生成できますが、安全性の調整（Safety Alignment）が課題となっています。
既存のジャイルブレイク攻撃は、主に「有害なプロンプトを意味を保ったまま言い換え（パラフレーズ）、コンテンツフィルタを回避する」手法に依存しています。しかし、これらの手法は依然として入力テキストに明示的な敏感な単語を含んでおり、フィルタリングに検知されるリスクがあります。

本研究が指摘する新たな脆弱性：
T2V モデルは、入力プロンプトが「始点（最初のフレーム）」と「終点（最後のフレーム）」のみを指定し、中間の時間的進化（中間フレーム）を未定義（スパース）にした場合、学習済みの時間的知識（Temporal Priors）に基づいて、自律的に中間のシーンを補完（Infilling）する傾向があります。
この際、入力テキスト自体は安全に見えても、モデルが生成する「補完された中間フレーム」に有害な内容が含まれる可能性があります。これは、入力・出力側のフィルタリングでは検知しにくい、動画生成特有の「時間的軌道の補完」に関する脆弱性です。

2. 提案手法：TFM (Two Frames Matter)

この脆弱性を突くために、著者はTFMという 2 段階のプロンプト改変フレームワークを提案しました。

段階 1: 時間的境界プロンプティング (Temporal Boundary Prompting, TBP)

概要: 元の有害なプロンプトから、中間のシーンの記述をすべて削除し、「最初のフレーム」と「最後のフレーム」の記述のみを残します。
効果: 時間的な連続性を意図的に欠落させ、モデルに「始点と終点の間の空白を埋める」よう強制します。これにより、モデルが学習した潜在的な知識（有害な進化経路を含む可能性）を活性化させます。

段階 2: 隠蔽置換メカニズム (Covert Substitution Mechanism, CSM)

概要: TBP で抽出された境界フレームの記述に含まれる、フィルタに引っかかる可能性のある「敏感な単語」を、意味は保ちつつもより曖昧で検知されにくい表現に書き換えます（LLM を利用）。
効果: 入力テキストの表面的な「明示性（Explicitness）」を下げ、事前フィルタ（Pre-filter）を回避する確率を高めます。

全体フロー:

有害なプロンプト $X$ を入力。
TBP により、中間フレームを削除し境界のみ $X_B$ に変換。
CSM により、 $X_B$ 内の敏感語を置換し、最終的な攻撃プロンプト $X_C$ を生成。
この $X_C$ を T2V モデルに入力し、フィルタを回避した上で有害な中間フレームを含む動画を生成させる。

3. 主要な貢献 (Key Contributions)

脆弱性の発見: T2V システムにおける「断片的なプロンプト下での時間的軌道補完（Temporal Trajectory Infilling）」という固有の脆弱性を初めて特定しました。
TFM の提案: 上記の脆弱性を体系的に悪用するフレームワークを提案し、黒箱（Black-box）環境下でも攻撃を成功させました。
広範な評価: 複数のオープンソースおよび商用 T2V モデル（Pixverse, Hailuo, Kling, Seedance など）を対象に大規模な評価を行い、既存の手法よりも高い攻撃成功率を達成しました。

4. 実験結果 (Results)

評価対象: 14 の安全性カテゴリ（ポルノ、暴力、政治的敏感性など）と、4 つの主要な商用 T2V モデル。
攻撃成功率 (ASR):
- TFM はすべてのモデルで既存の最良のベースライン（VEIL など）を上回りました。
- 特に Hailuo モデルでは、ベースラインに対して ASR が 12.0% 向上（60.0% 対 48.0%）しました。
- Pixverse でも +7.0%、Kling でも +3.0% の向上を記録しました。
カテゴリ別性能: ポルノやグロテスクな描写などのカテゴリにおいて、TFM は 90% 以上の成功率を達成し、既存手法を大きく凌駕しました。これは「明示的な単語を避けつつ、モデルに有害な中間シーンを生成させた」結果です。
アブレーション研究:
- TBP と CSM の両方が必要であり、どちらかを欠くと成功率は劇的に低下します（例：CSM なしでは 21%、TBP なしでは 15% 程度まで低下）。
- 順序も重要で、「TBP → CSM」の順が最も効果的であり、逆順では性能が落ちます。

5. 意義と結論 (Significance & Conclusion)

新たな攻撃ベクトル: 従来の「テキストの言い換え」だけでなく、「動画生成モデルの時間的補完機能」を攻撃ベクトルとして利用する新しいアプローチを示しました。
防御への示唆: 現在の安全対策は、プロンプトの表面形式や生成された動画のフレームスキャンに依存していますが、これでは「モデルが自律的に生成する中間コンテンツ」を制御できません。
今後の課題: 安全性を確保するためには、入力プロンプトだけでなく、時間的な文脈を考慮した安全メカニズムや、モデルが生成する「時間的軌道全体」に対する監査が必要であることが示唆されました。

この研究は、T2V モデルの安全性評価において、単なるテキストフィルタリングや静的なフレームチェックだけでは不十分であり、時間的な生成プロセス全体に対する対策が急務であることを浮き彫りにしました。