TEAR: Temporal-aware Automated Red-teaming for Text-to-Video Models

Each language version is independently generated for its own context, not a direct translation.

この論文は、「テキストから動画を作る AI（Text-to-Video）」のセキュリティに潜む、新しいタイプの弱点を発見し、それを暴くための仕組み「TEAR」を紹介するものです。

難しい専門用語を使わず、日常の例え話を使って説明しましょう。

🎬 物語の要約：「安全な言葉」で「危険な映画」を作るトリック

まず、現在の AI 動画生成技術について考えてみてください。
「男が水を飲む」という安全な言葉を入力すると、AI は高品質な動画を作れます。しかし、この論文は**「言葉自体は安全でも、時間の流れ（テンポ）を巧妙に操作すれば、危険な動画を作れてしまう」**という新しい弱点を見つけました。

🕵️‍♂️ 従来の問題点：静止画の「防犯カメラ」では見逃される

これまでの AI 動画のセキュリティチェックは、「静止画（写真）」や「テキスト」のチェックが中心でした。

例え話： 銀行の警備員が「凶器を持っている人」だけを探しているようなものです。
問題点： もし犯人が「最初は安全な手」で始まり、「2 秒後にナイフを抜く」「さらに 3 秒後に人を刺す」というように、時間の経過とともに危険な行動に変化させる動画を作った場合、警備員（既存のチェックシステム）は「最初の瞬間は安全だったから OK」と判断してしまい、「動画全体としての危険性」を見逃してしまいます。

🛠️ 解決策「TEAR」：時間の流れを操る「悪魔の弁護士」

この論文が提案する「TEAR」は、まさにその**「時間の流れを操る」**ことに特化した自動テストシステムです。

最初のステップ（台本作り）：
TEAR は、AI に「安全な言葉」で危険なシナリオを教えます。
- 例え話： 「殺人事件」を直接言うのは NG です。そこで TEAR は、**「まず、男が水を飲む。2 秒後、体が後ろに倒れる。さらに 3 秒後、地面に落ちて跳ねる」**というように、一見すると何でもない出来事を「時間の順序」でつなげる台本を作ります。
- これなら、テキストのチェックを通り抜けます（「水を飲む」のは安全だから）。
2 番目のステップ（リハーサルと修正）：
作った台本を AI 動画生成器に渡して、実際に動画を作ってもらいます。
- もし「危険な動画」が作られなかったり、テキストのチェックで引っかかったりしたら、TEAR は**「リファイン（改善）モデル」**という別の AI に相談します。
- 例え話： 監督（TEAR）が「このセリフは少し危険すぎるから、もっと自然な言い回しに変えて」と指示し、俳優（生成 AI）が何度もリハーサルを繰り返して、**「言葉は完全に安全なのに、映像は完全に犯罪」**という状態を目指して調整します。
最終目標：
「言葉は 100% 安全（通関をパス）」なのに、「動画は 100% 危険（フィルタを突破）」という**「タイムリーな攻撃」**を成功させることです。

📊 結果：驚異的な成功率

この「TEAR」を使って実験したところ、以下の結果が出ました。

攻撃成功率 80% 以上： 既存の最高の方法（57% 程度）を大きく上回りました。
どんな AI でも効く： Google や中国の大手企業が作った最新の動画 AI でも、この「時間のトリック」は通用しました。
フィルターの無力さ： 現在の「危険な動画フィルター」は、**「動画がどう動いているか（時間の流れ）」**までチェックできておらず、このトリックには無力であることが証明されました。

💡 結論：なぜこれが重要なのか？

この研究は、**「AI の安全性は、単に『何』を作っているかだけでなく、『どのように時間的に展開するか』も重要だ」**と警鐘を鳴らしています。

開発者へのメッセージ： 「言葉のチェック」だけでなく、「動画の流れ全体」をチェックする新しいセキュリティが必要だ。
一般の人へのメッセージ： AI が作る動画は、一見安全に見えても、時間の流れを操作すれば危険な内容になる可能性がある。だから、開発者はこの「時間の隙間」を埋める必要がある。

一言で言うと：
「TEAR」は、**「安全な言葉の羅列で、危険な映画を完成させる」**という、AI の新しい弱点を暴き出し、開発者がそれを修正するための強力なツールです。これにより、より安全な AI 動画が作られる未来につながります。

TEAR: Temporal-aware Automated Red-teaming for Text-to-Video Models

🎬 物語の要約：「安全な言葉」で「危険な映画」を作るトリック

🕵️‍♂️ 従来の問題点：静止画の「防犯カメラ」では見逃される

🛠️ 解決策「TEAR」：時間の流れを操る「悪魔の弁護士」

📊 結果：驚異的な成功率

💡 結論：なぜこれが重要なのか？

1. 背景と問題定義

2. 提案手法：TEAR (Temporal-aware Automated Red-teaming)

3. 主要な貢献

4. 実験結果

5. 意義と結論

TEAR: Temporal-aware Automated Red-teaming for Text-to-Video Models

🎬 物語の要約：「安全な言葉」で「危険な映画」を作るトリック

🕵️‍♂️ 従来の問題点：静止画の「防犯カメラ」では見逃される

🛠️ 解決策「TEAR」：時間の流れを操る「悪魔の弁護士」

📊 結果：驚異的な成功率

💡 結論：なぜこれが重要なのか？

1. 背景と問題定義

2. 提案手法：TEAR (Temporal-aware Automated Red-teaming)

3. 主要な貢献

4. 実験結果

5. 意義と結論

関連論文

Towards Automatic Stress Analysis using Scaled Boundary Finite Element Method with Quadtree Mesh of High-order Elements

Computing Characteristic Polynomials of p-Curvatures in Average Polynomial Time

Non-degenerate Rigid Alignment in a Patch Framework

Shirakami: A Hybrid Concurrency Control Protocol for Tsurugi Relational Database System

The MCC approaches the geometric mean of precision and recall as true negatives approach infinity