VidDoS: Universal Denial-of-Service Attack on Video-based Large Language Models

本論文は、既存の画像中心の手法では防御できないビデオ大規模言語モデル(Video-LLM)の脆弱性を突く初の汎用エネルギー遅延攻撃フレームワーク「VidDoS」を提案し、マスク付き教師強制などの手法を用いて推論遅延を 15 倍以上、トークン数を 205 倍以上に増大させ、自動運転などの安全クリティカルなシナリオにおいて重大な安全違反を引き起こすことを実証している。

Duoxun Tang, Dasen Dai, Jiyao Wang, Xiao Yang, Jianyu Wang, Siqi Cai

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、「動画を見て理解する AI(Video-LLM)」を、意図的に「バカみたいに長く話し続ける状態」に陥らせて、システムを麻痺させる新しい攻撃方法について書かれています。

タイトルは**「VidDoS」**(Video Denial-of-Service、動画へのサービス拒否攻撃)です。

まるで、自動運転の車や監視カメラの AI に「無限に喋り続ける呪文」を吹きかけるようなイメージです。以下に、専門用語を排して、わかりやすい比喩で解説します。


🎬 1. 何が起きているのか?(物語のあらすじ)

想像してください。自動運転の車が、前方の信号を見て「止まるべきか?」と AI に聞いています。
本来なら、AI は瞬時に**「止まれ」**と短く答えるはずです。

しかし、この攻撃(VidDoS)を受けると、AI は突然**「えーと、まず空の色を見て、次に道路のひび割れを分析して、雲の形を思い出して……」**と、とめどなく長い文章を話し始めます。

その結果、AI の脳(コンピューター)がその長い文章を作るのに必死になり、「止まれ!」という重要な判断を遅らせてしまいます。これが、乗客の命に関わる危険な状態(DoS 攻撃)を引き起こします。

🛠️ 2. なぜ今までできなかったのか?(過去の失敗)

これまでは、静止画(写真)に対して「AI を混乱させる小さなノイズ」を足す攻撃はありました。でも、動画には 2 つの大きな壁がありました。

  1. 「時間」のフィルター効果
    動画 AI は、1 枚 1 枚の写真をバラバラに処理するのではなく、複数の写真をまとめて「動き」として理解します。そのため、1 枚の写真にノイズを入れても、他の写真の正常な情報に埋もれてしまい、AI の耳(脳)に届きません。

    • 例: 静かな部屋で囁いても、騒がしいパーティーでは聞こえないのと同じです。
  2. 「リアルタイム」の制約
    自動運転のように、瞬間瞬間で判断が必要な場面では、AI に「このフレームに最適な攻撃パターンを計算して」と頼んでいる時間はありません。攻撃側も瞬時に攻撃を仕掛けなければなりません。

💡 3. VidDoS の「魔法のテクニック」

この論文の研究者たちは、これらの壁を乗り越えるために、**「場所を固定した、どこにでも使える『魔法のシール』」**を開発しました。

  • 魔法のシール(Universal Patch):
    動画の画面の隅(例えば右下)に、人間にはほとんど見えない小さな「奇妙な模様(パッチ)」を貼り付けます。

    • 比喩: 映画のスクリーンの隅に、見えないインクで「無限に喋れ」という命令を書き込むようなものです。
    • このシールは、動画がどんな内容(車、人、風景)であっても、どこに貼り付けても効きます。
  • AI の思考を誘導する(Teacher Forcing):
    このシールは、AI の脳に「短い答え(Yes/No)は禁止!とにかく長く話さないと!」という強い命令として機能します。

    • 比喩: 先生(AI)が「答えは 1 行で!」と言っているのに、生徒(攻撃シール)が「いやいや、先生、この問題は 100 行も説明しないとわからないですよ!」と無理やり引き延ばすようなものです。

🚗 4. どれくらい危険なのか?(実験結果)

研究者たちは、最新の 3 つの AI と、自動運転のデータを使って実験しました。

  • トークンの爆発:
    通常、AI が「20 文字」で答えるところを、攻撃を受けると**「4000 文字以上」**(205 倍!)に膨れ上がりました。
  • 時間の遅延:
    本来 1 秒で終わる処理が、15 秒以上かかってしまいました。
  • 自動運転への影響:
    自動運転のシミュレーションでは、この遅延が積み重なり、**「危険な状況で AI が判断できなくなる」**という致命的な事故(安全基準の違反)を引き起こしました。

🛡️ 5. なぜこれがすごい(そして怖い)のか?

  • 一度作ればどこでも使える:
    この「魔法のシール」は、一度作れば、見知らぬ動画に対しても即座に効果を発揮します。AI の種類が変わっても、動画の内容が変わっても、ほぼ同じように効きます。
  • 温度を変えても効く:
    AI の「ランダムさ(温度設定)」を変えても、攻撃は効き続けます。AI が「ふざけて」答えようとしても、この攻撃は「バカに長い答え」を強制し続けます。

📝 まとめ

この論文は、「動画を見る AI」が、実は「無限に喋らせることでシステムを麻痺させる」脆弱性を持っていることを暴きました。

  • 今の状態: AI は安全な分野(自動運転など)で使われ始めています。
  • 問題点: 悪意ある人が、画面の隅に「見えないシール」を貼るだけで、AI を「バカに長く喋る状態」にでき、命に関わる遅延を引き起こせます。
  • 今後の課題: 私たちは、この「無限に喋らせる攻撃」を防ぐ新しい防御策を早く見つけなければなりません。

つまり、**「AI に『黙って短く答えろ』というルールを、見えないシールで無理やり書き換えて、システムをフリーズさせる」**という、非常に巧妙で危険な攻撃手法の発見です。