Language-guided Open-world Video Anomaly Detection under Weak Supervision

この論文は、自然言語による指示で異常の定義を動的に変更可能な新しいオープンワールド型動画異常検出パラダイムを提案し、その学習に必要な大規模な事前学習用データセット「PreVAD」と、弱教師あり学習と対照学習を組み合わせたモデル「LaGoVAD」を開発して、ゼロショット設定で最先端の性能を達成したことを示しています。

Zihao Liu, Xiaoyu Wu, Jianqin Wu, Xuxu Wang, Linlin Yang

公開日 2026-03-04
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「動画の中の『おかしいこと』を見つける AI」**についてのもので、従来の AI が持っていた大きな弱点を解決する新しいアイデアを提案しています。

タイトルは『LaGoVAD(ラゴバッド)』という名前ですが、内容を一言で言うと、**「状況や人の要望によって『おかしいこと』の定義が変わる世界でも、自然言語(言葉)で指示すれば、何でも見つけられる万能な監視 AI」**です。

以下に、専門用語を使わず、身近な例え話で解説します。


1. 従来の AI の悩み:「固定されたルール」の罠

これまでの動画異常検知 AI は、**「決まった教科書」**でしか勉強していませんでした。
例えば、「走っているのは普通」「爆発しているのは異常」というルールを学習させると、そのルールが絶対だと思い込んでしまいます。

  • 従来の AI の限界:
    • 図書館で走っている人を見たら、「走っている=異常!」と即座にアラートを出します(正解です)。
    • しかし、救急車が走っている場面や、スポーツの試合で走っている場面でも、「走っている=異常!」と誤ってアラートを出してしまいます。
    • さらに、**「マスクをしていないこと」**が、インフルエンザ流行期には「異常」ですが、普段は「普通」です。従来の AI はこの「状況によるルールの変化」を理解できず、混乱してしまいます。

これを論文では**「概念の漂流(Concept Drift)」**と呼んでいます。「同じ映像でも、見る場所や時期、人の要望によって『正常』と『異常』のラベルがコロコロ変わる」という現象です。

2. 新アイデア:「AI に『今日のルール』を口頭で教える」

この論文が提案する新しい AI(LaGoVAD)は、**「教科書」ではなく「対話」**で動きます。

  • 新しい仕組み:
    • ユーザーが「今日は**『マスクをしていない人』**を探して」と言葉で指示すれば、AI はその瞬間だけそのルールで検索します。
    • 翌日、「今日は**『道路を横断する歩行者』**を探して」と指示すれば、ルールを即座に切り替えます。
    • つまり、「何が異常か」を AI が勝手に決めるのではなく、人間が言葉で「今日のお題」を指定して、AI に見守らせるという仕組みです。

【例え話】

  • 従来の AI: 常に「赤信号で止まらない車」だけを監視するカメラ。青信号で止まっている車も「止まっている=異常」と勘違いして大騒ぎする。
  • 新しい AI(LaGoVAD): 「今日は赤信号で止まらない車を見て」「明日は、歩道に車が入ってきたら教えて」と、警備員に「今日の任務」を口頭で伝えることで、その任務に合わせた監視をするカメラ。

3. 3 つの重要な技術(どうやって実現したか?)

この新しい AI を作るには、3 つの工夫が必要です。

① 巨大な「おかしいこと」の図鑑(PreVAD データセット)

AI に「おかしいこと」を教えるには、大量のデータが必要です。しかし、これまでのデータは「カテゴリ名(例:暴行)」だけしか書かれておらず、詳細な説明がありませんでした。
そこで、この論文では**「PreVAD」**という、過去最大規模の新しいデータセットを作りました。

  • 特徴: 3 万 5 千本以上の動画に、**「どんな状況で、何が起きたのか」という詳しい文章(説明)**を付けたものです。
  • 例え: 従来のデータが「写真集(名前だけ)」なら、これは**「写真に詳しい解説がついた図鑑」**です。これにより、AI は言葉の意味と映像を深く結びつけられるようになりました。

② 映像を「つなぎ合わせて」練習する(動的動画合成)

現実の異常な出来事は、長い動画の中でほんの数秒しか起きません。しかし、ネットにある異常動画は、編集されて「異常な部分」ばかり集められていることが多く、AI が「普通」の部分を学ぶ機会が不足していました。

  • 工夫: AI は、「普通の動画の断片」を勝手につなぎ合わせて、長い「普通の動画」を作ったり、逆に「異常な部分」を混ぜ込んだりして、自ら練習問題を生成します。
  • 例え: 料理の練習をする際、本物の料理屋さんの「失敗作」だけでなく、「成功した料理の断片」を混ぜて「普通」の味を再確認するような練習をさせています。

③ 「難しい問題」で鍛える(ハード・ネガティブ・マイニング)

AI が「これがおかしい」と判断する際、似たような「普通の映像」と「おかしい映像」の区別がつかないことがあります。

  • 工夫: AI が間違えやすい**「非常に似ているが、実は違う」映像(ハード・ネガティブ)**を特別に選んで、それを正しく見分けさせる練習をさせます。
  • 例え: 試験勉強で、**「正解と間違えが非常に似ている、ひっかけ問題」**を重点的に解いて、本番でミスをしないように鍛えることです。

4. 結果:どんなにすごいのか?

この新しい AI は、「ゼロショット学習」(事前にその特定のデータを見ていない状態)でテストされました。

  • 結果: 7 つの異なるデータセット(犯罪、交通事故、日常の事故など)で、既存の最高峰の AI を大きく上回る性能を発揮しました。
  • 特にすごい点: 「マスクをしていないこと」や「道路を歩いていること」など、**「状況によってルールが変わる」**という難しい課題でも、言葉で指示を与えるだけで、見事に正解しました。

まとめ

この論文は、**「AI に『何が異常か』を固定させず、人間が『言葉』でその都度指示できるようにした」**という画期的なアプローチを提案しています。

  • 従来の AI: 「決まったルール」で動いて、状況が変わるとバグる。
  • 新しい AI(LaGoVAD): 「言葉で指示」を聞いて、状況に合わせて柔軟にルールを変える。

これにより、病院、工場、交通機関など、「その場所や時期によって、何が『おかしい』かが変わる」あらゆる現場で、万能な監視システムが実現できる可能性が開けました。