Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection

本論文は、マルチモーダル大規模言語モデル(MLLM)を用いて正常な動画から物体の活動や相互作用に関する高レベルなテキスト記述を生成し、これをテスト時の記述と比較することで、複雑な相互作用に基づく異常を検出するとともに説明可能性を付与する、新しい半教師あり動画異常検出フレームワークを提案するものです。

Furkan Mumcu, Michael J. Jones, Anoop Cherian, Yasin Yilmaz

公開日 2026-03-02
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「監視カメラの映像から、何が『おかしい』かを、人間のように説明しながら見つける新しい方法」**について書かれています。

従来の技術は「映像のピクセル(画素)の変化」だけを見て異常を検知していましたが、この新しい方法は**「AI が映像を見て、まるで人間が説明するように『何が起こっているか』を言葉に変換し、その言葉のニュアンスの違いで異常を察知する」**というアイデアです。

わかりやすくするために、いくつかの比喩を使って説明してみましょう。

1. 従来の方法 vs 新しい方法

  • 従来の方法(ピクセルの比較):
    昔のシステムは、まるで**「写真の比較」**をしているようなものでした。「昨日のこの場所の映像と、今日の映像をピクセル単位で重ねて、色が違う場所があれば『何か変だ!』と判断する」のです。

    • 問題点: 「人が走っている」こと自体は正常でも、その人が「逆走」していたり、「犬を車に乗せて走らせて」いたりするような、**「複雑な関係性」**に基づく異常には弱いです。また、「どこが変なのか?」を言葉で説明することはできません。
  • 新しい方法(言葉の比較):
    この論文の提案するシステム(MLLM-EVAD)は、**「映像の翻訳者」**として働きます。

    1. まず、正常な日常の映像を見て、AI が**「2 人の人が歩道橋を渡っている」「犬がリードにつながれている」といった「文章(説明)」**を書き出します。
    2. これらを「正常な会話の辞書(例)」として集めておきます。
    3. 実際の監視映像が入ってきたとき、AI はその瞬間を**「2 人の人が歩道橋で喧嘩している」「犬が車の上に座っている」といった「文章」**に変換します。
    4. そして、「今書かれた文章」が「辞書にある正常な文章」とどれだけ違うかを比べます。
      • もし「犬が車に乗っている」という文章が辞書に全くなければ、「これは異常だ!」と判断します。
      • さらに、**「なぜ異常なのか?」という理由も、その文章そのものとして提示されるため、「説明可能(Explainable)」**なのです。

2. 具体的な仕組み:「ペア」で見る

このシステムは、単に「犬」や「人」を個別に見るだけでなく、**「誰と誰が一緒に何をしているか」という「関係性」**に注目します。

  • 比喩:
    街角の監視カメラを、**「会話の聞き取り」**だと想像してください。
    • 通常、カメラは「人が歩いている」という**「一人の独り言」**を記録します。
    • しかし、このシステムは**「2 人の会話」に注目します。「A さんが B さんに何かを渡している」「A さんが B さんを押している」といった「対話(相互作用)」**を文章化します。
    • 普段は「A さんが B さんに挨拶している」という会話しか聞こえないのに、ある日突然**「A さんが B さんを殴っている」という会話(文章)が聞こえたら、それは明らかに「異常」**だとわかります。

3. なぜこれがすごいのか?

  • 複雑な事件も捉えられる:
    従来のシステムでは「人が走っている」のは正常、「犬が走っている」のも正常ですが、「犬が車に乗って走っている」のは異常です。ピクセル比較だけでは見逃しやすいですが、「犬が車に乗っている」という文章に変換すれば、それは辞書にない**「奇妙な会話」**として即座に検知できます。
  • 「なぜ?」がわかる:
    警報が鳴ったとき、システムは「異常スコア 0.9」という数字を出すだけでなく、**「この映像では『人が箱の中で押されている』と書かれているが、正常な例では『人が歩道で歩いている』だけだから異常だ」**と、人間が理解できる理由を提示します。

4. 実験結果と限界

  • 結果:
    複雑な相互作用(例:人が犬を車に乗せるなど)が含まれるデータセットで、既存のどの方法よりも高い精度を達成しました。また、他の既存の技術と組み合わせることで、より精度を上げられることも証明されました。
  • 限界と課題:
    • スピード: 映像を「言葉」に翻訳するには、高性能な AI(LLM)が必要で、処理に時間がかかります。そのため、**「リアルタイムで即座に反応する」というよりは、「後から詳しく分析して、人間に判断材料を提供する」**という使い方が想定されています。
    • エネルギー: 大量の映像を言葉に変換するのは電力を多く消費します。
    • 嘘(ハルシネーション): AI が「実際には起きていないこと」を勝手に文章に書いてしまうリスクがありますが、このシステムは「正常なパターンとの比較」に重きを置いているため、その影響をある程度抑えています。

まとめ

この論文は、**「監視カメラの映像を、単なる『画像』ではなく、『物語(文章)』として読み解く」**という新しいアプローチを提案しています。

まるで、**「警備員が映像を見て『あそこ、犬が車に乗ってるぞ!普通はリードで歩いているはずだ』と、誰にでもわかる言葉で報告してくれる」ようなシステムです。これにより、複雑な事件の発見だけでなく、「なぜそれが危険なのか」**を人間が直感的に理解できるようになり、より安全で信頼性の高い監視社会の実現に貢献すると期待されています。