ForeSea: AI Forensic Search with Multi-modal Queries for Video Surveillance

この論文は、監視カメラ映像における複雑なマルチモーダル検索タスクを評価するための新規ベンチマーク「ForeSeaQA」と、追跡・埋め込み・検索の 3 段階パイプラインを採用して既存の VideoRAG モデルを上回る性能を達成した AI 法廷検索システム「ForeSea」を提案するものです。

Hyojin Park, Yi Li, Janghoon Cho, Sungha Choi, Jungsoo Lee, Taotao Jing, Shuai Zhang, Munawar Hayat, Dashan Gao, Ning Bi, Fatih Porikli

公開日 2026-03-25
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「ForeSea(フォアシー)」という新しい AI システムと、それをテストするための「ForeSeaQA(フォアシー QA)」**というテスト問題集について紹介しています。

簡単に言うと、**「監視カメラの映像から、特定の人物や出来事を、写真と文章を組み合わせて『いつ、どこで』見つけることができる AI」**を作ったという話です。

専門用語を避け、日常の例えを使って説明しましょう。


1. 従来のシステムはどんな感じだった?(問題点)

これまでの監視カメラの検索システムは、以下のような**「3 つの壁」**にぶつかっていました。

  • 壁 1:「文字しか読めない」
    • 例:「白いシャツを着た男」は検索できるけど、**「この写真の男がいつ自転車に乗ったか」**という、写真+文章の組み合わせで検索するのは苦手でした。
  • 壁 2:「長い動画を見通せない」
    • 1 日分(何十時間)の映像を全部 AI に見せると、脳がパンクして重要な瞬間を見逃します。
  • 壁 3:「いつのことか分からない」
    • 「事件は起きた」と言えても、「午後 3 時 15 分から 3 時 20 分の間」という正確な時間を特定するのが苦手でした。

2. ForeSea の仕組み:「名探偵コナン」の助手のような AI

ForeSea は、この問題を解決するために**「3 ステップの探偵チーム」**のような仕組みを採用しています。

ステップ 1:フィルタリング(「人探し」の助手)

まず、AI は長い動画の中から**「人が写っている部分」だけ**を切り取ります。

  • 例え: 1 日分の街の映像(広大な森)を全部見るのではなく、「人が歩いている小道」だけに注目して、他の木々や空の映像は捨ててしまいます。これで見つけるべき対象の範囲が劇的に狭まります。

ステップ 2:インデックス作成(「写真とメモ」の整理)

切り取った「人の映像」を、「写真」と「文章」の両方で検索できる辞書に整理して登録します。

  • 例え: 普通の辞書は「文字」で引くだけですが、ForeSea の辞書は**「この写真の男」「自転車に乗っている人」**というように、写真を見せながら検索できる特別な辞書です。

ステップ 3:推理と回答(「名探偵」の活躍)

最後に、ユーザーからの質問(例:「この写真の男が自転車に乗ったのはいつ?」)を、切り取られた短い動画クリップと一緒に AI に見せます。AI はその中から正解を見つけ出し、**「10 時 35 分に歩道で乗っていました」**と、正確な時間を答えます。

3. 新基準「ForeSeaQA」:AI の実力を測るテスト

新しい AI を作るだけでなく、その性能を正しく測るための**「新しい試験問題」**も作りました。

  • 特徴: 従来のテストは「文章だけ」で質問するものばかりでしたが、ForeSeaQA は**「写真+文章」**で質問します。
  • 例: 「この写真の犯人が、いつ逃げ出したか教えて」という質問に、写真と文章をセットで出題します。
  • 目的: 現実の警察捜査(証拠写真を持って「いつ見たか」を特定する)に近い形で、AI の能力を厳しくチェックします。

4. なぜこれがすごいのか?

  • 精度向上: 従来の AI に比べて、「いつ起きたか」を特定する精度が 11% も向上しました。
  • 速さ: 長い動画を全部見なくても、必要な部分だけを見るので、処理時間が半分以下になりました。
  • 柔軟性: 「監視カメラ」だけでなく、普通の長い動画(ドキュメンタリーなど)でも、必要なシーンを見つけるのに使えます。

まとめ:どんなイメージ?

これまでの監視システムが**「広大な図書館の全本を、文字だけで探そうとして疲弊している」状態だとしたら、ForeSea は「探したい本の写真とタイトルを渡せば、即座に『あの棚の 3 段目、10 時 35 分』と本を差し出してくれる、優秀な司書」**のような存在です。

この技術は、犯罪捜査だけでなく、イベントのハイライト検索や、家庭の防犯カメラの活用など、私たちの生活のあらゆる「長い動画を探す」場面で役立つ可能性があります。

自分の分野の論文に埋もれていませんか?

研究キーワードに一致する最新の論文のダイジェストを毎日受け取りましょう——技術要約付き、あなたの言語で。

Digest を試す →