ForeSea: AI Forensic Search with Multi-modal Queries for Video Surveillance

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「ForeSea（フォアシー）」という新しい AI システムと、それをテストするための「ForeSeaQA（フォアシー QA）」**というテスト問題集について紹介しています。

簡単に言うと、**「監視カメラの映像から、特定の人物や出来事を、写真と文章を組み合わせて『いつ、どこで』見つけることができる AI」**を作ったという話です。

専門用語を避け、日常の例えを使って説明しましょう。

1. 従来のシステムはどんな感じだった？（問題点）

これまでの監視カメラの検索システムは、以下のような**「3 つの壁」**にぶつかっていました。

壁 1：「文字しか読めない」
- 例：「白いシャツを着た男」は検索できるけど、**「この写真の男がいつ自転車に乗ったか」**という、写真＋文章の組み合わせで検索するのは苦手でした。
壁 2：「長い動画を見通せない」
- 1 日分（何十時間）の映像を全部 AI に見せると、脳がパンクして重要な瞬間を見逃します。
壁 3：「いつのことか分からない」
- 「事件は起きた」と言えても、「午後 3 時 15 分から 3 時 20 分の間」という正確な時間を特定するのが苦手でした。

2. ForeSea の仕組み：「名探偵コナン」の助手のような AI

ForeSea は、この問題を解決するために**「3 ステップの探偵チーム」**のような仕組みを採用しています。

ステップ 1：フィルタリング（「人探し」の助手）

まず、AI は長い動画の中から**「人が写っている部分」だけ**を切り取ります。

例え： 1 日分の街の映像（広大な森）を全部見るのではなく、「人が歩いている小道」だけに注目して、他の木々や空の映像は捨ててしまいます。これで見つけるべき対象の範囲が劇的に狭まります。

ステップ 2：インデックス作成（「写真とメモ」の整理）

切り取った「人の映像」を、「写真」と「文章」の両方で検索できる辞書に整理して登録します。

例え： 普通の辞書は「文字」で引くだけですが、ForeSea の辞書は**「この写真の男」や「自転車に乗っている人」**というように、写真を見せながら検索できる特別な辞書です。

ステップ 3：推理と回答（「名探偵」の活躍）

最後に、ユーザーからの質問（例：「この写真の男が自転車に乗ったのはいつ？」）を、切り取られた短い動画クリップと一緒に AI に見せます。AI はその中から正解を見つけ出し、**「10 時 35 分に歩道で乗っていました」**と、正確な時間を答えます。

3. 新基準「ForeSeaQA」：AI の実力を測るテスト

新しい AI を作るだけでなく、その性能を正しく測るための**「新しい試験問題」**も作りました。

特徴： 従来のテストは「文章だけ」で質問するものばかりでしたが、ForeSeaQA は**「写真＋文章」**で質問します。
例：「この写真の犯人が、いつ逃げ出したか教えて」という質問に、写真と文章をセットで出題します。
目的： 現実の警察捜査（証拠写真を持って「いつ見たか」を特定する）に近い形で、AI の能力を厳しくチェックします。

4. なぜこれがすごいのか？

精度向上： 従来の AI に比べて、「いつ起きたか」を特定する精度が 11% も向上しました。
速さ： 長い動画を全部見なくても、必要な部分だけを見るので、処理時間が半分以下になりました。
柔軟性： 「監視カメラ」だけでなく、普通の長い動画（ドキュメンタリーなど）でも、必要なシーンを見つけるのに使えます。

まとめ：どんなイメージ？

これまでの監視システムが**「広大な図書館の全本を、文字だけで探そうとして疲弊している」状態だとしたら、ForeSea は「探したい本の写真とタイトルを渡せば、即座に『あの棚の 3 段目、10 時 35 分』と本を差し出してくれる、優秀な司書」**のような存在です。

この技術は、犯罪捜査だけでなく、イベントのハイライト検索や、家庭の防犯カメラの活用など、私たちの生活のあらゆる「長い動画を探す」場面で役立つ可能性があります。

ForeSea: AI Forensic Search with Multi-modal Queries for Video Surveillance

1. 従来のシステムはどんな感じだった？（問題点）

2. ForeSea の仕組み：「名探偵コナン」の助手のような AI

ステップ 1：フィルタリング（「人探し」の助手）

ステップ 2：インデックス作成（「写真とメモ」の整理）

ステップ 3：推理と回答（「名探偵」の活躍）

3. 新基準「ForeSeaQA」：AI の実力を測るテスト

4. なぜこれがすごいのか？

まとめ：どんなイメージ？

ForeSea: 監視ビデオのためのマルチモーダルクエリによる AI 法廷捜査検索の技術的サマリー

1. 問題定義 (Problem)

2. 提案手法 (Methodology)

A. ForeSeaQA: 新規ベンチマーク

B. ForeSea: 3 段階の AI 法廷捜査検索システム

3. 主要な貢献 (Key Contributions)

4. 実験結果 (Results)

5. 意義と結論 (Significance)

ForeSea: AI Forensic Search with Multi-modal Queries for Video Surveillance

1. 従来のシステムはどんな感じだった？（問題点）

2. ForeSea の仕組み：「名探偵コナン」の助手のような AI

ステップ 1：フィルタリング（「人探し」の助手）

ステップ 2：インデックス作成（「写真とメモ」の整理）

ステップ 3：推理と回答（「名探偵」の活躍）

3. 新基準「ForeSeaQA」：AI の実力を測るテスト

4. なぜこれがすごいのか？

まとめ：どんなイメージ？

ForeSea: 監視ビデオのためのマルチモーダルクエリによる AI 法廷捜査検索の技術的サマリー

1. 問題定義 (Problem)

2. 提案手法 (Methodology)

A. ForeSeaQA: 新規ベンチマーク

B. ForeSea: 3 段階の AI 法廷捜査検索システム

3. 主要な貢献 (Key Contributions)

4. 実験結果 (Results)

5. 意義と結論 (Significance)

関連論文