LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「LLandMark（エルランドマーク）」**という、とても賢くて多芸な「動画検索ロボット」の仕組みについて書かれています。

普通の検索エンジンが「キーワード」で探すのに対し、このシステムは**「人間の目と耳と知識」を模倣した複数の専門家チーム**が協力して、複雑な質問にも答えられるように作られています。

まるで、**「ベトナムの街を熟知した探偵チーム」**が、あなたの頼み事を解決してくれるようなイメージです。

🕵️‍♂️ 探偵チームの構成（4 人の専門家）

このシステムは、1 人の天才が全てをやるのではなく、4 人の異なる役割を持つ「エージェント（代理人）」がチームを組んでいます。

計画屋（プランナー）
- 役割: あなたの質問を聞いて、「どう探せばいいか」の作戦を立てます。
- 例: 「ハノイの聖ヨセフ大聖堂の前で」という質問を聞くと、「まずは『聖ヨセフ大聖堂』が何に見えるか特定し、次に『夜』や『人』といった要素も探そう」と計画します。
ランドマークの知識人（ランドマーク知識エージェント）
- 役割: 有名な建物や場所（ランドマーク）に詳しい専門家です。
- 魔法: 単に「聖ヨセフ大聖堂」という名前を覚えているだけでなく、**「灰色の石造り、2 つの塔、ゴシック様式」**といった具体的な見た目の特徴に変換します。
- メリット: 動画の中に「聖ヨセフ大聖堂」という文字がなくても、「塔のある建物」という特徴で探せるようになります。
並行捜査員（マルチモーダル検索）
- 役割: 計画屋の指示に従い、同時に複数の方法を駆使して探します。
- 方法:
  - 目: 動画のフレームを AI が見て、似た画像を探します。
  - 耳: 音声（誰が何と言ったか）を聞き取ります。
  - 文字: 画面に映っている文字（看板やテロップ）を読み取ります。
  - 物体: 「車」や「人」など、特定の物が写っているか探します。
まとめ役（リランキングと回答エージェント）
- 役割: 3 人の捜査員が集めた情報をまとめ、最も確実な答えを導き出します。
- 結果: 「この動画の 3 分 15 秒のシーンが正解です」というように、根拠（画像、音声、文字）を提示して回答します。

🌟 このシステムの「すごいところ」3 選

1. 「ベトナムの文字」を完璧に直す魔法の修正液

ベトナム語は、母音の上に小さな記号（アクセント）がつく言語です。普通の OCR（文字認識）は、この記号を間違えて読み取ることが多く、「意味が変わってしまう」ことがありました。

LLandMark の工夫: 一度読み取った文字を、**「AI 助手（Gemini）」**に渡して、「これはベトナム語だから、正しい記号を復活させて」と頼みます。
例え: 汚れた手書きのメモを、プロの翻訳者が「あ、これは『猫』じゃなくて『犬』だね」と正しく読み解いてくれるようなものです。

2. 「言葉」ではなく「写真」で探す自動運転機能

「ベンタイン市場の動画を探して」と言われたとき、普通の AI は「市場」という言葉で検索しますが、それだと「どこかの市場」が出てきてしまいます。

LLandMark の工夫:
1. 「ベンタイン市場」という言葉を聞いて、AI が**「ベンタイン市場の写真」を勝手にインターネットから探してきます**。
2. その「本物の写真」と、動画のフレームを**「写真と写真の比較」**で照合します。
例え: 「あの赤い服の男の子を探して」と言われたとき、AI がまず「赤い服の男の子の画像」をスマホで検索し、その画像を基準に動画の中を探し回ってくれるようなイメージです。これなら、名前がわからなくても「あの見た目の場所」が見つかります。

3. 複雑な質問にも対応する「柔軟な思考」

「ハノイの聖ヨセフ大聖堂の前で、夜にインタビューをしているシーン」というように、場所・時間・出来事が混ざった質問でも、それぞれの要素を分解して探します。

例え: 料理のレシピのように、「まず『聖ヨセフ大聖堂』という材料を探し、次に『夜』という調味料を加え、最後に『インタビュー』という仕上げをする」というように、順序立てて探します。

🏆 結果は？

このシステムは、ベトナムで行われた大規模な動画検索コンテスト（HCMAIC 2025）で、**680 以上のチームの中からトップクラス（上位 56 位以内）**に入賞しました。
特に、ベトナムの文化的な文脈（有名な場所や言葉のニュアンス）を理解して検索できる点が評価されました。

💡 まとめ

LLandMark は、単なる「検索ツール」ではなく、**「ベトナムの街と文化を知り尽くした、賢い探偵チーム」**です。
「あの有名な建物の前で何かが起きていた動画を探して」という、人間らしい複雑な質問にも、画像・音声・文字・知識を総動員して、見事に答えを導き出してくれます。これからの動画検索は、ただ「キーワード」を打つだけでなく、このように「文脈」を理解して探す時代が来るのかもしれません。

LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

🕵️‍♂️ 探偵チームの構成（4 人の専門家）

🌟 このシステムの「すごいところ」3 選

1. 「ベトナムの文字」を完璧に直す魔法の修正液

2. 「言葉」ではなく「写真」で探す自動運転機能

3. 複雑な質問にも対応する「柔軟な思考」

🏆 結果は？

💡 まとめ

LLandMark: ランドマーク認識型マルチモーダル対話型動画検索のためのマルチエージェントフレームワーク

1. 問題定義

2. 手法とアーキテクチャ

2.1 基本データ前処理

2.2 主要コンポーネント

2.3 独自モジュール

3. 主要な貢献

4. 実験結果

5. 意義と結論

LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

🕵️‍♂️ 探偵チームの構成（4 人の専門家）

🌟 このシステムの「すごいところ」3 選

1. 「ベトナムの文字」を完璧に直す魔法の修正液

2. 「言葉」ではなく「写真」で探す自動運転機能

3. 複雑な質問にも対応する「柔軟な思考」

🏆 結果は？

💡 まとめ

LLandMark: ランドマーク認識型マルチモーダル対話型動画検索のためのマルチエージェントフレームワーク

1. 問題定義

2. 手法とアーキテクチャ

2.1 基本データ前処理

2.2 主要コンポーネント

2.3 独自モジュール

3. 主要な貢献

4. 実験結果

5. 意義と結論

関連論文

Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels

Algorithmic Barriers to Detecting and Repairing Structural Overspecification in Adaptive Data-Structure Selection

Zero-Cost NDV Estimation from Columnar File Metadata

Persistence-based topological optimization: a survey

Multi-LLM Query Optimization