LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

LLandMark は、クエリ解析、ランドマーク推論、マルチモーダル検索、回答合成の 4 段階で専門エージェントが協調し、特にベトナムの文化的・空間的ランドマークの検出や OCR 精度向上に特化したモジュール型マルチエージェントフレームワークとして、複雑なマルチモーダル動画検索を可能にするものです。

Minh-Chi Phung, Thien-Bao Le, Cam-Tu Tran-Thi, Thu-Dieu Nguyen-Thi, Vu-Hung Dao

公開日 2026-03-04
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「LLandMark(エルランドマーク)」**という、とても賢くて多芸な「動画検索ロボット」の仕組みについて書かれています。

普通の検索エンジンが「キーワード」で探すのに対し、このシステムは**「人間の目と耳と知識」を模倣した複数の専門家チーム**が協力して、複雑な質問にも答えられるように作られています。

まるで、**「ベトナムの街を熟知した探偵チーム」**が、あなたの頼み事を解決してくれるようなイメージです。


🕵️‍♂️ 探偵チームの構成(4 人の専門家)

このシステムは、1 人の天才が全てをやるのではなく、4 人の異なる役割を持つ「エージェント(代理人)」がチームを組んでいます。

  1. 計画屋(プランナー)

    • 役割: あなたの質問を聞いて、「どう探せばいいか」の作戦を立てます。
    • 例: 「ハノイの聖ヨセフ大聖堂の前で」という質問を聞くと、「まずは『聖ヨセフ大聖堂』が何に見えるか特定し、次に『夜』や『人』といった要素も探そう」と計画します。
  2. ランドマークの知識人(ランドマーク知識エージェント)

    • 役割: 有名な建物や場所(ランドマーク)に詳しい専門家です。
    • 魔法: 単に「聖ヨセフ大聖堂」という名前を覚えているだけでなく、**「灰色の石造り、2 つの塔、ゴシック様式」**といった具体的な見た目の特徴に変換します。
    • メリット: 動画の中に「聖ヨセフ大聖堂」という文字がなくても、「塔のある建物」という特徴で探せるようになります。
  3. 並行捜査員(マルチモーダル検索)

    • 役割: 計画屋の指示に従い、同時に複数の方法を駆使して探します。
    • 方法:
      • 目: 動画のフレームを AI が見て、似た画像を探します。
      • 耳: 音声(誰が何と言ったか)を聞き取ります。
      • 文字: 画面に映っている文字(看板やテロップ)を読み取ります。
      • 物体: 「車」や「人」など、特定の物が写っているか探します。
  4. まとめ役(リランキングと回答エージェント)

    • 役割: 3 人の捜査員が集めた情報をまとめ、最も確実な答えを導き出します。
    • 結果: 「この動画の 3 分 15 秒のシーンが正解です」というように、根拠(画像、音声、文字)を提示して回答します。

🌟 このシステムの「すごいところ」3 選

1. 「ベトナムの文字」を完璧に直す魔法の修正液

ベトナム語は、母音の上に小さな記号(アクセント)がつく言語です。普通の OCR(文字認識)は、この記号を間違えて読み取ることが多く、「意味が変わってしまう」ことがありました。

  • LLandMark の工夫: 一度読み取った文字を、**「AI 助手(Gemini)」**に渡して、「これはベトナム語だから、正しい記号を復活させて」と頼みます。
  • 例え: 汚れた手書きのメモを、プロの翻訳者が「あ、これは『猫』じゃなくて『犬』だね」と正しく読み解いてくれるようなものです。

2. 「言葉」ではなく「写真」で探す自動運転機能

「ベンタイン市場の動画を探して」と言われたとき、普通の AI は「市場」という言葉で検索しますが、それだと「どこかの市場」が出てきてしまいます。

  • LLandMark の工夫:
    1. 「ベンタイン市場」という言葉を聞いて、AI が**「ベンタイン市場の写真」を勝手にインターネットから探してきます**。
    2. その「本物の写真」と、動画のフレームを**「写真と写真の比較」**で照合します。
  • 例え: 「あの赤い服の男の子を探して」と言われたとき、AI がまず「赤い服の男の子の画像」をスマホで検索し、その画像を基準に動画の中を探し回ってくれるようなイメージです。これなら、名前がわからなくても「あの見た目の場所」が見つかります。

3. 複雑な質問にも対応する「柔軟な思考」

「ハノイの聖ヨセフ大聖堂の前で、夜にインタビューをしているシーン」というように、場所・時間・出来事が混ざった質問でも、それぞれの要素を分解して探します。

  • 例え: 料理のレシピのように、「まず『聖ヨセフ大聖堂』という材料を探し、次に『夜』という調味料を加え、最後に『インタビュー』という仕上げをする」というように、順序立てて探します。

🏆 結果は?

このシステムは、ベトナムで行われた大規模な動画検索コンテスト(HCMAIC 2025)で、**680 以上のチームの中からトップクラス(上位 56 位以内)**に入賞しました。
特に、ベトナムの文化的な文脈(有名な場所や言葉のニュアンス)を理解して検索できる点が評価されました。

💡 まとめ

LLandMark は、単なる「検索ツール」ではなく、**「ベトナムの街と文化を知り尽くした、賢い探偵チーム」**です。
「あの有名な建物の前で何かが起きていた動画を探して」という、人間らしい複雑な質問にも、画像・音声・文字・知識を総動員して、見事に答えを導き出してくれます。これからの動画検索は、ただ「キーワード」を打つだけでなく、このように「文脈」を理解して探す時代が来るのかもしれません。