LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 LLandMark 的智能系统，它的核心任务是：在海量视频中，根据复杂的描述，精准找到你想要的那一段画面。

想象一下，你手里有一部250GB 的超级视频库（相当于几千部电影连在一起），里面全是越南的新闻、纪录片和旅行视频。现在，你问它：“帮我找一段视频，画面里是河内还剑湖边的乌龟塔，而且是在晚上，旁边有人在卖椰子。”

普通的搜索系统可能会懵圈，因为它只认关键词，不懂“文化地标”，也分不清“晚上”和“椰子”在画面里的样子。而 LLandMark 就像是一个拥有超级大脑的“侦探团队”，专门解决这种难题。

下面我用几个生动的比喻来解释它是如何工作的：

1. 核心架构：一个分工明确的“侦探小队”

LLandMark 不是一个单打独斗的机器人，而是一个多智能体（Multi-Agent）框架。你可以把它想象成一个侦探事务所，里面有不同的专家各司其职：

策划侦探（Query Parsing Agent）：
- 作用： 当你输入问题，它先听你“说”什么，然后拆解任务。
- 比喻： 就像侦探接到报案，先分析：“哦，客户要找‘还剑湖’，还要‘晚上’，还要‘椰子’。我们需要分头行动！”它制定一个搜索计划，决定先查文字、先查画面，还是先查声音。
文化向导（Landmark Knowledge Agent）：
- 作用： 这是最厉害的部分。它懂越南的“地标”（比如还剑湖、圣若瑟主教座堂）。
- 比喻： 普通系统只认识“还剑湖”这三个字。但这位向导会想：“客户说的‘还剑湖’，在视频里看起来是什么样？哦，是‘水面上有个塔，周围有树，晚上有灯光’。”
- 魔法： 它把“还剑湖”这个抽象名字，翻译成具体的视觉描述（比如“水边的古塔”），这样电脑就能通过“看图”来搜索，而不是死记硬背名字。
OCR 校对员（OCR Refinement Module）：
- 作用： 视频里经常有字幕或路牌，但越南语有很多声调符号（像拼音上面的小帽子），普通识别容易认错。
- 比喻： 就像是一个精通越南语的校对老师。它先用普通工具把字认出来，发现“河内”被认成了“河内（错字）”，然后利用大语言模型（Gemini）把声调符号补全，修正错别字，确保搜索时不会漏掉关键信息。
图像搜索助手（LLM-Assisted Image-to-Image）：
- 作用： 如果你只说“找那个著名的教堂”，系统可能不知道长啥样。
- 比喻： 这个助手会自动上网，先帮你搜几张“圣若瑟主教座堂”的参考照片，然后拿着这些照片去视频库里“对暗号”。它不再依赖文字，而是直接以图搜图，精准匹配长得像的画面。

2. 工作流程：一场精密的“接力赛”

当你要找一段视频时，LLandMark 会这样操作：

切分视频（预处理）：
视频太长，不能一帧帧看。系统像剪辑师一样，先把视频切成一个个小片段（Shot），只提取每个片段里最有代表性的几张“关键帧”图片。这大大减少了工作量。
多路并行搜索（同时开工）：
侦探小队分头行动，同时搜索三个数据库：
- 视觉库： 用 AI 把图片变成“数学向量”（像给图片打指纹），找长得像的。
- 文字库： 把视频里的字幕和语音转成文字，找关键词。
- 物体库： 用 AI 识别画面里有没有“人”、“车”、“塔”等物体。
综合评分与合成（最终裁决）：
所有线索汇总到总指挥（Reranking Agent） 手里。它不会只听一家之言，而是把视觉相似度、文字匹配度、物体检测度加权平均。
- 比喻： 就像法官判案，既看指纹（视觉），又看口供（文字），还看现场物证（物体），最后给出一个最可信的结论，并告诉你：“这段视频在第 3 分 20 秒，画面里确实有乌龟塔，而且背景音里有人在喊‘椰子’。”

3. 为什么它很厉害？（实验结果）

懂文化： 以前的系统看到“圣若瑟主教座堂”可能一脸茫然，LLandMark 知道它长什么样，甚至知道它叫“双塔教堂”。
懂越南语： 它特别针对越南语的声调进行了优化，能听懂并看懂越南语的视频内容。
全自动： 以前找地标可能需要你手动上传一张照片，现在它自己会去网上找参考图，完全不用你动手。

在 2025 年胡志明市 AI 挑战赛（HCMAIC）中，LLandMark 在 680 多个参赛队伍中排名前 56，证明了它在处理这种复杂、多模态（图 + 文+音）任务时的强大能力。

总结

LLandMark 就像是一个懂越南文化、会看图说话、还能自动上网查资料的超级视频管家。它不再只是机械地匹配关键词，而是真正“理解”了你想要找的画面场景，让从海量视频中找证据变得像问路一样简单自然。

LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

1. 核心架构：一个分工明确的“侦探小队”

2. 工作流程：一场精密的“接力赛”

3. 为什么它很厉害？（实验结果）

总结

LLandMark 论文技术总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 核心架构：四阶段多智能体协作

2.2 关键技术模块

3. 主要贡献 (Key Contributions)

4. 实验结果 (Experimental Results)

5. 意义与影响 (Significance)

LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

1. 核心架构：一个分工明确的“侦探小队”

2. 工作流程：一场精密的“接力赛”

3. 为什么它很厉害？（实验结果）

总结

LLandMark 论文技术总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 核心架构：四阶段多智能体协作

2.2 关键技术模块

3. 主要贡献 (Key Contributions)

4. 实验结果 (Experimental Results)

5. 意义与影响 (Significance)

类似论文

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

AnchorNote: Exploring Speech-Driven Spatial Externalization for Co-Located Collaboration in Augmented Reality

Your Robot Will Feel You Now: Empathy in Robots and Embodied Agents

FIGURA: A Modular Prompt Engineering Method for Artistic Figure Photography in Safety-Filtered Text-to-Image Models

Measuring Research Convergence in Interdisciplinary Teams Using Large Language Models and Graph Analytics