LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

本文提出了 LLandMark 框架,这是一个专为处理复杂查询而设计的多智能体系统,通过集成地标感知推理、多模态检索及针对越南语场景优化的 OCR 与图像生成技术,实现了具有文化适应性和可解释性的交互式视频检索。

Minh-Chi Phung, Thien-Bao Le, Cam-Tu Tran-Thi, Thu-Dieu Nguyen-Thi, Vu-Hung Dao

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 LLandMark 的智能系统,它的核心任务是:在海量视频中,根据复杂的描述,精准找到你想要的那一段画面。

想象一下,你手里有一部250GB 的超级视频库(相当于几千部电影连在一起),里面全是越南的新闻、纪录片和旅行视频。现在,你问它:“帮我找一段视频,画面里是河内还剑湖边的乌龟塔,而且是在晚上,旁边有人在卖椰子。”

普通的搜索系统可能会懵圈,因为它只认关键词,不懂“文化地标”,也分不清“晚上”和“椰子”在画面里的样子。而 LLandMark 就像是一个拥有超级大脑的“侦探团队”,专门解决这种难题。

下面我用几个生动的比喻来解释它是如何工作的:

1. 核心架构:一个分工明确的“侦探小队”

LLandMark 不是一个单打独斗的机器人,而是一个多智能体(Multi-Agent)框架。你可以把它想象成一个侦探事务所,里面有不同的专家各司其职:

  • 策划侦探(Query Parsing Agent):

    • 作用: 当你输入问题,它先听你“说”什么,然后拆解任务。
    • 比喻: 就像侦探接到报案,先分析:“哦,客户要找‘还剑湖’,还要‘晚上’,还要‘椰子’。我们需要分头行动!”它制定一个搜索计划,决定先查文字、先查画面,还是先查声音。
  • 文化向导(Landmark Knowledge Agent):

    • 作用: 这是最厉害的部分。它懂越南的“地标”(比如还剑湖、圣若瑟主教座堂)。
    • 比喻: 普通系统只认识“还剑湖”这三个字。但这位向导会想:“客户说的‘还剑湖’,在视频里看起来是什么样?哦,是‘水面上有个塔,周围有树,晚上有灯光’。”
    • 魔法: 它把“还剑湖”这个抽象名字,翻译成具体的视觉描述(比如“水边的古塔”),这样电脑就能通过“看图”来搜索,而不是死记硬背名字。
  • OCR 校对员(OCR Refinement Module):

    • 作用: 视频里经常有字幕或路牌,但越南语有很多声调符号(像拼音上面的小帽子),普通识别容易认错。
    • 比喻: 就像是一个精通越南语的校对老师。它先用普通工具把字认出来,发现“河内”被认成了“河内(错字)”,然后利用大语言模型(Gemini)把声调符号补全,修正错别字,确保搜索时不会漏掉关键信息。
  • 图像搜索助手(LLM-Assisted Image-to-Image):

    • 作用: 如果你只说“找那个著名的教堂”,系统可能不知道长啥样。
    • 比喻: 这个助手会自动上网,先帮你搜几张“圣若瑟主教座堂”的参考照片,然后拿着这些照片去视频库里“对暗号”。它不再依赖文字,而是直接以图搜图,精准匹配长得像的画面。

2. 工作流程:一场精密的“接力赛”

当你要找一段视频时,LLandMark 会这样操作:

  1. 切分视频(预处理):
    视频太长,不能一帧帧看。系统像剪辑师一样,先把视频切成一个个小片段(Shot),只提取每个片段里最有代表性的几张“关键帧”图片。这大大减少了工作量。

  2. 多路并行搜索(同时开工):
    侦探小队分头行动,同时搜索三个数据库:

    • 视觉库: 用 AI 把图片变成“数学向量”(像给图片打指纹),找长得像的。
    • 文字库: 把视频里的字幕和语音转成文字,找关键词。
    • 物体库: 用 AI 识别画面里有没有“人”、“车”、“塔”等物体。
  3. 综合评分与合成(最终裁决):
    所有线索汇总到总指挥(Reranking Agent) 手里。它不会只听一家之言,而是把视觉相似度、文字匹配度、物体检测度加权平均。

    • 比喻: 就像法官判案,既看指纹(视觉),又看口供(文字),还看现场物证(物体),最后给出一个最可信的结论,并告诉你:“这段视频在第 3 分 20 秒,画面里确实有乌龟塔,而且背景音里有人在喊‘椰子’。”

3. 为什么它很厉害?(实验结果)

  • 懂文化: 以前的系统看到“圣若瑟主教座堂”可能一脸茫然,LLandMark 知道它长什么样,甚至知道它叫“双塔教堂”。
  • 懂越南语: 它特别针对越南语的声调进行了优化,能听懂并看懂越南语的视频内容。
  • 全自动: 以前找地标可能需要你手动上传一张照片,现在它自己会去网上找参考图,完全不用你动手。

在 2025 年胡志明市 AI 挑战赛(HCMAIC)中,LLandMark 在 680 多个参赛队伍中排名前 56,证明了它在处理这种复杂、多模态(图 + 文+音)任务时的强大能力。

总结

LLandMark 就像是一个懂越南文化、会看图说话、还能自动上网查资料的超级视频管家。它不再只是机械地匹配关键词,而是真正“理解”了你想要找的画面场景,让从海量视频中找证据变得像问路一样简单自然。