Each language version is independently generated for its own context, not a direct translation.
这篇论文介绍了一个名为 LLandMark 的智能系统,它的核心任务是:在海量视频中,根据复杂的描述,精准找到你想要的那一段画面。
想象一下,你手里有一部250GB 的超级视频库(相当于几千部电影连在一起),里面全是越南的新闻、纪录片和旅行视频。现在,你问它:“帮我找一段视频,画面里是河内还剑湖边的乌龟塔,而且是在晚上,旁边有人在卖椰子。”
普通的搜索系统可能会懵圈,因为它只认关键词,不懂“文化地标”,也分不清“晚上”和“椰子”在画面里的样子。而 LLandMark 就像是一个拥有超级大脑的“侦探团队”,专门解决这种难题。
下面我用几个生动的比喻来解释它是如何工作的:
1. 核心架构:一个分工明确的“侦探小队”
LLandMark 不是一个单打独斗的机器人,而是一个多智能体(Multi-Agent)框架。你可以把它想象成一个侦探事务所,里面有不同的专家各司其职:
策划侦探(Query Parsing Agent):
- 作用: 当你输入问题,它先听你“说”什么,然后拆解任务。
- 比喻: 就像侦探接到报案,先分析:“哦,客户要找‘还剑湖’,还要‘晚上’,还要‘椰子’。我们需要分头行动!”它制定一个搜索计划,决定先查文字、先查画面,还是先查声音。
文化向导(Landmark Knowledge Agent):
- 作用: 这是最厉害的部分。它懂越南的“地标”(比如还剑湖、圣若瑟主教座堂)。
- 比喻: 普通系统只认识“还剑湖”这三个字。但这位向导会想:“客户说的‘还剑湖’,在视频里看起来是什么样?哦,是‘水面上有个塔,周围有树,晚上有灯光’。”
- 魔法: 它把“还剑湖”这个抽象名字,翻译成具体的视觉描述(比如“水边的古塔”),这样电脑就能通过“看图”来搜索,而不是死记硬背名字。
OCR 校对员(OCR Refinement Module):
- 作用: 视频里经常有字幕或路牌,但越南语有很多声调符号(像拼音上面的小帽子),普通识别容易认错。
- 比喻: 就像是一个精通越南语的校对老师。它先用普通工具把字认出来,发现“河内”被认成了“河内(错字)”,然后利用大语言模型(Gemini)把声调符号补全,修正错别字,确保搜索时不会漏掉关键信息。
图像搜索助手(LLM-Assisted Image-to-Image):
- 作用: 如果你只说“找那个著名的教堂”,系统可能不知道长啥样。
- 比喻: 这个助手会自动上网,先帮你搜几张“圣若瑟主教座堂”的参考照片,然后拿着这些照片去视频库里“对暗号”。它不再依赖文字,而是直接以图搜图,精准匹配长得像的画面。
2. 工作流程:一场精密的“接力赛”
当你要找一段视频时,LLandMark 会这样操作:
切分视频(预处理):
视频太长,不能一帧帧看。系统像剪辑师一样,先把视频切成一个个小片段(Shot),只提取每个片段里最有代表性的几张“关键帧”图片。这大大减少了工作量。
多路并行搜索(同时开工):
侦探小队分头行动,同时搜索三个数据库:
- 视觉库: 用 AI 把图片变成“数学向量”(像给图片打指纹),找长得像的。
- 文字库: 把视频里的字幕和语音转成文字,找关键词。
- 物体库: 用 AI 识别画面里有没有“人”、“车”、“塔”等物体。
综合评分与合成(最终裁决):
所有线索汇总到总指挥(Reranking Agent) 手里。它不会只听一家之言,而是把视觉相似度、文字匹配度、物体检测度加权平均。
- 比喻: 就像法官判案,既看指纹(视觉),又看口供(文字),还看现场物证(物体),最后给出一个最可信的结论,并告诉你:“这段视频在第 3 分 20 秒,画面里确实有乌龟塔,而且背景音里有人在喊‘椰子’。”
3. 为什么它很厉害?(实验结果)
- 懂文化: 以前的系统看到“圣若瑟主教座堂”可能一脸茫然,LLandMark 知道它长什么样,甚至知道它叫“双塔教堂”。
- 懂越南语: 它特别针对越南语的声调进行了优化,能听懂并看懂越南语的视频内容。
- 全自动: 以前找地标可能需要你手动上传一张照片,现在它自己会去网上找参考图,完全不用你动手。
在 2025 年胡志明市 AI 挑战赛(HCMAIC)中,LLandMark 在 680 多个参赛队伍中排名前 56,证明了它在处理这种复杂、多模态(图 + 文+音)任务时的强大能力。
总结
LLandMark 就像是一个懂越南文化、会看图说话、还能自动上网查资料的超级视频管家。它不再只是机械地匹配关键词,而是真正“理解”了你想要找的画面场景,让从海量视频中找证据变得像问路一样简单自然。
Each language version is independently generated for its own context, not a direct translation.
LLandMark 论文技术总结
1. 研究背景与问题 (Problem)
随着视频数据规模和多样性的激增,现有的视频检索系统面临巨大挑战,特别是在处理多语言变体、噪声文本提取以及鲁棒的跨模态推理方面。
- 核心痛点:现有系统往往忽略了空间和文化背景,特别是针对越南语查询中的“地标推理”(Landmark Reasoning)。例如,查询“河内圣若瑟主教座堂前”或“靠近龟塔”时,系统难以将文本描述与视觉特征有效对齐。
- 现有局限:
- 基于代理(Agent)的框架(如 MAVEN)在规划和地标重述方面适应性有限。
- 纯 OCR 驱动的流程(如 DeepSolo + PARSeq)计算成本高且对越南语变音符号(diacritics)识别效果不佳。
- 基于 RAG 的融合方法在可扩展性上存在瓶颈。
- 大多数系统缺乏自主的地标图像检索能力,依赖人工输入图像。
2. 方法论 (Methodology)
LLandMark 是一个模块化的多智能体框架,专为适应性强、基于多模态且可解释的视频检索而设计。该系统在 HCMAIC 2025 挑战赛的 250GB 视频语料库上进行了验证。
2.1 核心架构:四阶段多智能体协作
框架包含四个紧密集成的智能体阶段:
- 查询解析与规划代理 (Query Parsing and Planning Agent):
- 分析用户意图(支持越南语/英语),构建结构化的
SearchPlan。
- 将语义查询翻译为描述性英语以匹配 CLIP 嵌入空间,同时保留越南语关键词用于精确匹配 ASR/OCR 索引。
- 自动检测地标实体,标记为后续增强处理。
- 地标知识增强代理 (Landmark Knowledge Agent):
- 利用越南地标知识库,将地标名称(如“圣若瑟主教座堂”)重述为详细的视觉描述提示(如“双方形钟楼、深灰色石头、哥特式建筑”)。
- 填补 CLIP 视觉嵌入空间中的语义鸿沟,使检索基于外观而非单纯的词汇匹配。
- 并行多模态搜索 (Parallel Multimodal Search):
- 语义搜索:使用描述性英文嵌入在 Milvus 中搜索相似关键帧。
- ASR/OCR 搜索:使用越南语关键词在 Elasticsearch 中检索语音或屏幕文本。
- 对象过滤:利用 YOLOv9-e 检测到的对象进行逻辑过滤(AND/OR)。
- 重排序与答案合成代理 (Reranking and Answer Agent):
- 通过加权平均公式融合多模态得分。
- 将结果输入多模态 LLM,生成基于证据的自然语言答案,并引用具体视频帧。
2.2 关键技术模块
- LLM 辅助的图像到图像检索 (LLM-Assisted Image-to-Image Retrieval):
- 自动化流程:无需人工上传图片。系统自动检测查询中的地标 -> 生成优化后的网络图像搜索查询 -> 调用 Google Custom Search API 获取代表性参考图像 -> 使用 CLIP 编码参考图像并与视频关键帧进行相似度匹配。
- 优势:解决了文本查询的歧义性,实现了基于真实视觉参考的文化感知检索。
- OCR 优化模块 (OCR Refinement Module):
- 流程:PaddleOCR 提取文本 -> 归一化处理 -> Gemini 2.5 Flash + LlamaIndex 进行后处理。
- 功能:自动重建越南语变音符号,纠正拼写错误,去除 OCR 噪声,显著提升越南语文本质量,便于下游检索。
- 基础数据处理:
- 使用 TransNetV2 将视频分割为镜头(Shots),并基于百分位算法提取关键帧(每镜头最多 3 帧),避免全帧处理的高昂成本。
- 使用 WhisperX 进行语音识别,YOLOv9-e 进行对象检测。
3. 主要贡献 (Key Contributions)
- LLandMark 架构:提出了一种模块化的多智能体架构,实现了查询规划、地标推理和多模态重排序的协同工作。
- 基于 Gemini 的 OCR 优化:构建了混合 OCR 修正管道,结合 PaddleOCR 和基于 LlamaIndex 的 Gemini 后处理,显著提升了越南语文本识别的准确性。
- LLM 辅助的地标图像检索:开发了全自动管道,能够检测地标、检索网络参考图像并执行基于 CLIP 的相似度匹配,实现了无需人工干预的文化感知检索。
4. 实验结果 (Experimental Results)
- 评估基准:HCMAIC 2025 挑战赛(250GB 视频数据),包含三个任务:基于文本的关键信息搜索 (KIS)、视觉问答 (QA)、时间推理与关键帧提取 (TRAKE)。
- 量化表现:
- 在资格赛轮次中,LLandMark 获得了 77.40 的总分(满分 88),在 680 多支参赛队伍中排名前 56 名,成功进入官方资格赛。
- 在三个轮次中均表现出稳健的性能,特别是在处理复杂的地标和时间推理任务时。
- 定性分析:
- 地标查询:在“白藤码头夜景”和“滨城市场”等查询中,传统的基于嵌入的搜索(Embedding-based)或基础 CLIP 模型无法准确识别地标,导致检索失败或返回无关结果。
- LLandMark 优势:通过地标知识重述和图像到图像检索,成功识别了特定地标并返回了正确的视频片段,证明了其在处理越南语文化语境下的优越性。
5. 意义与影响 (Significance)
- 文化感知检索:该框架首次系统地解决了越南语视频检索中因缺乏文化/空间背景理解而导致的检索失败问题,为多语言环境下的视频检索提供了新范式。
- 可解释性与透明度:通过多智能体协作和可视化界面(展示查询重写、搜索计划、证据链),系统不仅提供结果,还解释了“为什么”检索到该结果,增强了用户信任。
- 技术融合创新:成功将大语言模型(LLM)的推理能力(用于地标重述、OCR 修正、图像检索规划)与传统的多模态检索技术(CLIP, OCR, ASR)深度融合,展示了结构化检索规划在复杂任务中的巨大潜力。
- 实际应用价值:为大规模视频档案(如新闻、纪录片)的自动化检索提供了高效、可扩展的解决方案,特别适用于需要高精度文化背景理解的场景。