Beyond Caption-Based Queries for Video Moment Retrieval

本文针对现有视频片段检索方法在从描述性查询迁移至搜索性查询时性能下降的问题,揭示了语言不精确性和多片段查询带来的泛化挑战,并通过识别及缓解解码器查询坍缩现象,提出了一种架构改进方案,显著提升了模型在搜索查询及多片段场景下的检索性能。

David Pujol-Perich, Albert Clapés, Dima Damen, Sergio Escalera, Michael Wray

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个视频搜索领域非常有趣且实际的问题:为什么现在的视频搜索模型,在实验室里表现很好,但一旦让普通用户来用,效果就大打折扣?

为了让你更容易理解,我们可以把这项研究想象成在**“训练一个超级图书管理员”**。

1. 核心问题:图书管理员的“过度训练”

想象一下,你正在训练一个图书管理员(也就是现在的视频检索模型),教他如何根据描述找到书(视频片段)。

  • 目前的训练方式(基于“字幕”的查询):
    你的训练员(标注人员)会先看完一本书,然后写下一段极其详细、面面俱到的笔记。

    • 例子: “一个穿着黄色球衣的男人,在禁区附近拦截了对方球队的一个传球,并踢进了一个有力的凌空抽射。”
    • 图书管理员背下了这些笔记。当有人问“那个穿黄衣的男人进球了吗?”时,他能精准地找到那一页。
  • 现实中的用户提问(基于“搜索”的查询):
    但在现实生活中,普通用户(比如你)根本没时间看完视频,也不会记得那么细。你只会问一些模糊、笼统的问题。

    • 例子: “什么时候进球了?”或者“有人踢球吗?”
    • 这时候,图书管理员就懵了。因为他只背过“穿黄衣男人”这种细节,没背过“进球”这种大概念。他找不到书,或者找错了地方。

论文指出的问题: 现有的模型就像这个只背过“详细笔记”的管理员。它们被训练得太“死板”了,只认识那些描述得非常具体的句子,一旦遇到用户那种“模糊、简略”的搜索词,就彻底失效了。

2. 两个主要的“拦路虎”

研究人员发现,导致这种“水土不服”的原因主要有两个:

A. 语言鸿沟(Language Gap)

  • 比喻: 就像你教一个外国人学中文,只教他“把红色的苹果放在蓝色的桌子上”这种具体句子。结果他出门买菜时,别人问“我要买水果”,他就听不懂了。
  • 解释: 训练数据里的句子太具体(有颜色、有动作细节),而用户搜索的词太抽象(只有核心动作)。模型听不懂这种“简化版”的语言。

B. 多时刻鸿沟(Multi-moment Gap)—— 这是论文发现的最关键问题

  • 比喻: 想象图书馆里,训练员告诉管理员:“当有人问‘进球’时,只给他看第 5 页那一本书。”
    • 但在现实视频中,一个“进球”的动作可能发生了5 次(第 5 页、第 20 页、第 45 页...)。
    • 因为训练时只给看一次,管理员就形成了一种**“强迫症”**:他认为每次提问,答案只能有一个。
    • 当用户问“什么时候进球了?”,管理员只敢指一个地方,完全不敢把其他 4 个进球的地方也指出来。

3. 模型的“自我设限”:为什么它不敢多找?

论文深入挖掘了模型内部(基于 DETR 架构)发生了什么,发现了一个叫**“解码器查询崩溃”(Decoder Query Collapse)**的现象。

  • 比喻: 想象模型里有 100 个“侦探”(解码器查询),负责在视频里找线索。
    • 在训练时,因为每次只给一个目标(比如只找一个进球),这 100 个侦探就**“内卷”了。他们互相商量:“别争了,反正只有一个目标,我们让侦探 A侦探 B**去干,其他人都在旁边睡觉吧。”
    • 结果就是,只有极少数侦探在干活,其他 90 多个侦探都“休眠”了。
    • 当用户问“找出所有进球”(可能有 5 个)时,只有 2 个侦探在干活,根本找不全,剩下的 3 个进球就被漏掉了。

4. 解决方案:给侦探们“松绑”

为了解决这个问题,作者没有去重新收集成千上万条模糊的搜索数据(那太贵太慢了),而是直接修改了侦探们的“工作规则”(模型架构):

  1. 去掉“互相商量”的环节(移除自注意力机制):
    • 以前侦探们会互相沟通,导致大家觉得“反正只有一个目标,别抢了”。现在禁止他们互相沟通,强迫每个侦探都独立工作,去发现线索。
  2. 随机“点名”(查询 Dropout):
    • 在训练时,随机把一部分侦探“关进小黑屋”(暂时屏蔽),强迫剩下的侦探必须动起来,不能偷懒。
    • 这就像教练在训练时随机说:“今天 A 和 B 休息,C、D、E 你们必须全上!”久而久之,所有侦探都学会了独立工作,不再依赖特定的几个人。

5. 成果:让模型更懂“人话”

经过这些修改,模型发生了神奇的变化:

  • 侦探变多了: 激活的“侦探”数量从原来的几个,变成了十几个甚至更多。
  • 找全了: 当用户问“什么时候进球”时,模型能一次性把视频里所有的进球片段都找出来,而不是只找一个。
  • 效果提升: 在模拟真实用户搜索的测试中,模型的表现提升了14% 到 21%。这意味着它终于能听懂普通人的“模糊搜索”了。

总结

这篇论文就像是在说:

“我们之前的视频搜索模型,就像是一个只会背课文的优等生,遇到稍微变通一点的题目就挂科。我们不需要重新教他背课文(重新标注数据),只需要改变他的思维方式,让他学会独立思考全面搜索,他就能真正帮到普通用户了。”

这项研究让 AI 视频搜索从“实验室里的精密仪器”,真正变成了“生活中好用的工具”。