HERO: Hierarchical Embedding-Refinement for Open-Vocabulary Temporal Sentence Grounding in Videos

本文提出了开放词汇视频时序句子定位(OV-TSGV)任务及首个专用基准,并设计了名为 HERO 的统一框架,通过分层语言嵌入和并行跨模态细化机制,显著提升了模型在未见词汇和多样化表达下的泛化能力。

Tingting Han, Xinsong Tao, Yufei Yin, Min Tan, Sicheng Zhao, Zhou Yu

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 HERO 的新系统,它解决了一个视频理解领域的“大难题”:当视频里的描述词是你从未见过的,或者换了一种说法,电脑还能不能准确找到对应的视频片段?

为了让你轻松理解,我们可以把这项技术想象成**“寻找视频中的宝藏”**。

1. 以前的“寻宝”游戏(旧方法)

想象一下,你以前玩过一个寻宝游戏。规则是:

  • 训练时:你拿着地图(训练数据),上面写着“找那个拿着红苹果的人"。你练了成千上万次,每次看到“拿着红苹果的人”,你都能立刻指出来。
  • 考试时:考官突然给你一张新地图,上面写着“找那个握着红水果的人"。
  • 结果:以前的电脑(旧模型)会傻掉。因为它只背过“苹果”这个词,没背过“水果”;只背过“拿着”,没背过“握着”。它可能会因为词汇变了就找不到人,或者胡乱指一个地方。

这就是论文里说的**“封闭词汇”**问题:电脑太死板,只认识训练时见过的词,换个说法就“晕”了。

2. HERO 的“超能力”(新方法)

这篇论文提出了一个新的任务叫 OV-TSGV(开放词汇视频句子定位),并发明了 HERO 系统来解决这个问题。

HERO 不像以前的电脑那样死记硬背,它学会了**“举一反三”“去粗取精”**。它的核心思想可以比喻为两个步骤:

第一步:像“翻译官”一样理解多层含义(分层嵌入模块 HEM)

以前的电脑看句子像看字典,一个字一个字查。
HERO 则像一位经验丰富的翻译官,它把一句话拆解成不同层次:

  • 表层:它看到“拿着红苹果”。
  • 深层:它理解这是“一个人手里有物体”。
  • 抽象层:它甚至能联想到“人类在进行某种动作”。

比喻:就像你看到“那个穿蓝衣服的大叔”和“那个穿蓝色衬衫的壮汉”,虽然词不一样,但 HERO 知道它们指的都是同一种人。它不再纠结于具体的词,而是抓住了**“意思”**。

第二步:像“侦探”一样过滤干扰(跨模态过滤与精炼引擎 CFRE)

视频里通常有很多无关的东西(比如背景里的路人、乱飞的鸟)。当描述词变了,旧电脑容易把背景里的东西也当成目标。
HERO 有两个“侦探助手”同时工作:

  1. 视觉过滤器(SGVF)

    • 作用:它拿着文字描述(比如“找那个拿盒子的人”),在视频里只盯着和“盒子”有关的地方看,把背景里的“猫”、“树”、“桌子”统统屏蔽掉。
    • 比喻:就像你在嘈杂的派对上,只盯着那个拿着特定饮料的人,自动忽略周围的其他声音。
  2. 文本精炼器(CMTR)

    • 作用:它故意把文字描述里的词“遮住”一部分(比如把“拿盒子”变成“拿__"),然后强迫电脑去猜剩下的部分,并对比两种情况下的理解是否一致。
    • 比喻:就像老师故意把题目里的关键词盖住,让学生猜:“不管题目怎么变,核心意思是不是还是那个?”这训练了电脑在词汇缺失或变化时依然能保持稳定的理解力。

3. 他们做了什么新工作?(基准测试)

为了证明 HERO 真的厉害,作者没有用老掉牙的旧数据,而是自己造了两个新考场:

  • Charades-OVActivityNet-OV
  • 怎么玩:他们把训练时的“苹果”全部偷偷换成了“水果”,把“跑”换成了“奔跑”,把“人”换成了“人类”。
  • 结果:以前的电脑在这些新考场上考得一塌糊涂(因为词汇变了),而 HERO 却考出了第一名

4. 总结:这有什么用?

简单来说,这篇论文让电脑变得更聪明、更灵活了。

  • 以前:如果你问视频里“那个穿红裙子的女孩在跳舞”,电脑能找到。但如果你问“那个穿红色连衣裙的姑娘在跳芭蕾”,电脑可能就找不到了。
  • 现在(HERO):无论你用多么生僻的词,或者怎么换着花样描述,只要意思对,它都能精准地在视频里找到那一瞬间。

一句话概括
HERO 就像给视频搜索系统装上了**“理解力”而不是死记硬背的“记忆力”**,让它能听懂人类千变万化的语言,在茫茫视频大海中精准定位你想知道的那一段。