SAIL: Similarity-Aware Guidance and Inter-Caption Augmentation-based Learning for Weakly-Supervised Dense Video Captioning

本文提出了 SAIL 框架,通过跨模态对齐构建语义感知掩码以优化弱监督稠密视频描述中的事件定位,并引入基于大语言模型的跨掩码增强策略生成合成 caption 以缓解标注稀疏问题,从而在 ActivityNet Captions 和 YouCook2 数据集上实现了最先进的性能。

Ye-Chan Kim, SeungJu Cha, Si-Woo Kim, Minju Jeon, Hyungee Kim, Dong-Jin Kim

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 SAIL 的新方法,旨在解决一个非常有趣但也很难的计算机视觉问题:“弱监督稠密视频描述”

为了让你轻松理解,我们可以把这项技术想象成教一个“只会看热闹”的 AI 学会“看门道”并写日记

1. 核心问题:AI 以前是怎么“瞎猜”的?

想象你给 AI 看一段长达 10 分钟的视频(比如一个小孩在健身球上玩耍),并告诉它:“这段视频里有几个精彩瞬间,请把它们找出来,并给每个瞬间写一句话描述。”

但是,你没有告诉 AI 这些瞬间具体是从第几秒开始、到第几秒结束(这就是“弱监督”,只有文字描述,没有时间边界)。

  • 以前的做法(像 ILCACM 模型):
    以前的 AI 就像是一个只会切蛋糕的机器人。它拿到视频后,不管蛋糕里是奶油还是水果,它都机械地把视频切成几块大小差不多的“时间片”。
    • 比如视频 100 秒,有 3 个事件,它就切出 3 个 33 秒的片段。
    • 缺点: 它根本不在乎切出来的片段里到底发生了什么。可能第一个事件只持续了 5 秒,但它硬塞了 33 秒进去,导致它把无关的画面(比如背景里的路人)也当成了事件的一部分。结果就是:它写的描述很笼统,找的时间点也不准。

2. SAIL 的两大绝招

SAIL 方法(作者来自韩国汉阳大学)给这个 AI 装上了两样“超能力”,让它不再瞎切蛋糕,而是能精准切出最美味的那一块

绝招一:像“磁铁”一样寻找相似性(Similarity-Aware Guidance)

  • 比喻: 想象每个事件描述(比如“小孩在球上摔倒”)都是一块磁铁
  • 以前的 AI: 只是随机切一段视频,然后硬说“这就是摔倒”。
  • SAIL 的做法: 它利用了一个强大的“翻译官”(CLIP 模型),能瞬间理解视频画面和文字描述之间的相似度
    • 当 AI 看到“小孩在球上摔倒”这个文字描述时,它会像磁铁吸铁屑一样,把注意力紧紧吸附在视频里真正发生“摔倒”的那几秒画面上。
    • 如果画面里是“小孩在球上睡觉”,磁铁就吸不住,AI 就会知道“切错了,这里不是我要找的地方”。
    • 结果: AI 生成的“时间切片”不再是均匀的死板方块,而是根据内容自动伸缩的智能气泡,紧紧包裹住真正的事件。

绝招二:请“大作家”来补全故事(LLM-Based Augmentation)

  • 痛点: 现实中的视频数据集往往很“吝啬”。比如一段 5 分钟的视频,人工只标注了 2 个事件,中间大段的空白时间(比如小孩从球上站起来、调整姿势的过程)完全没人管。这就像只给了你故事的开头和结尾,让你猜中间发生了什么,AI 很容易猜错。
  • SAIL 的做法: 它请来了一个超级大作家(LLM,大语言模型)
    • 操作: 当 AI 看到标注好的“事件 A"和“事件 B"时,它会问大作家:“嘿,在 A 和 B 之间,最可能发生什么过渡动作?”
    • 大作家的回答: 大作家会根据上下文,编造出合理的“中间事件”(比如“小孩试图坐稳但球滚走了”)。
    • 作用: 这些由大作家生成的“合成描述”就像路标,填补了视频中的空白。虽然这些路标是 AI 编的,但它们提供了更密集的线索,帮助主 AI 更精准地定位时间边界,就像在黑暗中多开了几盏灯。

3. 最终效果:从“切蛋糕”到“精雕细琢”

通过结合这两招,SAIL 取得了惊人的效果:

  1. 更准的定位: 它不再把整个视频切成均等的几块,而是能精准地框出事件发生的起止时间(比如精准框出“摔倒”的那 3 秒,而不是包含前后无关的 10 秒)。
  2. 更好的描述: 因为它看对了地方,所以写出来的描述也更生动、更准确。
  3. 省钱省力: 以前需要人工精确标注每一秒的起止时间(非常昂贵且累人),现在只需要给文字描述,AI 就能自己学会找时间边界,甚至能利用大语言模型“脑补”出缺失的中间环节。

总结

这就好比:

  • 以前的 AI 是个死板的剪辑师,不管内容如何,一律平均切分,导致剪出来的片子乱七八糟。
  • SAIL 是个懂内容的智能剪辑师
    1. 它手里有磁铁(相似性引导),能自动吸住视频里真正精彩的部分。
    2. 它有个编剧助手(LLM),能帮它把故事里缺失的中间环节补上,让整条时间线更连贯。

最终,SAIL 在两个著名的视频数据集(ActivityNet 和 YouCook2)上,打败了所有之前的“弱监督”方法,甚至超过了一些需要大量人工标注的“全监督”方法,成为了目前的最强选手(State-of-the-Art)