Harvest Video Foundation Models via Efficient Post-Pretraining

该论文提出了一种通过随机丢弃视频块和掩码文本进行后预训练的简单高效框架,仅需 WebVid-10M 数据和不到一天的时间即可从图像模型高效迁移出在多项视频语言任务上达到顶尖性能的视频基础模型。

Yizhuo Li, Kunchang Li, Yinan He, Yi Wang, Yali Wang, Limin Wang, Yu Qiao, Ping Luo

发布于 2026-03-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种非常聪明且“省钱省力”的方法,用来制造视频理解 AI 模型

为了让你轻松理解,我们可以把这件事想象成**“如何快速培养一个懂视频的超级实习生”**。

1. 背景:为什么现在的做法太“烧钱”了?

想象一下,你想教一个 AI 看懂视频。

  • 传统做法:就像让实习生去读一本厚厚的书,而且这本书里的每一页(视频的每一帧)都要逐字逐句地读。视频通常很长,帧与帧之间有很多重复的画面(比如一个人站着不动,连续 10 帧画面几乎一样)。
  • 痛点
    1. 太慢太贵:处理视频比处理图片要难得多,因为数据量巨大,计算成本极高。
    2. 好教材太少:网上有很多“图片 + 文字”的配对数据(比如 LAION),但高质量的“视频 + 文字”配对数据非常少。
    3. 资源浪费:很多视频帧是冗余的,全读一遍纯属浪费算力。

2. 核心创意:从“图片专家”变身“视频专家”

这篇论文的作者们想:“既然教一个 AI 从零开始学视频太难太贵,那能不能直接找一个已经精通图片的 AI 专家(比如著名的 CLIP 模型),让他稍微进修一下,变成视频专家呢?”

这就好比:你有一个精通静态照片的摄影师,你想让他转行拍电影。你不需要让他重新学怎么拿相机,只需要教他怎么理解“时间”和“动作”就行了。

3. 他们的“独门秘籍”:两个简单的魔法

作者提出了一个名为**“高效后预训练” (Efficient Post-Pretraining)** 的框架,主要用了两个简单的招数:

招数一:视频“断章取义” (Video Patch Dropping)

  • 做法:在训练时,他们随机把视频里的很多画面块(Patches)直接扔掉不看。比如,一个视频本来有 100 个画面块,他们只让 AI 看其中 10 个,剩下的 90 个直接忽略。
  • 比喻:就像让你读一本长篇小说,为了节省时间,你只读每章的开头和结尾,或者随机挑几页读
  • 为什么有效
    1. 极速:因为少看了 90% 的内容,训练速度飞快,显卡(GPU)的负担大大减轻。
    2. 去重:视频里本来就有大量重复画面,扔掉一些反而让 AI 更关注关键信息,不会在重复内容上浪费时间。
    • 注:作者特意叫它“丢弃 (Dropping)"而不是“掩码 (Masking)",因为被扔掉的部分不需要AI 去猜回去,直接无视即可。

招数二:文字“挖空填空” (Text Masking)

  • 做法:在输入给 AI 的文字描述中,随机把一些词遮住(比如把“熊猫竹子”变成“熊猫**[遮挡]**竹子”),然后让 AI 根据视频画面,猜出被遮住的字是什么。
  • 比喻:就像玩**“看图猜词”**的游戏。AI 必须仔细观察视频里的动作,才能猜出文字里缺了什么。
  • 为什么有效:这强迫 AI 必须把**眼睛(看视频)嘴巴(理解文字)**紧密结合起来,而不是各干各的。这让 AI 真正学会了“图文融合”。

4. 惊人的效果:快、省、强

  • 速度极快:传统的大视频模型训练可能需要几百张显卡跑好几天。而他们的模型,只需要 8 张显卡,不到 1 天就能训练完成。
  • 数据很少:他们只用了一个叫 WebVid-10M 的数据集(约 1000 万条数据),而很多竞品用了上亿条数据。
  • 成绩顶尖:尽管方法简单、时间短、数据少,但这个模型在视频问答(比如问“视频里的人在做什么?”)、视频搜索(搜视频)等任务上,表现竟然和那些花费巨资、耗时数月训练出来的“超级模型”不相上下,甚至更好!

5. 为什么能成功?(作者的洞察)

作者发现了一个有趣的现象:

  • 图片模型底子好:现在的图片 AI(如 CLIP)已经非常强大了,它们对视觉的理解已经足够好。
  • 视频数据其实很“水”:现有的视频 - 文字数据集,文字描述往往太简单,并没有充分利用视频的时间信息。
  • 结论:与其花大价钱去训练一个全新的视频大脑,不如**“榨取”现有图片大脑的潜力**,用低成本的方法(丢弃冗余画面、做文字填空)稍微点拨一下,它就能成为视频专家。

总结

这篇论文就像是在说:“别总想着造新引擎了,把现有的好引擎稍微调校一下,加个涡轮增压(丢弃冗余),再换个高级变速箱(文字填空),就能跑得飞快,还省油!”

这种方法不仅让 AI 研究变得更便宜、更环保(减少碳排放),也让小团队甚至个人开发者有机会用上强大的视频 AI 模型,不再被大公司的巨额算力垄断。