VDCook:DIY video data cook your MLLMs

本文介绍了 VDCook,一个基于自然语言查询和 MCP 协议实现自动检索与合成、支持持续演进与多维元数据标注的自进化视频数据操作系统,旨在降低构建垂直领域多模态大模型训练数据集的门槛。

Chengwei Wu

发布于 Mon, 09 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 VDCook 的创新系统。为了让你轻松理解,我们可以把构建 AI 视频数据集的过程,想象成开一家“智能视频餐厅”

以前,大家做 AI 训练数据就像去超市买预制菜

  • 缺点:你买到的菜(数据集)是固定的,厨师(研究人员)不能改口味。如果你想要“少盐”或者“加辣”(针对特定领域的数据),你只能去别的超市重新买,或者自己从头洗菜切菜,非常麻烦且昂贵。
  • 现状:现有的视频数据要么太大处理不了,要么太泛泛(什么都有但都不精),要么一旦发布就“死”了,无法更新。

VDCook 是什么
VDCook 不是卖预制菜的,它是一台全自动的“智能烹饪机器人” + “动态生态厨房”。它让研究人员可以像点菜一样,用自然语言告诉它:“我要做一道‘中国水墨画风格’的视频大餐,要 100 万份,其中 30% 是真实素材,70% 是 AI 生成的,只要高清的。”

然后,VDCook 就会自动开始“烹饪”。

VDCook 是如何“烹饪”的?(核心流程)

我们可以把它的运作分为四个步骤:

1. 采购食材(多源数据获取)

  • 传统做法:去固定的菜市场(公开数据集)搬一堆菜回来。
  • VDCook 做法:它有两个采购渠道。
    • 自动爬虫(MCP 协议):像派出了无数个“采购员”在互联网上 24 小时不停地找最新、最符合你要求的视频素材。
    • 用户自带:你也可以把自己私有的视频(比如自家工厂的监控、医院的片子)扔进厨房,系统会统一处理。
    • 特点:食材是活的,可以源源不断地补充,不像以前那样是一次性的。

2. 备菜与贴标签(元数据增强)

这是 VDCook 最聪明的地方。

  • 传统做法:在洗菜时就粗暴地把“不新鲜的”(不符合条件的)直接扔掉。
  • VDCook 做法“先贴标签,后决定去留”
    它把每一段视频都仔细检查,贴上各种详细的“营养标签”:
    • 这段视频里有多少文字?(OCR 识别)
    • 动作快还是慢?(运动评分)
    • 画面美不美?(美学评分)
    • 有没有人脸?(姿态识别)
    • 关键点:它不轻易扔掉任何视频,而是把这些标签存起来。这样,当你后来想要“动作慢但文字多”的视频时,它可以直接从标签库里精准调取,而不用重新洗菜。

3. 烹饪与合成(检索 + 生成)

  • 检索:根据你的“菜谱”(自然语言指令),从海量食材中挑出最合适的片段。
  • 合成(炒菜):如果真实的食材不够(比如“水墨画风格”的视频很少),VDCook 会请AI 大厨(生成式模型)帮忙。它会基于真实的视频片段,通过 AI 生成新的、符合要求的视频。
  • 长尾放大:对于现实中很难拍到的罕见场景(比如“洪水淹没街道”或“罕见病手术”),AI 可以基于少量真实样本,“无中生有”地合成大量高质量数据,填补空白。

4. 试吃与反馈(评估与进化)

  • 做好的“菜”(数据集)并不是直接端上桌,而是先让几个“试吃员”(基准模型)尝尝。
  • 如果模型在某个任务上表现不好,系统就知道“火候”不对,会自动调整参数,重新烹饪,甚至把新合成的数据再喂回去,形成一个自我进化的闭环

这个系统有什么厉害之处?

  1. 按需定制:你想做“自动驾驶”的数据集,它给你切出全是雨天、夜晚、拥堵路段的视频;你想做“中医教学”,它给你切出全是把脉、针灸的视频。
  2. 持续进化:以前的数据集发出来就定型了。VDCook 像一个活着的生态系统,随着互联网上新视频的出现,或者 AI 模型能力的提升,它会自动更新和扩充数据。
  3. 降低门槛:以前只有大公司有资源建数据集,现在普通研究者只要会“点菜”(写提示词),就能拥有专属的高质量视频数据。

实际效果如何?(论文中的例子)

论文展示了几个“招牌菜”:

  • 长尾风险场景:比如“城市内涝”、“工地翻斗车”、“路面积雪”。这些在普通视频里很少见,但对安全很重要,VDCook 能专门把它们“炒”出来。
  • 中国水墨画风格:这是一个非常艺术且稀缺的领域。VDCook 收集了少量真实素材,结合 AI 生成,做成了一个巨大的水墨风格数据集。
  • 验证实验:研究人员用这个数据集微调了一个视频生成模型。结果发现,微调后的模型生成的视频,笔触更像水墨画,不再像普通的照片,证明了这套“烹饪”方法非常有效。

总结

VDCook 就是把“做数据集”从“买罐头”变成了“开自助餐厅”

它不再是一次性交付的静态产品,而是一个可配置、可进化、可复现的基础设施。它让研究人员可以像大厨一样,根据需求灵活地“烹饪”出最适合自己 AI 模型的视频数据,极大地降低了多模态 AI 研究的门槛。