Kaleido: Open-Sourced Multi-Subject Reference Video Generation Model

本文提出了 Kaleido,一种通过构建高质量一致性训练数据并引入参考旋转位置编码(R-RoPE)机制,从而显著提升多参考图像条件下主体一致性与背景解耦能力的开源多主体参考视频生成模型。

Zhenxing Zhang, Jiayan Teng, Zhuoyi Yang, Tiankun Cao, Cheng Wang, Xiaotao Gu, Jie Tang, Dan Guo, Meng Wang

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Kaleido(万花筒) 的新 AI 模型,它的核心任务是:给你几张参考图(比如一张照片、一个玩偶、或者一个场景),然后让 AI 根据这些图生成一段连贯的视频。

为了让你更轻松地理解这项技术,我们可以把视频生成想象成**“拍电影”,而 Kaleido 就是那个超级导演**。

1. 以前的“导演”遇到了什么麻烦?

在 Kaleido 出现之前,现有的 AI 导演在拍这种“参考图转视频”的电影时,经常犯两个大错误:

  • 错误一:记性太差,容易“串戏”(多主体一致性差)。
    想象一下,你给导演看了一张“穿红衣服的女孩”和一张“拿蓝气球的小狗”的照片,让他拍一段他们互动的视频。
    以前的 AI 导演可能会拍着拍着,把女孩的衣服变成蓝色的,或者让小狗突然长出了翅膀,甚至把两个角色搞混了。它记不住每个角色的“人设”。
  • 错误二:背景太乱,无法“换景”(背景解耦失败)。
    如果你给导演看一张“女孩在公园长椅上”的照片,让他拍一段女孩在“海边”的视频。
    以前的 AI 导演往往会把公园的长椅、后面的树木也一起搬到了海边。它分不清哪些是“主角”,哪些是“背景板”,导致生成的视频里主角和背景粘在一起,怎么甩都甩不掉。

为什么会这样?
论文指出,主要原因有两个:

  1. 教材太烂: 以前用来训练 AI 的数据,很多是直接从视频里截取的。AI 学的时候,以为“主角”和“背景”是天生绑定的,学不会把主角从背景里“抠”出来。
  2. 沟通方式不对: 以前给 AI 看多张参考图时,就像把一堆照片胡乱堆在桌子上,AI 容易搞混哪张图对应哪个角色,导致“张冠李戴”。

2. Kaleido 的两大“独门秘籍”

为了解决这些问题,Kaleido 团队搞了两套绝招:

秘籍一:重新编写“教材”(数据构建流水线)

他们不再直接拿原始视频当教材,而是像**“精修照片”**一样重新加工数据:

  • 人工(AI)抠图: 他们利用先进的工具,把视频里的“主角”和“背景”强行分开。
  • 乱序重组(交叉配对): 这是最精彩的一步!他们把“穿红衣服的女孩”从“公园”里抠出来,强行放到“海边”、“沙漠”甚至“太空”的背景里,然后告诉 AI:“看,这是同一个女孩,只是换了个地方。”
  • 效果: 这样训练出来的 AI 导演,彻底明白了“主角是主角,背景是背景”。无论背景怎么变,主角的样子(衣服、长相)都能保持得死死的。

秘籍二:给照片贴“专属标签”(R-RoPE 技术)

以前给 AI 看多张参考图,就像把几张照片混在一起扔给 AI,AI 容易晕。
Kaleido 发明了一种叫 R-RoPE(参考旋转位置编码) 的技术。

  • 比喻: 想象你在给一群演员(参考图)发**“座位号”**。
    • 视频里的每一帧画面,座位号是 时间 - 行 - 列(比如第 1 秒,第 2 排,第 3 座)。
    • 而 Kaleido 给参考图(照片)发的座位号是**“特殊区”的。它给照片的座位号加了一个巨大的“偏移量”,就像把照片安排在了一个独立的 VIP 包厢**里,和视频画面的座位完全隔开。
  • 效果: 这样 AI 导演一眼就能分清:“哦,这是参考图(VIP 包厢里的),那是正在演的视频(普通座位)。”它再也不会把参考图里的背景误认为是视频里的背景,也不会把两个不同的角色搞混。

3. 效果怎么样?

Kaleido 现在的表现非常惊人,甚至超过了目前市面上很多昂贵的闭源商业模型(比如 Vidu、Kling 等):

  • 主角更稳: 无论是真人、玩偶还是卡通人物,在视频里动起来时,长相和衣服几乎不会变样。
  • 背景更纯: 你可以让同一个玩偶在卧室、森林、火星之间无缝切换,背景完全由文字指令控制,不会残留原图里的杂物。
  • 多角色和谐: 即使视频里同时有“女孩”和“小狗”,它们也能各归其位,互不干扰。

总结

简单来说,Kaleido 就像是一个拥有“超级记忆力”和“超强抠图能力”的 AI 导演。

它通过**“把主角和背景强行拆分开来学习”(数据清洗),以及“给参考图贴上特殊的 VIP 标签”**(R-RoPE 技术),成功解决了以前 AI 拍视频时“记不住人”和“带错背景”的毛病。

现在,这个模型已经开源了,意味着任何人都可以使用它来创作高质量、角色一致的视频,让普通人也能像拍大片一样,轻松把照片变成生动的故事。