Uni-Animator: Towards Unified Visual Colorization

本文提出了基于扩散变换器(DiT)的 Uni-Animator 框架,通过实例块嵌入增强视觉参考、物理特征强化细节保留以及基于草图的动态 RoPE 编码提升时序一致性,成功实现了图像与视频草图着色任务的统一,在保持高保真细节和鲁棒时序连贯性的同时达到了与专用方法相当的性能。

Xinyuan Chen, Yao Xu, Shaowen Wang, Pengjie Song, Bowen Deng

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

想象一下,你手里有一本黑白漫画书,或者一段只有线条的动画草图。你想给它们上色,让它们变得像迪士尼电影里那样色彩斑斓。

以前,这活儿得靠画师一笔一笔地涂,既累人又容易出错。现在的 AI 虽然能帮忙,但往往“顾头不顾尾”:给图片上色还行,一给视频上色,人物动起来颜色就乱跳,或者把金属的光泽涂成了哑光,把衣服的纹理涂得糊成一团。

这篇论文提出的 Uni-Animator,就像是一位超级全能且懂艺术的“数字上色大师”。它不仅能同时搞定图片和视频,还能完美解决以前 AI 遇到的三大“顽疾”。

我们可以用三个生动的比喻来理解它的核心魔法:

1. 它是“超级色卡管理员”(视觉参考增强)

以前的 AI:就像让一个画家看一张参考图,然后让他凭记忆给整幅画上色。结果往往是“大概像”,但细节全丢了,比如参考图里衣服是深红色的,画出来却变成了浅粉色,或者把角色的头发涂错了颜色。

Uni-Animator 的做法:它不再只看整张图,而是像把参考图切成了无数个小拼图块(Patch)

  • 它拿着放大镜,仔细研究每一个小方块里的颜色、纹理和光影。
  • 然后,它把这些“小色块”精准地对应到草图的每一个局部。
  • 效果:不管参考图里有多少个角色,或者你想换哪个角色的衣服颜色,它都能像拼乐高一样,把正确的颜色严丝合缝地拼到正确的位置,绝不串味。

2. 它是“细节雕刻师”(物理细节增强)

以前的 AI:就像用一台低像素的复印机去复印一张高清照片。复印出来的东西虽然轮廓还在,但那些金属的反光、布料的褶皱、发丝的质感这些“高频细节”全被磨平了,看起来像塑料做的,没有真实感。

Uni-Animator 的做法:它请来了一位懂物理结构的“雕刻师”(DINO 模型)

  • 这个雕刻师不看颜色,专门看物体的“骨架”和“皮肤质感”。
  • 在 AI 上色之前,它先把这些坚硬的边缘、细腻的纹理“刻”进 AI 的大脑里。
  • 效果:上色后的画面,不仅颜色对,连金属的光泽、衣服的粗糙感都保留了下来,就像给草图穿上了一层真实的“皮肤”,而不是涂了一层平面的油漆。

3. 它是“智能节奏指挥家”(基于草图的动态 RoPE)

以前的 AI:在画视频时,它像是一个只会按固定节拍跳舞的机器人。当画面里的人物突然快速跑动,或者镜头快速摇动时,机器人跟不上节奏,导致画面里的颜色开始闪烁、抖动,甚至人物和背景“分家”了(比如人往左跑,影子却往右飘)。

Uni-Animator 的做法:它请来了一个懂动作的“指挥家”

  • 这个指挥家会先观察草图里人物的动作:是慢慢走,还是快速跑?是上下跳,还是左右跑?
  • 根据动作的快慢和方向,指挥家会实时调整 AI 的“心跳频率”(动态 RoPE 编码)。
    • 动作快:指挥家让 AI 提高“采样频率”,像高速摄像机一样捕捉每一个瞬间,防止画面模糊或闪烁。
    • 动作慢:指挥家让 AI 保持平稳,节省精力,保证画面稳定。
  • 效果:无论人物怎么跑、怎么跳,颜色都紧紧“粘”在物体上,行云流水,绝不闪烁

总结:为什么它很厉害?

Uni-Animator 最大的突破在于它不再把“给图片上色”和“给视频上色”当成两门不同的手艺

  • 以前:你需要两个不同的 AI,一个专门管静态图,一个专门管动态视频,而且它们经常搞砸。
  • 现在:Uni-Animator 是一个统一的框架。你给它一张图,它能画出精美的静态图;你给它一段视频,它能画出流畅的动画。

一句话总结
Uni-Animator 就像是一位既懂色彩搭配、又懂物理质感、还精通动作节奏的“全能画师”。它让原本枯燥的黑白草图,瞬间变成了色彩鲜艳、细节丰富且动作流畅的生动作品,而且不管你是给单张图还是给整部电影上色,它都能完美胜任。