Towards High-resolution and Disentangled Reference-based Sketch Colorization

该论文提出了一种通过双分支架构和 Gram 正则化损失直接最小化训练与推理分布差异,并结合动漫特定标签网络与 SDXL 微调来实现高分辨率、解耦且可控的参考图素描上色新框架,从而在质量和可控性上达到最先进水平。

Dingkun Yan, Xinrui Wang, Ru Wang, Zhuoru Li, Jinze Yu, Yusuke Iwasawa, Yutaka Matsuo, Jiaxian Guo

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种全新的**“给素描上色”**的技术。想象一下,你有一张黑白线条的漫画草图,想让它变成色彩鲜艳、细节丰富的动漫作品。以前的方法虽然能上色,但经常“翻车”:要么颜色乱跑,要么背景变得乱七八糟,甚至把参考图里的东西(比如背景里的树)错误地画到了人物身上。

这篇论文的作者提出了一套新方案,解决了这些痛点。我们可以用几个生动的比喻来理解它的核心思想:

1. 核心难题:为什么以前的方法会“串台”?

比喻:两个不同频道的收音机

以前的上色模型,就像是一个试图同时听两个不同频道收音机的人。

  • 训练时(学习阶段): 模型看到的素描和参考图是“天生一对”的(比如都是同一张图画的)。它以为:“哦,原来参考图里的颜色就是对应这个位置的。”
  • 测试时(实际应用): 你给它一张素描,又给它一张完全不搭界的参考图(比如素描是个人,参考图是风景)。
  • 结果: 模型糊涂了。它开始强行把参考图里的“空间结构”(比如风景里的树的位置)也学过来,导致画出来的人身上长出了树,或者背景乱成一团。这就是论文里说的**“空间纠缠”(Spatial Entanglement)**。

2. 解决方案:双分支“特训”架构

比喻:左右脑互搏的“魔鬼训练”

为了解决这个问题,作者设计了一个**“双分支架构”**,就像让模型同时接受两种截然不同的训练:

  • 左脑(对齐分支): 给它看“标准答案”。素描和参考图是匹配的,让它学习正常的上色逻辑。
  • 右脑(错位分支): 故意给它看“乱点鸳鸯谱”。素描和参考图是随机拼凑的,完全不搭界。
  • 关键动作: 在训练过程中,作者强迫“右脑”的输出结果,必须和“左脑”在**“空间结构”**上保持一致。
    • 这就好比教练对学员说:“不管参考图里画的是猫还是狗,你画素描里的人时,人的轮廓和位置绝对不能变,只能参考颜色!”
    • 通过这种“左右互搏”,模型终于学会了:“颜色可以随便借,但骨架(空间结构)必须只认素描。”

3. 核心魔法:Gram 正则化损失

比喻:给模型戴上一副“防干扰眼镜”

为了让上述的“左右互搏”生效,作者发明了一种特殊的**“惩罚机制”(Gram Regularization Loss)**。

  • 这就像给模型戴上了一副**“防干扰眼镜”**。
  • 当模型试图把参考图里的“位置信息”(比如树长在哪里)偷偷塞进素描时,这副眼镜会立刻报警并惩罚它。
  • 它强制模型只关注素描本身的线条结构,彻底切断参考图对“画哪里”的干扰,只保留“画什么颜色”的灵感。

4. 细节增强:动漫专属“标签员”与“插件”

比喻:专业的化妆师和修图师

为了让画出来的东西不仅结构对,而且好看、高清,作者还加了两个“外挂”:

  • 动漫专属标签员(WD-Tagger):

    • 以前的模型可能只能看懂“这是一个人”。
    • 这个新标签员是专门在海量动漫数据里训练出来的,它能精准识别:“这是银发蓝眼睛穿着水手服背景是樱花"。
    • 它像一位专业的化妆师,能精准地把参考图里的“发色”、“衣服款式”提取出来,精准地涂在素描的对应部位,不会涂错地方。
  • 纹理插件(Plugin Module):

    • 有时候参考图里的背景很复杂(比如复杂的纹理),模型容易画糊。
    • 这个插件就像一个**“细节修补师”**,专门负责把背景、光影等低层次的纹理细节“搬运”过来,让画面看起来更真实、更有质感,而不是糊成一团。

5. 最终效果:高清、可控、不串台

比喻:从“马赛克”到"4K 电影”

  • 以前: 只能画小图(512x512),放大就糊,颜色乱跑,背景容易崩坏。
  • 现在: 可以画大图(1024x1280 甚至更高),线条清晰,颜色鲜艳,背景丰富。
  • 用户反馈: 在让真人评委盲测时,大家一致觉得这个方法画出来的图最自然、最漂亮,完全不像机器画的。

总结

这篇论文的核心就是**“分得清”
它通过一种巧妙的
“双分支特训”“防干扰眼镜”,教会了 AI 模型:“参考图只负责提供颜色和风格,素描的骨架必须由素描自己说了算。”**

这让 AI 给素描上色变得像人类专业画师一样:既能灵活借用参考图的灵感,又能牢牢守住画面的结构和逻辑,最终生成高质量、高分辨率的动漫作品。