Structure-Level Disentangled Diffusion for Few-Shot Chinese Font Generation

本文提出了一种结构级解耦扩散模型(SLD-Font),通过分离内容与风格输入通道、引入背景去噪模块及参数高效微调策略,有效解决了少样本中文字体生成中内容失真与风格保真度不足的问题,并显著提升了生成效果。

Jie Li, Suorong Yang, Jian Zhao, Furao Shen

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 SLD-Font 的新技术,它的核心任务是:只给你看几个字,就能让你学会写这一整本“新字体”的书。

想象一下,如果你只见过一个人用某种独特的笔迹写了“天”、“地”、“人”三个字,现在的 AI 能不能立刻学会这种笔迹,并写出你从未见过的“春夏秋冬”?这就是“少样本中文字体生成”要解决的问题。

以前的方法虽然能模仿,但经常“顾此失彼”:要么字写错了(比如把“天”写成了“夫”),要么风格不像。

这篇论文提出了一套**“结构解耦”的魔法,让 AI 既能“守规矩”(字写对),又能“有个性”**(风格像)。

下面我用几个生活中的比喻来拆解它的核心秘密:

1. 核心难题:以前的 AI 像“喝醉的画家”

以前的方法(Feature-level disentanglement)就像是让一个画家在画布上同时思考“画什么”和“怎么画”。

  • 问题:画家脑子里的“内容”和“风格”混在一起了。当他想画一个“新风格”时,不小心把字的结构也改坏了;或者为了保持字不错,风格又模仿得不像。
  • 结果:生成的字要么结构扭曲(像喝醉了),要么风格不纯。

2. 我们的方案:SLD-Font(结构级解耦)

SLD-Font 把“画什么”和“怎么画”彻底分开了,就像**“模具”和“颜料”**的关系。

  • 内容通道(模具):只负责形状
    • 我们给 AI 一个标准的“宋体”字(比如“天”)作为模具
    • AI 的任务是:死死守住这个模具的形状,确保写出来的字还是“天”,不能变成别的。这就像是用一个固定的印章盖下去,轮廓绝对不能变。
  • 风格通道(颜料):只负责味道
    • 我们给 AI 看几张目标风格的图片(比如“手写体”或“毛笔字”)。
    • AI 提取这些图片的“气质”(粗细、连笔、圆润度),像调色盘一样,把这种“颜料”涂在刚才那个“模具”上。
  • 魔法效果:因为模具(内容)和颜料(风格)是分开处理的,AI 就不会在涂颜料的时候把模具弄变形了。这就是**“结构级解耦”**。

3. 两个关键的小发明

A. 背景去噪模块 (BNR):给画作“擦玻璃”

  • 问题:现在的 AI 生成图片时,经常会在笔画密集的地方(比如“繁”字)留下一些脏脏的噪点,就像玻璃上蒙了一层灰,或者墨水晕染开了。
  • 解决:作者设计了一个**“擦玻璃工”**(BNR 模块)。
    • 当 AI 画完字后,这个模块会专门检查那些笔画密集的地方,把多余的“灰尘”(噪点)擦掉,让笔画边缘清晰锐利,就像刚擦过的窗户一样透亮。

B. 高效微调 (PEFT):只换“衣服”,不换“脑子”

  • 问题:如果要让 AI 学习一种新字体,通常要重新训练整个大脑,但这很容易导致 AI“死记硬背”那几个参考字,一旦让它写没见过的字,它就忘了怎么写字了(过拟合)。
  • 解决:作者提出了一种**“换衣服”**的策略。
    • 我们把 AI 的大脑(处理字形的部分)冻住,只训练它负责“穿衣服”(风格)的部分
    • 比喻:想象一个演员(AI),他的演技(写对字的能力)已经炉火纯青。现在要演一个新角色(新字体),我们不需要让他重新学走路、学说话,只需要给他换一套符合新角色的戏服(风格参数)。
    • 好处:这样既学会了新风格,又不会忘记怎么把字写对,而且训练速度极快,只需要很少的参考图。

4. 怎么证明它好?(新尺子)

以前的评价标准主要看“像不像”(颜色、纹理)。但写字体,**“对不对”**更重要。
作者引入了两个新指标:

  1. Grey(灰度检测):专门检查字里有没有不该有的“脏点”或“噪点”。
  2. OCR(机器认字):把生成的字扔给另一个 AI 去认。如果那个 AI 能认出来这是“天”,说明字没写错;如果认成了“夫”,说明结构坏了。

总结

这篇论文就像是在教 AI 做**“最完美的书法家”**:

  1. 左手拿模具(宋体),保证字写得
  2. 右手拿画笔(CLIP 提取的风格),保证字写得
  3. 最后拿橡皮擦(BNR 模块),把多余的墨点擦干净;
  4. 只换戏服不换脑子(PEFT),用极少的样本就能快速学会新风格。

最终结果就是:AI 能生成既结构精准(字没错),又风格鲜明(像样),而且干净清晰(没噪点)的中文字体。这对于设计、历史修复和个性化品牌来说,是一个巨大的进步。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →