Next Visual Granularity Generation

本文提出了一种名为“下一视觉粒度(NVG)”的新型图像生成框架,通过将图像分解为具有不同唯一标记数量的结构化序列,实现了从全局布局到精细细节的渐进式生成,并在 ImageNet 数据集上展现出优于 VAR 系列的生成性能。

Yikai Wang, Zhouxia Wang, Zhonghua Wu, Qingyi Tao, Kang Liao, Chen Change Loy

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 NVG (Next Visual Granularity,下一代视觉粒度生成) 的新方法,用来让 AI 画图片。

为了让你轻松理解,我们可以把现在的 AI 画画比作“盖房子”或“画画”,而 NVG 则是一种全新的、更符合人类直觉的“施工方式”。

🎨 核心概念:从“乱涂乱画”到“先搭骨架,再填肉”

想象一下,如果你要画一只长颈鹿

  • 传统的 AI(如早期的自回归模型):就像是一个刚学画画的小孩子,它必须从左上角开始,一笔一划地画,画完左边画右边,画完头画身体。如果第一笔画歪了,后面可能全都要跟着歪,而且它很难理解“长颈鹿的脖子”是一个整体,容易把脖子画成一堆杂乱的线条。
  • 扩散模型(如现在的 Midjourney 或 DALL-E 3):就像是从一团模糊的云雾中,慢慢把长颈鹿“显影”出来。虽然画得很漂亮,但如果你想让长颈鹿的脖子稍微粗一点,或者换个姿势,往往很难精准控制,因为它是在“猜”整张图。

NVG 的做法则完全不同,它像是一位经验丰富的建筑大师:

  1. 第一步:画草图(结构生成)
    它不会先画长颈鹿的毛色,而是先画一张黑白结构图。这张图告诉你:哪里是背景(白色),哪里是长颈鹿的身体(黑色),哪里是脖子。这就像盖房子前先画好“承重墙”和“房间布局”。

    • 比喻:就像先给长颈鹿画一个火柴人骨架,确定头、脖子、腿的位置。
  2. 第二步:填细节(粒度生成)
    有了骨架后,AI 开始往里面填充内容。

    • 第一层(最粗的粒度):先填大色块。比如,背景是绿色的草地,长颈鹿身体是黄色的。
    • 第二层(中等粒度):开始区分身体部位。脖子是细长的,腿是粗壮的。
    • 第三层(最细的粒度):最后才画长颈鹿身上的斑点、眼睛的高光、草地的纹理。

NVG 的精髓在于: 它把一张图拆解成了不同精细度(粒度)的序列。它不是从第一个像素画到最后一个像素,而是从“整体布局”到“局部形状”,再到“精细纹理”,层层递进。

🧩 它是如何工作的?(三个关键步骤)

论文里提到的技术细节,我们可以这样通俗地理解:

1. 像俄罗斯套娃一样的“视觉粒度”

想象你有一张 256x256 像素的图。

  • 最外层(第 0 层):整张图只有1 个色块(比如全是黄色,代表“这是一只动物”)。
  • 第 1 层:把图分成2 块(比如左边是背景,右边是动物)。
  • 第 2 层:把图分成4 块(背景、头、身体、腿)。
  • ...
  • 最后一层:分成成千上万块,每一块都有具体的颜色细节。

NVG 就是按照这个顺序,一层一层地“剥开”或“构建”图像。每一层都只负责比上一层更细节一点的东西。

2. “结构地图”是指挥棒

在生成每一层之前,NVG 会先生成一张结构地图(Structure Map)

  • 这就好比导演给摄影师看分镜脚本:“这一场戏,主角在左边,背景在右边”。
  • 有了这个地图,AI 在填充颜色时就不会“跑偏”。比如,它知道“脖子”这个区域必须画在“头”和“身体”之间,而不会把脖子画到地上去。
  • 亮点:你可以直接拿一张兔子的结构图,让 AI 去画一只火烈鸟。因为结构图只规定了“形状和位置”,AI 会根据指令把“兔子”的内容替换成“火烈鸟”,但保持同样的姿势和构图。这就像用同一个模具,可以倒出不同口味的蛋糕。

3. 修正错误,而不是从头再来

传统的 AI 如果第一步画错了,后面很难改。但 NVG 是残差学习(Residual Learning)

  • 想象你在画画,先画了个大概的轮廓(第一层)。
  • 第二层的时候,AI 的任务不是“重新画一张图”,而是**“修补上一张图的不足”**。
  • 如果第一层脖子画短了,第二层就会专门负责把脖子“补长”。
  • 这种“打补丁”的方式,让 AI 不容易犯大错,而且画出来的图越来越清晰。

🚀 为什么这个方法很厉害?

  1. 画得更好、更快
    论文测试发现,NVG 画出来的图(在 ImageNet 数据集上)比目前最火的 VAR 模型更逼真(FID 分数更低),而且训练和生成的效率也很高。它不需要像扩散模型那样画几百步,也不需要像传统自回归模型那样画几千步,只需要9 步就能完成从骨架到细节的全过程。

  2. 控制力超强
    这是 NVG 最大的杀手锏。因为它是分层控制的,你可以:

    • 只改“结构”,保留“内容”(比如把一只站着的猫,变成一只躺着的猫,但毛色不变)。
    • 只改“内容”,保留“结构”(比如把一只猫的结构,填成一只老虎)。
    • 甚至可以用一张模糊的草图,生成一张高清大图。
  3. 像人类一样思考
    人类画画也是先画大轮廓,再画五官,最后画阴影。NVG 模仿了这种**“从粗到细”(Coarse-to-Fine)** 的自然过程,所以它生成的图像结构更合理,逻辑更通顺。

🌟 总结

NVG 就像是一个拥有“上帝视角”的超级画家。

它不急着把每一根毛发都画出来,而是先问:“这幅画的大局是什么?”(生成结构图),然后问:“主要物体在哪里?”(生成粗粒度),最后才问:“细节怎么点缀?”(生成细粒度)。

这种方法让 AI 画画不再是“碰运气”,而是变成了有规划、可控制、高效率的创造过程。未来,我们可能可以用它来快速设计建筑图纸、生成电影分镜,或者让 AI 根据我们随手画的火柴人,瞬间生成一张精美的大片。