NAMI: Efficient Image Generation via Bridged Progressive Rectified Flow Transformers

本文提出了名为 NAMI 的桥接渐进式整流流 Transformer,通过跨时空维度的多分辨率级联生成策略与 BridgeFlow 模块,在确保图像质量的同时将 1024 分辨率图像的推理时间减少了 64%。

Yuhang Ma, Bo Cheng, Shanyuan Liu, Hongyi Zhou, Liebucha Wu, Dawei Leng, Yuhui Yin

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 NAMI 的新图像生成技术。简单来说,它让 AI 画图的速度更快、成本更低,同时还能保持画得好看、指令跟得准

为了让你更容易理解,我们可以把 AI 画图的过程想象成**“盖一栋摩天大楼”**。

1. 传统方法:笨重且低效的“平地起高楼”

以前的 AI 画图模型(比如 FLUX 或 SD3),就像是一个只有 100 层楼高的建筑队,却非要一开始就按 100 层的标准去盖地基

  • 问题:无论你要盖的是一个小茅屋(低分辨率小图)还是摩天大楼(高分辨率大图),他们都要动用所有 100 层楼的工人和重型机械。
  • 后果:这导致计算量巨大,画图很慢,而且很费电(算力成本高)。这就好比为了画一张小邮票,却动用了整个造船厂的资源。

2. NAMI 的创意:分阶段、搭桥的“精兵简政”

NAMI 提出了一种**“分阶段、搭桥”的新策略,就像是一个聪明的建筑总工**,他根据大楼的高度,灵活调配人手:

第一步:分阶段施工(时空分离)

NAMI 把画图过程分成了三个清晰的阶段,就像盖楼分三步走:

  1. 打地基(低分辨率阶段)
    • 任务:只确定大楼的大致轮廓、位置和风格(比如:这是一座红色的城堡,在山上)。
    • 人手:只派少数几个熟练的“小工”(较少的 Transformer 层数)来快速勾勒草图。
    • 比喻:就像用铅笔在纸上轻轻画个草图,不需要精细的笔触,只要大概形状对就行。
  2. 搭骨架(中分辨率阶段)
    • 任务:把草图放大,增加细节,比如窗户、门的位置。
    • 人手:增加一些“中级技工”(更多的层数)。
  3. 精装修(高分辨率阶段)
    • 任务:最后进行精细打磨,加上光影、纹理、毛发等细节。
    • 人手:这时候才动用所有的“顶级大师”(完整的模型层数)来精雕细琢。

核心优势:以前是“全程满负荷”,现在是“低负荷起步,逐步加码”。这就省下了大量不必要的计算资源。

第二步:神奇的“桥”(BridgeFlow 模块)

这是 NAMI 最巧妙的地方。

  • 问题:如果第一阶段画完草图,直接放大给第二阶段,画面可能会变形、断裂,或者风格不统一(就像把一张模糊的草图直接放大,边缘全是锯齿)。
  • 解决方案:NAMI 在两个阶段之间架了一座**“智能桥梁”(BridgeFlow)**。
  • 比喻:这座桥就像一个**“翻译官”兼“平滑师”。它能把第一阶段粗糙的草图,完美地“翻译”并“平滑”成第二阶段能听懂的指令,确保从草图到精修图的过渡丝滑自然**,不会出现断层或扭曲。

3. 训练方式:像“学画画”一样循序渐进

传统的训练方法往往是先学画小图,再单独学画大图,容易“学了大的忘了小的”。
NAMI 采用**“多分辨率联合训练”**:

  • 比喻:就像教学生画画,不是先让他只练素描,再只练油画。而是让他同时练习画小速写、中幅画和大幅画。
  • 好处:模型在画大图时,能随时调用画小图学到的“构图逻辑”;在画小图时,也能参考大图的“细节质感”。这让模型学得更快、更扎实。

4. 成果如何?

  • 速度快:画一张 1024x1024 的高清图,NAMI 比同体量的传统模型快了 64%。这相当于以前画一张图要等 10 分钟,现在只要 3 分半。
  • 质量好:虽然省了资源,但画出来的图依然精美,能听懂复杂的指令(比如“一只穿着宇航服的猫在月球上吃披萨”)。
  • 新标准:作者还发现以前的测试题太简单或太单一,于是自己造了一套**“NAMI-1K"**测试题,包含各种长短不一、风格各异的描述,用来更真实地考验 AI 的能力。

总结

NAMI 就像是一个懂得“因材施教”和“灵活用工”的超级画师。
它不再死板地用全套装备去画每一笔,而是:

  1. 先画草图(用小模型快速定调);
  2. 搭座桥(用 BridgeFlow 平滑过渡);
  3. 再精修(用大模型完善细节)。

这种方法让 AI 画图变得既快又省,让高质量图像生成不再是昂贵的奢侈品,而是触手可及的日常工具。