NAMI: Efficient Image Generation via Bridged Progressive Rectified Flow Transformers

In dit paper wordt NAMI voorgesteld, een efficiënt beeldgeneratiemodel dat via een bruggeleidde progressieve rectified flow-architectuur de inferentietijd voor 1024-resolutie beelden met 64% verlaagt terwijl de beeldkwaliteit behouden blijft.

Yuhang Ma, Bo Cheng, Shanyuan Liu, Hongyi Zhou, Liebucha Wu, Dawei Leng, Yuhui Yin

Gepubliceerd 2026-03-09
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Wat is NAMI?

Stel je voor dat je een schilderij wilt maken. De oude manier (de huidige topmodellen) is alsof je begint met een heel groot canvas en direct met de fijnste penseelstreken begint, terwijl je tegelijkertijd de hele compositie moet bedenken. Dit kost enorm veel tijd en energie.

NAMI (Bridged Progressive Rectified Flow Transformers) is een slimme nieuwe manier om dit te doen. Het is alsof je een bouwplan volgt in drie stappen:

  1. De schets: Je begint klein en ruw. Je tekent alleen de contouren en de basisindeling.
  2. De verf: Je vergroot het beeld en vult de kleuren in.
  3. De details: Pas op het allerlaatste moment voeg je de fijne details toe, zoals de glans in een oog of de textuur van een haar.

De drie slimme trucs van NAMI

1. De "Matroesjka-pop" aanpak (Resolutie)

In plaats van het hele schilderij in één keer te maken, maakt NAMI het in lagen, net als een Russische pop (matroesjka).

  • Stap 1: Het model werkt eerst op een heel kleine, wazige afbeelding (bijv. 256x256 pixels). Hier gebruikt het een klein, snel team van neurale netwerken. Dit team is goed in het bedenken van het "wat" en "waar" (bijv. "een kat op een mat").
  • Stap 2: Zodra de basis staat, wordt het beeld vergroot. Nu komt er een groter team bij om de details toe te voegen.
  • Stap 3: Bij de hoogste resolutie (1024x1024) is het hele team aanwezig voor de allerlaatste verfwerkzaamheden.

Waarom is dit slim? Je hoeft niet de hele zware machine aan te zetten voor het ruwe werk. Dat bespaart enorm veel tijd en energie.

2. De "Brugbouwer" (BridgeFlow)

Een groot probleem bij deze stap-voor-stap methode is de overgang. Als je van een klein beeld naar een groot beeld springt, kan het beeld "uit elkaar vallen" of vervormen. Het is alsof je een brug bouwt tussen twee eilanden; als de brug niet stevig is, val je in het water.

NAMI introduceert een speciaal BridgeFlow-module. Dit is als een slimme lijm of een tussenbrug.

  • Deze module zorgt ervoor dat de overgang van de ene stap naar de andere naadloos verloopt.
  • Hij "leert" hoe hij het beeld moet herschikken en aanpassen zodat de stijl en de inhoud perfect blijven kloppen, zonder dat het beeld eruitziet alsof het is geknipt en geplakt.

3. De "Meertrapsraket" (Training)

Bij het trainen van deze AI (leren tekenen) gebruiken de makers een slimme strategie. In plaats van eerst alleen op kleine plaatjes te leren en daarna pas op grote, leren ze gelijktijdig op alle groottes.

  • Het is alsof een student niet eerst alleen sommen tot 10 leert en pas later tot 1000, maar dat hij alle niveaus door elkaar oefent. Hierdoor leert het model de "essentie" van een object veel sneller en beter.

Wat levert dit op?

  • Snelheid: Het paper laat zien dat NAMI 64% sneller is dan de huidige topmodellen (zoals FLUX) om een hoogwaardig plaatje te maken. Het is alsof je van een langzame trein overstapt op een sneltrein.
  • Kwaliteit: Ondanks dat het sneller is, is de kwaliteit net zo goed. De "ruwe schets" is al zo goed dat de latere stappen alleen maar hoeven te verfijnen.
  • Nieuwe Test (NAMI-1K): De auteurs zijn ook kritisch op bestaande tests. Ze zeggen: "De oude tests zijn te makkelijk en niet divers genoeg." Daarom hebben ze een nieuwe test gemaakt met 1.000 verschillende prompts (van korte zinnen tot lange verhalen), zodat ze echt kunnen zien of de AI begrijpt wat mensen bedoelen in de echte wereld.

Samenvatting in één zin

NAMI is een slimme AI die een afbeelding bouwt als een bouwproject: eerst de fundering en het raamwerk (snel en simpel), en daarna pas de dure afwerking (duur en gedetailleerd), waarbij een speciale brug zorgt dat alles perfect op elkaar aansluit. Hierdoor krijg je prachtige plaatjes in een fractie van de tijd.