NAMI: Efficient Image Generation via Bridged Progressive Rectified Flow Transformers

Die Arbeit stellt NAMI vor, einen effizienten Bildgenerierungsansatz auf Basis von Rectified Flow-Transformern, der durch eine stufenweise, mehrstufige Architektur und ein BridgeFlow-Modul die Inferenzzeit um 64 % reduziert, ohne dabei die Bildqualität zu beeinträchtigen.

Yuhang Ma, Bo Cheng, Shanyuan Liu, Hongyi Zhou, Liebucha Wu, Dawei Leng, Yuhui Yin

Veröffentlicht 2026-03-09
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest ein riesiges, hochauflösendes Gemälde malen.

Das alte Problem:
Bisherige KI-Modelle (wie die, die wir heute kennen) versuchen oft, das ganze Bild auf einmal zu malen. Sie starten mit einem riesigen Leinwandformat und versuchen, jedes Detail – vom groben Umriss eines Baumes bis zum einzelnen Lichtreflex auf einem Blatt – in einem einzigen, riesigen Arbeitsgang zu erledigen. Das ist wie wenn ein Maler versuchen würde, ein 100-Meter-Bild zu malen, indem er mit einem winzigen Pinsel bei jedem Strich das ganze Bild neu betrachtet. Es dauert ewig, ist anstrengend und kostet viel Energie (Rechenleistung).

Die neue Lösung: NAMI
Die Forscher von 360 AI haben eine clevere Methode namens NAMI entwickelt. Sie nennen es "Bridged Progressive Rectified Flow". Klingt kompliziert? Stell es dir so vor:

1. Der Baumeister-Ansatz (Stufenweise Verfeinerung)

Statt das ganze Bild auf einmal zu malen, baut NAMI das Bild wie ein Architekt, der ein Haus errichtet:

  • Stufe 1: Der grobe Entwurf (Niedrige Auflösung): Zuerst wird nur ein kleines, unscharfes Skizzenbild erstellt. Hier geht es nur um die Grundidee: "Wo steht das Haus? Wo ist der Baum?" Dafür braucht man nur einen kleinen, schnellen Helfer (wenige KI-Schichten). Das geht blitzschnell.
  • Stufe 2: Die Wände hochziehen (Mittlere Auflösung): Jetzt wird die Skizze vergrößert. Der Architekt fügt mehr Details hinzu: Fenster, Türen, die Farbe der Wände. Dafür braucht man einen etwas größeren Helfer.
  • Stufe 3: Das feine Finish (Hohe Auflösung): Zum Schluss wird das Bild riesig. Jetzt kommen die Spezialisten, die die Tapetenmuster, die Lichtreflexe und die feinsten Texturen hinzufügen. Hier wird der volle, große Helfer eingesetzt.

Der Clou: NAMI spart sich die Zeit, indem es in den frühen Phasen nicht den riesigen, teuren "Super-Helfer" einsetzt, sondern nur die kleinen, schnellen Helfer. Erst wenn es wirklich nötig ist (bei den feinen Details), wird der große Motor hochgefahren.

2. Die Brücke (BridgeFlow)

Ein großes Problem bei dieser Methode war bisher: Wie bringt man das kleine Skizzenbild nahtlos in das große Bild, ohne dass es wie ein Flickenteppich aussieht?
Stell dir vor, du hast eine kleine Skizze und willst sie auf eine riesige Leinwand übertragen. Wenn du sie einfach nur hochskalierst (wie beim Zoomen auf dem Handy), wird sie unscharf und verzerrt.

NAMI nutzt eine spezielle "Brücke" (BridgeFlow). Das ist wie ein intelligenter Übersetzer, der genau weiß, wie man die groben Linien der Skizze perfekt in die feinen Linien des großen Bildes überführt. Er sorgt dafür, dass der Übergang zwischen den Stufen glatt ist und nichts "verloren geht".

3. Das Ergebnis: Schneller und besser

Dank dieser Methode passiert etwas Magisches:

  • Geschwindigkeit: Das Bild entsteht 64 % schneller. Das ist, als würde man einen 100-Meter-Lauf in der Hälfte der Zeit schaffen, weil man nicht den ganzen Weg mit dem vollen Tempo rennen muss, sondern erst im Sprint antritt, wenn es ans Ziel geht.
  • Qualität: Die Bilder sind trotzdem genauso schön und detailliert wie bei den alten, langsamen Modellen.
  • Effizienz: Es wird weniger Rechenleistung verschwendet, weil man nicht überall den "Super-Computer" braucht.

Zusammenfassung in einer Metapher

Stell dir vor, du willst eine 1000-teilige Puzzle-Landschaft zusammenbauen.

  • Die alten Modelle versuchen, jedes einzelne Puzzleteil sofort an seinen exakten Platz zu legen, während sie das ganze Bild im Kopf haben. Das dauert ewig.
  • NAMI macht es anders:
    1. Zuerst legt es nur die Randsteine und die groben Farbflächen (das "Layout") auf einen kleinen Tisch. Das geht schnell.
    2. Dann vergrößert es den Tisch und fügt die mittleren Teile hinzu.
    3. Erst am Ende kommt der große Tisch, auf dem die feinsten Details (die Augen des Vogels, die Blätter) platziert werden.
    4. Die Brücke sorgt dafür, dass die Teile, die vom kleinen Tisch auf den großen übertragen werden, perfekt passen.

Fazit: NAMI ist wie ein effizienter Baumeister, der weiß, wann er schnell und grob arbeiten muss und wann er Zeit für die feinen Details hat. Das macht die KI nicht nur schneller, sondern auch günstiger in der Nutzung, ohne dass die Bilder schlechter werden.