Multi-Level Conditioning by Pairing Localized Text and Sketch for Fashion Image Generation

Die Arbeit stellt LOTS vor, ein Framework zur Generierung von Modebildern, das globale Skizzenführung mit lokalisierten Text-Skizzen-Paaren kombiniert, und stellt zudem das erste entsprechende Datenset „Sketchy" mit professionellen und „in-the-wild"-Skizzen vor.

Ziyue Liu, Davide Talon, Federico Girella, Zanxi Ruan, Mattia Mondo, Loris Bazzani, Yiming Wang, Marco Cristani

Veröffentlicht 2026-02-23
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der "verwirrte Schneider"

Stellen Sie sich vor, Sie sind ein Modedesigner. Sie haben eine Skizze gezeichnet: Ein Mantel, eine Hose und ein Shirt. Dazu schreiben Sie eine Notiz: "Der Mantel soll aus rotem Samt sein, die Hose aus blauem Jeansstoff und das Shirt aus weißer Seide."

Bisherige KI-Modelle waren wie verwirrte Schneider. Wenn Sie ihnen diese Skizze und den Text gaben, passierte oft Folgendes: Der Schneider nahm den roten Samt und nähte ihn an die Hose, weil er dachte, "Rot" gehöre einfach zum Ganzen. Oder er verwechselte die Stoffe komplett. Die KI wusste zwar, dass ein Mantel da sein sollte, aber sie verstand nicht, welcher Text genau zu welchem Teil der Skizze gehörte. Das nennt man im Fachjargon "Attribut-Verwirrung".

Die Lösung: LOTS – Der "Super-Assistent"

Die Forscher haben ein neues System namens LOTS entwickelt. Man kann sich LOTS wie einen perfekten Assistenten vorstellen, der nicht nur die ganze Skizze sieht, sondern jeden einzelnen Strich mit seiner eigenen Notiz verbindet.

Hier ist, wie LOTS funktioniert, in drei einfachen Schritten:

1. Die "Einzel-Teams" (Lokale Steuerung)

Statt alles auf einmal zu betrachten, teilt LOTS die Arbeit auf.

  • Das Bild: Stellen Sie sich vor, Sie schneiden die Skizze in einzelne Puzzleteile: Ein Teil für den Mantel, einer für die Hose, einer für das Shirt.
  • Der Text: Zu jedem Puzzleteil gibt es jetzt eine eigene, kleine Karteikarte mit der genauen Beschreibung (z. B. "Roter Samt" nur für das Mantel-Teil).
  • Die Magie: LOTS bildet für jedes Teil ein eigenes kleines "Team". Dieses Team lernt nur: "Okay, dieses Puzzleteil ist der Mantel, und er muss rot sein." Es ignoriert dabei bewusst, was bei der Hose passiert. So wird verhindert, dass der rote Samt versehentlich auf die Hose wandert.

2. Der "Dirigent" (Globale Steuerung)

Wenn jedes Team nur auf sein eigenes Teil achtet, könnte das Ergebnis am Ende wie ein Flickenteppich aussehen, bei dem die Teile nicht zusammenpassen (z. B. sitzt der Mantel schief oder die Hose ist zu kurz).

  • Hier kommt der Dirigent ins Spiel. Er sieht die gesamte Skizze (das ganze Outfit).
  • Seine Aufgabe ist es, sicherzustellen, dass alle Teams im Takt bleiben. Er sorgt dafür, dass die Proportionen stimmen und das Outfit wie ein zusammenhängendes Ganzes aussieht, auch wenn jedes Team nur auf seinen eigenen Teil achtet.

3. Der "Bauplan" (Diffusions-Guidance)

Statt alle Informationen sofort in einen Topf zu werfen (was zu dem Verwirrungs-Effekt führt), baut LOTS das Bild Schritt für Schritt auf, wie beim Bauen eines Hauses.

  • Zuerst wird das Fundament gelegt (die grobe Struktur).
  • Dann werden die Wände hochgezogen, während der Dirigent (globale Steuerung) auf die Gesamtfarbe achtet.
  • Gleichzeitig arbeiten die einzelnen Teams (lokale Steuerung) an ihren Zimmern und bringen ihre spezifischen Farben und Muster an.
  • Dieser Prozess wiederholt sich immer wieder, bis das Bild fertig ist. Dadurch passt alles perfekt zusammen.

Der neue "Testraum": Sketchy

Um diesen Assistenten zu trainieren, brauchten die Forscher einen riesigen Übungsplatz. Bisher gab es nur Daten für ganze Outfits, aber keine, bei denen jedes Kleidungsstück einzeln beschrieben war.

Also haben sie Sketchy erschaffen:

  • Der Profi-Teil: Tausende von Outfits, bei denen Experten (oder KI, die wie Experten aussieht) für jedes einzelne Kleidungsstück eine Skizze und eine genaue Beschreibung erstellt haben.
  • Der "Wild-Teil": Um zu testen, ob der Assistent auch mit Laien zurechtkommt, haben sie normale Menschen gebeten, Skizzen zu zeichnen – mit Maus oder Stift, oft etwas krumm und schief. Das ist wie ein Test, ob der Assistent auch dann hilft, wenn der Kunde nicht perfekt zeichnet.

Das Ergebnis

Die Tests haben gezeigt, dass LOTS der klare Gewinner ist:

  • Keine Verwechslungen: Der rote Mantel bleibt rot, die blaue Hose bleibt blau.
  • Treue zur Skizze: Das Outfit sieht genau so aus wie gezeichnet, auch wenn die Skizze von einem Laien stammt.
  • Besser als alle anderen: Bisherige Methoden waren entweder gut im Textverständnis (aber schlecht bei der Skizze) oder gut bei der Skizze (aber verwechselten die Farben). LOTS macht beides gleichzeitig perfekt.

Zusammenfassend: LOTS ist wie ein hochintelligenter Schneider, der nicht nur die ganze Skizze sieht, sondern jedem einzelnen Kleidungsstück seine eigene, genaue Anweisung gibt, während ein Dirigent dafür sorgt, dass am Ende ein perfektes, zusammenhängendes Outfit entsteht.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →