Multi-Level Conditioning by Pairing Localized Text and Sketch for Fashion Image Generation

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der "verwirrte Schneider"

Stellen Sie sich vor, Sie sind ein Modedesigner. Sie haben eine Skizze gezeichnet: Ein Mantel, eine Hose und ein Shirt. Dazu schreiben Sie eine Notiz: "Der Mantel soll aus rotem Samt sein, die Hose aus blauem Jeansstoff und das Shirt aus weißer Seide."

Bisherige KI-Modelle waren wie verwirrte Schneider. Wenn Sie ihnen diese Skizze und den Text gaben, passierte oft Folgendes: Der Schneider nahm den roten Samt und nähte ihn an die Hose, weil er dachte, "Rot" gehöre einfach zum Ganzen. Oder er verwechselte die Stoffe komplett. Die KI wusste zwar, dass ein Mantel da sein sollte, aber sie verstand nicht, welcher Text genau zu welchem Teil der Skizze gehörte. Das nennt man im Fachjargon "Attribut-Verwirrung".

Die Lösung: LOTS – Der "Super-Assistent"

Die Forscher haben ein neues System namens LOTS entwickelt. Man kann sich LOTS wie einen perfekten Assistenten vorstellen, der nicht nur die ganze Skizze sieht, sondern jeden einzelnen Strich mit seiner eigenen Notiz verbindet.

Hier ist, wie LOTS funktioniert, in drei einfachen Schritten:

1. Die "Einzel-Teams" (Lokale Steuerung)

Statt alles auf einmal zu betrachten, teilt LOTS die Arbeit auf.

Das Bild: Stellen Sie sich vor, Sie schneiden die Skizze in einzelne Puzzleteile: Ein Teil für den Mantel, einer für die Hose, einer für das Shirt.
Der Text: Zu jedem Puzzleteil gibt es jetzt eine eigene, kleine Karteikarte mit der genauen Beschreibung (z. B. "Roter Samt" nur für das Mantel-Teil).
Die Magie: LOTS bildet für jedes Teil ein eigenes kleines "Team". Dieses Team lernt nur: "Okay, dieses Puzzleteil ist der Mantel, und er muss rot sein." Es ignoriert dabei bewusst, was bei der Hose passiert. So wird verhindert, dass der rote Samt versehentlich auf die Hose wandert.

2. Der "Dirigent" (Globale Steuerung)

Wenn jedes Team nur auf sein eigenes Teil achtet, könnte das Ergebnis am Ende wie ein Flickenteppich aussehen, bei dem die Teile nicht zusammenpassen (z. B. sitzt der Mantel schief oder die Hose ist zu kurz).

Hier kommt der Dirigent ins Spiel. Er sieht die gesamte Skizze (das ganze Outfit).
Seine Aufgabe ist es, sicherzustellen, dass alle Teams im Takt bleiben. Er sorgt dafür, dass die Proportionen stimmen und das Outfit wie ein zusammenhängendes Ganzes aussieht, auch wenn jedes Team nur auf seinen eigenen Teil achtet.

3. Der "Bauplan" (Diffusions-Guidance)

Statt alle Informationen sofort in einen Topf zu werfen (was zu dem Verwirrungs-Effekt führt), baut LOTS das Bild Schritt für Schritt auf, wie beim Bauen eines Hauses.

Zuerst wird das Fundament gelegt (die grobe Struktur).
Dann werden die Wände hochgezogen, während der Dirigent (globale Steuerung) auf die Gesamtfarbe achtet.
Gleichzeitig arbeiten die einzelnen Teams (lokale Steuerung) an ihren Zimmern und bringen ihre spezifischen Farben und Muster an.
Dieser Prozess wiederholt sich immer wieder, bis das Bild fertig ist. Dadurch passt alles perfekt zusammen.

Der neue "Testraum": Sketchy

Um diesen Assistenten zu trainieren, brauchten die Forscher einen riesigen Übungsplatz. Bisher gab es nur Daten für ganze Outfits, aber keine, bei denen jedes Kleidungsstück einzeln beschrieben war.

Also haben sie Sketchy erschaffen:

Der Profi-Teil: Tausende von Outfits, bei denen Experten (oder KI, die wie Experten aussieht) für jedes einzelne Kleidungsstück eine Skizze und eine genaue Beschreibung erstellt haben.
Der "Wild-Teil": Um zu testen, ob der Assistent auch mit Laien zurechtkommt, haben sie normale Menschen gebeten, Skizzen zu zeichnen – mit Maus oder Stift, oft etwas krumm und schief. Das ist wie ein Test, ob der Assistent auch dann hilft, wenn der Kunde nicht perfekt zeichnet.

Das Ergebnis

Die Tests haben gezeigt, dass LOTS der klare Gewinner ist:

Keine Verwechslungen: Der rote Mantel bleibt rot, die blaue Hose bleibt blau.
Treue zur Skizze: Das Outfit sieht genau so aus wie gezeichnet, auch wenn die Skizze von einem Laien stammt.
Besser als alle anderen: Bisherige Methoden waren entweder gut im Textverständnis (aber schlecht bei der Skizze) oder gut bei der Skizze (aber verwechselten die Farben). LOTS macht beides gleichzeitig perfekt.

Zusammenfassend: LOTS ist wie ein hochintelligenter Schneider, der nicht nur die ganze Skizze sieht, sondern jedem einzelnen Kleidungsstück seine eigene, genaue Anweisung gibt, während ein Dirigent dafür sorgt, dass am Ende ein perfektes, zusammenhängendes Outfit entsteht.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper adressiert die Herausforderung der multilokalisierten bedingten Bildgenerierung im Bereich der Mode. Während bestehende Methoden (wie ControlNet oder IP-Adapter) globale Skizzen und Textbeschreibungen nutzen, stoßen sie bei komplexen Outfits mit mehreren Kleidungsstücken an Grenzen.

Das Hauptproblem ist die Attributverwirrung (Attribute Confusion): Wenn ein Designer eine globale Skizze und einen globalen Text verwendet, um ein Outfit aus mehreren Teilen (z. B. Jacke, Hose, Schuhe) zu beschreiben, neigen Modelle dazu, Attribute falsch zuzuordnen. Ein Beispiel: Die Beschreibung „braune Jacke und schwarze Hose" führt dazu, dass die Jacke braun ist, aber fälschlicherweise auch die Hose braun wird. Bestehende Ansätze können feingranulare, lokale Text-Skizzen-Paare nicht effektiv trennen und kombinieren, was zu inkonsistenten Silhouetten oder „Leckagen" von Attributen zwischen verschiedenen Kleidungsstücken führt.

2. Methodik: LOTS Framework

Die Autoren stellen LOTS (LOcalized Text and Sketch with multi-level guidance) vor, ein Framework, das auf Diffusionsmodellen basiert und eine zweistufige Architektur verwendet, um globale Struktur und lokale Details zu vereinen.

A. Multi-Level Conditioning Stage (Mehrstufiger Konditionierungsprozess)

In dieser Phase werden die Eingaben in einen gemeinsamen latenten Raum kodiert:

Lokale Ebene (Modularized Pair-Centric Representation): Jedes lokale Paar aus Skizze ( $S_i$ $S_{i}$ ) und Text ( $T_i$ $T_{i}$ ) wird unabhängig verarbeitet.
- Spezifische Encoder (für Text und Skizze) extrahieren Merkmale.
- Ein Pair-Former-Modul fusioniert diese Merkmale unter Verwendung lernbarer Tokens. Dies stellt sicher, dass die semantischen Informationen eines Kleidungsstücks (z. B. „rote Jacke") räumlich an die entsprechende Skizze gebunden bleiben und nicht auf andere Teile „überlaufen".
Globale Ebene (Global Conditioning): Um die Kohärenz des gesamten Outfits zu gewährleisten, wird eine globale Skizze ( $S_g$ $S_{g}$ ) kodiert.
- Diese globale Repräsentation wird mittels Cross-Attention mit den lokalen Paaren fusioniert.
- Ziel ist es, die übergeordnete Struktur (Haltung, Proportionen des gesamten Outfits) zu steuern, ohne die feingranularen lokalen Details zu zerstören.
Das Ergebnis ist eine multi-level Repräsentation ( $P_{m-l}$ ), die sowohl lokale als auch globale Informationen enthält.

B. Diffusion Pair Guidance Stage (Diffusions-Paar-Leitung)

Anstatt alle Konditionierungsinformationen sofort zu fusionieren, werden sie schrittweise in den Denoising-Prozess des Diffusionsmodells integriert:

Zusätzliche Cross-Attention-Adapter werden in die Schichten des Diffusionsmodells eingefügt.
Diese Adapter steuern den Generierungsprozess iterativ über mehrere Denoising-Schritte hinweg.
Dies ermöglicht eine schrittweise Integration der lokalen und globalen Signale, was die Gefahr der Attributverwirrung minimiert und sicherstellt, dass die Struktur der Skizze über den gesamten Prozess hinweg erhalten bleibt.

3. Schlüsselbeiträge

Neue Formulierung: Einführung des Problems der „multilokalisierten bedingten Bildgenerierung", bei der mehrere lokale Skizze-Text-Paare pro Bild verwendet werden, um feingranulare Kontrolle über einzelne Kleidungsstücke zu ermöglichen.
LOTS-Architektur: Ein neuartiges Framework, das lokale Paare unabhängig verarbeitet und erst während des Diffusionsprozesses integriert, um Attributleckagen zu verhindern und gleichzeitig die globale strukturelle Integrität zu wahren.
Der Sketchy-Datensatz:
- Der erste große Datensatz für lokalisierte Skizze-zu-Bild-Generierung, basierend auf Fashionpedia.
- Enthält 47.000 Outfits mit insgesamt 104.000 lokalisierten Paaren (Kleidungsstück + Skizze + Text).
- Sketchy in the Wild: Ein neuer Split mit von Laien gezeichneten Skizzen (per Maus oder Stift), um die Robustheit des Modells gegenüber unvollkommenen Eingaben zu testen.
- Automatisch generierte, professionelle Skizzen und detaillierte Textbeschreibungen inklusive Farbinformationen.
Erweiterte Evaluierung: Einführung von Metriken wie Localized-VQAScore, der spezifisch misst, ob Attribute dem richtigen Kleidungsstück zugeordnet sind, sowie umfangreiche menschliche Studien.

4. Ergebnisse

Die Experimente wurden auf dem Sketchy-Datensatz und dem „in the Wild"-Split durchgeführt und verglichen mit State-of-the-Art-Methoden (ControlNet, IP-Adapter, Multi-ControlNet, etc.).

Quantitative Leistung: LOTS erzielt in den meisten Metriken den besten Gesamtwert.
- Semantische Ausrichtung: Höchste Werte bei GlobalCLIP und LocalCLIP.
- Attribut-Lokalisierung: Deutlich überlegener L-VQAScore (lokalisierte VQA), was beweist, dass LOTS Attribute korrekt den jeweiligen Kleidungsstücken zuweist (z. B. Muster auf dem richtigen Teil), während andere Modelle oft Attributverwirrung zeigen.
- Strukturelle Treue: Hohe SSIM-Werte, die zeigen, dass die generierten Bilder die Struktur der Skizze gut beibehalten.
Robustheit: LOTS zeigt eine starke Generalisierungsfähigkeit auf den „in the Wild"-Datensatz mit Laienskizzen, was die praktische Anwendbarkeit unterstreicht.
Human Evaluation: In Benutzerstudien wurde LOTS sowohl für die korrekte Attributplatzierung als auch für die Einhaltung der Skizzenstruktur bevorzugt. Es schaffte den Spagat zwischen der hohen strukturellen Treue von ControlNet und der besseren semantischen Genauigkeit, die bei ControlNet oft fehlt.

5. Bedeutung und Fazit

Das Paper stellt einen Paradigmenwechsel in der computergestützten Modegestaltung dar. Es löst das langjährige Problem der Attributverwirrung bei der Generierung komplexer Outfits aus mehreren Komponenten.

Praktische Relevanz: Designer können nun nicht nur das Gesamtbild skizzieren, sondern spezifische Details (Stoff, Farbe, Schnitt) für jedes einzelne Kleidungsstück separat beschreiben, während das System die Gesamtstruktur konsistent hält.
Technischer Fortschritt: Die Methode demonstriert, dass eine Trennung von lokaler und globaler Konditionierung in Kombination mit einer schrittweisen Integration im Diffusionsprozess überlegene Ergebnisse liefert als einfache Fusion aller Eingaben.
Datenbasis: Die Bereitstellung des Sketchy-Datensatzes und der Plattform fördert die weitere Forschung in diesem Bereich, insbesondere im Hinblick auf die Generalisierung von unprofessionellen Eingaben.

Zusammenfassend etabliert LOTS einen neuen State-of-the-Art für die feingranulare, multimodale Bildgenerierung im Modebereich und bietet eine robuste Lösung für die Komplexität realer Design-Szenarien.