Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een foto maakt van jezelf in een prachtig, nieuw jasje. Je ziet er geweldig uit, maar voor de webwinkel wil je niet dat je erop staat, maar alleen het jasje zelf, plat uitgespreid, als een catalogusfoto. Normaal gesproken moet je die foto's in een studio maken, met een mannequin, onder perfecte belichting. Dat is duur en tijdrovend.

Deze paper introduceert een slimme nieuwe manier om dat probleem op te lossen met kunstmatige intelligentie (AI). Ze noemen hun uitvinding TEMU-VTOFF.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Omgekeerde" Magie

Normaal gesproken doen computers "Virtual Try-On": ze nemen een foto van een kledingstuk en "plakken" die virtueel op een persoon.
Deze paper doet het omgekeerde: Virtual Try-Off. Ze nemen een foto van een persoon in kleding en proberen het kledingstuk er weer "af te halen" om een schone, platte foto van het kledingstuk te maken.

Het is alsof je een foto van een gebakken ei ziet en de AI moet precies reconstrueren hoe het rauwe ei eruitzag voordat het werd gebakken, inclusief de schaal en de vorm, zonder dat er een ei in de pan zat.

2. De Uitdaging: Het is niet zomaar "wegknippen"

Als je een kledingstuk op een persoon draagt, is het verfrommeld, zit het strak om je lichaam, en zijn er vaak deels bedekt door je armen of andere kledingstukken.

De oude manier: Bestaande AI-modellen probeerden dit door het proces van "Try-On" gewoon om te draaien. Dat werkte niet goed. Het resultaat zag er vaak uit als een wazige vlek of een vervormd kledingstuk, alsof je een foto van een gebogen T-shirt probeerde te rechtstrekken met een simpele filter.
Het nieuwe idee: De auteurs zeggen: "We hebben een speciaal gereedschap nodig, niet zomaar een omgekeerde hamer."

3. De Oplossing: TEMU-VTOFF (De Slimme Chef)

De auteurs hebben een nieuw systeem gebouwd dat werkt als een superchef in een keuken. Hier zijn de drie belangrijkste ingrediënten van hun recept:

A. De Tweeling (De Dual-DiT)

Stel je voor dat je twee chefs hebt die samenwerken:

Chef 1 (De Observator): Deze kijkt naar de foto van de persoon in kleding. Hij probeert niet het kledingstuk te maken, maar alleen te begrijpen: "Wat voor stof is dit? Waar zitten de knopen? Hoe zit de kraam?" Hij haalt alle details uit de foto van de persoon.
Chef 2 (De Maker): Deze chef krijgt de instructies van Chef 1 en tekent het kledingstuk opnieuw, maar dan perfect plat en schoon, alsof het op een hanger hangt.

Ze werken samen in een "tandem", waarbij de ene chef de andere helpt om de details niet kwijt te raken.

B. De Vertaler (Tekst en Maskers)

Soms is de foto van de persoon verwarrend. Is dat een korte mouw of een lange mouw die omhoog is geschoven?

De Tekst: Het systeem vraagt de AI: "Beschrijf dit kledingstuk." De AI leest dan: "Dit is een blauwe denim jas met lange mouwen en een ronde hals." Dit helpt de maker om de vorm te begrijpen, zelfs als de mouw in de foto verfrommeld zit.
Het Masker: De AI weet ook precies welke pixels bij de persoon horen en welke bij de kleding. Dit is als een sjabloon dat de maker helpt om de randen scherp te houden.

C. De Kwaliteitscontroleur (De Garment Aligner)

Soms maakt de AI een mooie vorm, maar zijn de patronen (zoals een ruitje of een logo) een beetje wazig.
Om dit op te lossen, hebben ze een speciale "kwaliteitscontroleur" toegevoegd. Deze vergelijkt het werk van de AI tijdens het trainen met een foto van een perfect, schoon kledingstuk (een "DINO" foto, een soort expert in visuele details).

De analogie: Het is alsof een schilder zijn werk tussendoor vergelijkt met een meesterwerk in een museum. Als de streken niet overeenkomen, past hij zijn penseelwerk aan. Dit zorgt ervoor dat de uiteindelijke foto niet alleen de juiste vorm heeft, maar ook de fijne details (zoals de textuur van de stof) perfect behoudt.

4. Waarom is dit geweldig?

Voor webwinkels: Ze hoeven geen dure studio's meer te huren om foto's van hun kleding te maken. Ze kunnen gewoon foto's van modellen of klanten gebruiken en de AI maakt er professionele catalogusfoto's van.
Voor ons: Het betekent dat we makkelijker kleding kunnen vinden die we leuk vinden, omdat er meer "schone" foto's beschikbaar zijn in de databases.
Veelzijdigheid: Het werkt voor T-shirts, broeken én jurken. Veel oude systemen faalden bij broeken of jurken, maar dit systeem is slim genoeg om voor elk type kleding het juiste patroon te vinden.

Samenvatting

Kortom, TEMU-VTOFF is een slimme AI die foto's van mensen in kleding kan "ontleden" en er perfecte, platte foto's van de kledingstukken van maakt. Het doet dit door te werken met een team van twee AI's (een observerende en een maker), geholpen door tekstbeschrijvingen en een strenge kwaliteitscontroleur. Het resultaat? Scherpe, realistische kledingfoto's die eruitzien alsof ze in een dure winkel zijn gemaakt, maar die zijn gegenereerd uit een simpele selfie.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem: Inverse Virtual Try-On (VTOFF)

Hoewel Virtual Try-On (VTON) – het plaatsen van kleding op een persoon – veel aandacht heeft gekregen, blijft de omgekeerde taak, Virtual Try-Off (VTOFF), onderbelicht.

Doel: Het genereren van gestandaardiseerde, "in-shop" productafbeeldingen (platgelegde kleding) direct vanuit foto's van mensen die de kleding dragen.
Praktische relevantie: Essentieel voor e-commerce (catalogusbeheer), image retrieval, outfit-recommendatie en het trainen van foundation modellen.
Uitdagingen: Bestaande methoden, die vaak VTON-pipelines omkeren, kampen met twee grote beperkingen:
1. Vagheid: Het vertrouwen op slechts één visuele input leidt tot ambiguïteit (bijv. onduidelijkheid over de kledingstijl of categorie).
2. Detailverlies: Generatieve modellen verliezen vaak fijne texturen, patronen en structurele details, wat de bruikbaarheid in de echte wereld beperkt.
3. Architecturale mismatch: Bestaande oplossingen zijn niet specifiek ontworpen voor de unieke eisen van VTOFF, zoals het omgaan met diverse kledingcategorieën (bovenlichaam, onderlichaam, jurken) en complexe poses/occlusies.

2. Methodologie: TEMU-VTOFF

De auteurs stellen TEMU-VTOFF (Text-Enhanced MUlti-category Virtual Try-OFF) voor, een nieuw architectuurframework gebaseerd op Diffusion Transformers (DiT) en flow-matching.

Kerncomponenten:

Dual-DiT Architectuur:
- In plaats van één model dat alles doet, wordt gebruik gemaakt van twee gespecialiseerde DiT-modellen (gebaseerd op Stable Diffusion 3):
  - Feature Extractor ( $F_E$ ): Een DiT dat specifiek is getraind om de geklede persoon af te beelden. Het extrahet intermediaire sleutel- en waardenfeatures (keys/values) uit de personafbeelding. Dit model wordt getraind met een standaard diffusietaak, maar bij inferentie worden alleen de features van tijdstip $t=0$ (schone data) gebruikt.
  - Garment Generator ( $F_D$ ): De hoofd-DiT die de schone kleding genereert. Deze maakt gebruik van de features van $F_E$ als conditionering.
Multimodale Hybrid Attention (MHA):
- Een nieuw attention-mechanisme dat drie informatiebronnen combineert:
  - Visuele features: De intermediaire features van de geklede persoon (uit $F_E$ ).
  - Tekstuele beschrijvingen: Embeddings van CLIP en T5, gebaseerd op een tekstuele beschrijving van de kleding (bijv. "een denim shirt met lange mouwen").
  - Maskers: Binair segmentatiemaskers om de ruimtelijke grenzen van het kledingstuk te definiëren.
- Dit mechanisme lost visuele ambiguïteit op door tekst en maskers te koppelen aan de visuele features, waardoor het model de juiste kledingcategorie en stijl kan herkennen.
Garment Aligner Module:
- Om het verlies van hoge-frequentie details (texturen, logo's) te voorkomen, wordt een alignment loss geïntroduceerd.
- Tijdens het trainen worden de features van de 8e Transformer-block van de generator vergeleken met de features van een ingevroren DINOv2-encoder (een sterke visuele encoder) die op de doel-kleding (ground truth) is toegepast.
- Een lichtgewicht CNN-projector brengt de token-ruimtes in lijn. Deze loss zorgt ervoor dat de gegenereerde kleding structureel en textueel overeenkomt met de echte productfoto.
- Opmerking: Deze module wordt alleen tijdens het trainen gebruikt en heeft geen impact op de inferentie-snelheid.
Trainingstrategie:
- Twee-staps training: Eerst wordt de Feature Extractor ( $F_E$ ) getraind. Vervolgens wordt de Generator ( $F_D$ ) getraind met de features van $F_E$ (bij $t=0$ ) als conditionering, gecombineerd met de standaard diffusietaak en de alignment loss.
- Tekstgeneratie: Voor training worden tekstbeschrijvingen gegenereerd vanuit de ground-truth kledingafbeeldingen. Voor inferentie worden deze gegenereerd vanuit de input-persoonafbeelding (gebruikmakend van een VLM zoals Qwen2.5-VL), zodat het model werkt in "in-the-wild" scenario's.

3. Belangrijkste Bijdragen

Universeel Multi-Categorie Framework: TEMU-VTOFF is het eerste model dat naadloos werkt voor verschillende kledingcategorieën (bovenlichaam, onderlichaam, jurken) zonder specifieke pipelines per categorie.
Multimodale Conditionering: De innovatieve combinatie van tekst, maskers en visuele features via de Hybrid Attention lost het probleem van visuele ambiguïteit op.
Detailbehoud via Alignment: De introductie van de Garment Aligner module, die gebruikmaakt van DINOv2-features, verbetert significant de kwaliteit van texturen en structurele details.
State-of-the-Art Performance: Het paper presenteert een nieuw state-of-the-art op VTOFF-taken, met een focus op zowel visuele realisme als consistentie met de doelkleding.

4. Resultaten

De methode is getest op twee grote datasets: Dress Code (multi-categorie) en VITON-HD (alleen bovenlichaam).

Kwantitatieve Prestaties:
- TEMU-VTOFF behaalt de beste scores op de meeste metrics (FID, KID, DISTS, SSIM, PSNR) in vergelijking met concurrenten zoals TryOffDiff, MGT, Any2AnyTryon en Voost.
- Op de complexe Dress Code dataset (met jurken en onderkleding) is de prestatieverbetering het grootst, wat de kracht van de multi-categorie aanpak onderstreept.
- De methode behaalt een FID van 5.74 op de Dress Code dataset (tegenover 12.32 voor Any2AnyTryon), wat aangeeft dat de gegenereerde distributie dichter bij de ground truth ligt.
Kwalitatieve Resultaten:
- Visuele vergelijkingen tonen aan dat TEMU-VTOFF beter in staat is om kleur, textuur, halslijnen en mouwlengte correct weer te geven, zelfs bij complexe poses en occlusies.
- Concurrenten vertonen vaak artefacten, vervormde structuren of verliezen fijne details.
Ablatie Studies:
- Het verwijderen van de Feature Extractor leidt tot een duidelijke prestatiedaling.
- Het verwijderen van tekst of maskers verslechtert de resultaten, wat aantoont dat beide modaliteiten complementair zijn (tekst voor semantiek, maskers voor ruimtelijke precisie).
- De Garment Aligner is cruciaal voor het behoud van hoge-frequentie details.
Downstream Utility:
- Als data-augmentatiemiddel voor VTON-taken (Virtual Try-On) gebruikt, verbetert TEMU-VTOFF de prestaties van bestaande VTON-modellen (zoals CatVTON), wat aantoont dat de gegenereerde "in-shop" afbeeldingen van hoge kwaliteit zijn.

5. Betekenis en Conclusie

TEMU-VTOFF markeert een belangrijke doorbraak in de mode-AI. Het verschuift de focus van het simpele "omkeren" van VTON-modellen naar het ontwerpen van een specifieke architectuur voor kledingherstel.

Schalbaarheid: Het biedt een schaalbare oplossing voor retailers om duizenden "in-shop" catalogusfoto's te genereren zonder dure fotoshoots.
Technische Innovatie: De combinatie van Dual-DiT, multimodale attention en representatie-alignment met DINOv2 biedt een blauwdruk voor hoe generatieve modellen complexere, detailrijke reconstructietaken kunnen aanpakken.
Toekomst: De code en modellen zijn openbaar beschikbaar, wat de basis legt voor verdere research in inverse generatieve taken en dataset-curatie.

Kortom, TEMU-VTOFF lost het probleem van het reconstrueren van schone kledingafbeeldingen uit geklede personen op met een ongeëvenaarde kwaliteit, wat direct toepasbaar is in de multimiljard-dollar mode-industrie.