Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals

Deze paper introduceert TEMU-VTOFF, een nieuw tekst-gebaseerd raamwerk dat de uitdagingen van Virtual Try-Off overwint door hoogwaardige, gedetailleerde productafbeeldingen van kleding te genereren op basis van foto's van geklede personen, wat aanzienlijke verbeteringen oplevert ten opzichte van bestaande methoden.

Davide Lobba, Fulvio Sanguigni, Bin Ren, Marcella Cornia, Rita Cucchiara, Nicu Sebe

Gepubliceerd 2026-02-24
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een foto maakt van jezelf in een prachtig, nieuw jasje. Je ziet er geweldig uit, maar voor de webwinkel wil je niet dat je erop staat, maar alleen het jasje zelf, plat uitgespreid, als een catalogusfoto. Normaal gesproken moet je die foto's in een studio maken, met een mannequin, onder perfecte belichting. Dat is duur en tijdrovend.

Deze paper introduceert een slimme nieuwe manier om dat probleem op te lossen met kunstmatige intelligentie (AI). Ze noemen hun uitvinding TEMU-VTOFF.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Omgekeerde" Magie

Normaal gesproken doen computers "Virtual Try-On": ze nemen een foto van een kledingstuk en "plakken" die virtueel op een persoon.
Deze paper doet het omgekeerde: Virtual Try-Off. Ze nemen een foto van een persoon in kleding en proberen het kledingstuk er weer "af te halen" om een schone, platte foto van het kledingstuk te maken.

Het is alsof je een foto van een gebakken ei ziet en de AI moet precies reconstrueren hoe het rauwe ei eruitzag voordat het werd gebakken, inclusief de schaal en de vorm, zonder dat er een ei in de pan zat.

2. De Uitdaging: Het is niet zomaar "wegknippen"

Als je een kledingstuk op een persoon draagt, is het verfrommeld, zit het strak om je lichaam, en zijn er vaak deels bedekt door je armen of andere kledingstukken.

  • De oude manier: Bestaande AI-modellen probeerden dit door het proces van "Try-On" gewoon om te draaien. Dat werkte niet goed. Het resultaat zag er vaak uit als een wazige vlek of een vervormd kledingstuk, alsof je een foto van een gebogen T-shirt probeerde te rechtstrekken met een simpele filter.
  • Het nieuwe idee: De auteurs zeggen: "We hebben een speciaal gereedschap nodig, niet zomaar een omgekeerde hamer."

3. De Oplossing: TEMU-VTOFF (De Slimme Chef)

De auteurs hebben een nieuw systeem gebouwd dat werkt als een superchef in een keuken. Hier zijn de drie belangrijkste ingrediënten van hun recept:

A. De Tweeling (De Dual-DiT)

Stel je voor dat je twee chefs hebt die samenwerken:

  1. Chef 1 (De Observator): Deze kijkt naar de foto van de persoon in kleding. Hij probeert niet het kledingstuk te maken, maar alleen te begrijpen: "Wat voor stof is dit? Waar zitten de knopen? Hoe zit de kraam?" Hij haalt alle details uit de foto van de persoon.
  2. Chef 2 (De Maker): Deze chef krijgt de instructies van Chef 1 en tekent het kledingstuk opnieuw, maar dan perfect plat en schoon, alsof het op een hanger hangt.

Ze werken samen in een "tandem", waarbij de ene chef de andere helpt om de details niet kwijt te raken.

B. De Vertaler (Tekst en Maskers)

Soms is de foto van de persoon verwarrend. Is dat een korte mouw of een lange mouw die omhoog is geschoven?

  • De Tekst: Het systeem vraagt de AI: "Beschrijf dit kledingstuk." De AI leest dan: "Dit is een blauwe denim jas met lange mouwen en een ronde hals." Dit helpt de maker om de vorm te begrijpen, zelfs als de mouw in de foto verfrommeld zit.
  • Het Masker: De AI weet ook precies welke pixels bij de persoon horen en welke bij de kleding. Dit is als een sjabloon dat de maker helpt om de randen scherp te houden.

C. De Kwaliteitscontroleur (De Garment Aligner)

Soms maakt de AI een mooie vorm, maar zijn de patronen (zoals een ruitje of een logo) een beetje wazig.
Om dit op te lossen, hebben ze een speciale "kwaliteitscontroleur" toegevoegd. Deze vergelijkt het werk van de AI tijdens het trainen met een foto van een perfect, schoon kledingstuk (een "DINO" foto, een soort expert in visuele details).

  • De analogie: Het is alsof een schilder zijn werk tussendoor vergelijkt met een meesterwerk in een museum. Als de streken niet overeenkomen, past hij zijn penseelwerk aan. Dit zorgt ervoor dat de uiteindelijke foto niet alleen de juiste vorm heeft, maar ook de fijne details (zoals de textuur van de stof) perfect behoudt.

4. Waarom is dit geweldig?

  • Voor webwinkels: Ze hoeven geen dure studio's meer te huren om foto's van hun kleding te maken. Ze kunnen gewoon foto's van modellen of klanten gebruiken en de AI maakt er professionele catalogusfoto's van.
  • Voor ons: Het betekent dat we makkelijker kleding kunnen vinden die we leuk vinden, omdat er meer "schone" foto's beschikbaar zijn in de databases.
  • Veelzijdigheid: Het werkt voor T-shirts, broeken én jurken. Veel oude systemen faalden bij broeken of jurken, maar dit systeem is slim genoeg om voor elk type kleding het juiste patroon te vinden.

Samenvatting

Kortom, TEMU-VTOFF is een slimme AI die foto's van mensen in kleding kan "ontleden" en er perfecte, platte foto's van de kledingstukken van maakt. Het doet dit door te werken met een team van twee AI's (een observerende en een maker), geholpen door tekstbeschrijvingen en een strenge kwaliteitscontroleur. Het resultaat? Scherpe, realistische kledingfoto's die eruitzien alsof ze in een dure winkel zijn gemaakt, maar die zijn gegenereerd uit een simpele selfie.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →