Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"입고 있는 옷을 입은 사람 사진에서, 그 옷이 가게에 진열된 상태 (평평하게 펴진 상태) 로 다시 만들어내는 기술"**에 대한 이야기입니다.

기존에 많이 알려진 '가상 의상 입히기 (Virtual Try-On)'는 옷 사진을 사람 사진에 입히는 것이었다면, 이 논문에서 소개하는 **'가상 의상 벗기기 (Virtual Try-Off)'**는 그 반대입니다. 사람이 입고 있는 사진을 보고, 그 옷이 어떻게 생겼는지 깔끔한 상품 사진으로 복원해내는 것입니다.

이 기술을 쉽게 이해할 수 있도록 세 가지 핵심 비유로 설명해 드리겠습니다.

1. 비유: "복잡한 미로에서 보물을 찾아내는 탐정"

상황:
사람이 입고 있는 옷 사진은 마치 옷이 구겨지고, 주름이 잡히고, 다른 물건 (가방, 다른 옷) 에 가려진 상태입니다. 또한, 사람 몸의 자세나 표정에 따라 옷의 모양이 왜곡되어 보입니다.
기존 기술들은 이 복잡한 상태의 옷을 보고 "아, 이건 티셔츠구나"라고 대충 추측해서 평평한 옷 사진을 만들려고 했지만, 무늬가 흐릿해지거나 옷의 모양이 일그러지는 문제가 있었습니다.

이 논문의 해결책 (TEMU-VTOFF):
이 연구팀은 **두 명의 탐정 (Dual-DiT)**을 고용했습니다.

첫 번째 탐정 (Feature Extractor): "입고 있는 사람 사진"을 자세히 분석합니다. 옷이 어떻게 구겨졌는지, 어떤 부분이 가려졌는지, 옷의 본래 구조는 무엇인지 **세부적인 단서 (Key & Value)**를 모읍니다.
두 번째 탐정 (Generator): 첫 번째 탐정이 모은 단서들을 바탕으로, 가게에 진열된 것처럼 깔끔한 옷 사진을 그려냅니다.

이 두 명이 협력하기 때문에, 옷이 구겨져 있거나 가려져 있어도 원래 옷의 모양과 무늬를 정확히 복원할 수 있습니다.

2. 비유: "요리사와 레시피 (텍스트) 의 완벽한 조화"

문제:
옷 사진만 보고 옷을 복원하려다 보면, "이 옷이 긴팔인지 짧은팔인지", "넥라인이 둥근지 V 자인지"를 헷갈릴 때가 많습니다. 마치 음식 사진만 보고 레시피를 완벽하게 기억해 내는 것처럼 어렵습니다.

해결책 (멀티모달 어텐션):
이 연구팀은 **옷에 대한 설명 (텍스트)**을 함께 사용합니다.

"파란색 데님 셔츠, 긴팔, 단추가 있는 넥라인"이라고 **레시피 (텍스트)**를 알려주면, AI 는 "아, 파란색 데님 셔츠구나!"라고 정확히 이해합니다.
여기에 **옷의 윤곽선 (마스크)**까지 더하면, AI 는 "옷이 몸의 어디까지 덮고 있는지"를 정확히 알 수 있어, 옷의 모양이 흐트러지지 않고 딱 맞게 그려낼 수 있습니다.

이처럼 **눈 (이미지), 귀 (텍스트 설명), 손 (윤곽선)**을 모두 활용해서 옷을 복원하는 것이 이 기술의 핵심입니다.

3. 비유: "고화질 사진 보정 전문가 (Garment Aligner)"

문제:
AI 가 옷을 그릴 때, 큰 모양은 잘 나오는데 작은 무늬, 로고, 버튼, 천의 질감 같은 디테일은 흐릿해지거나 사라지는 경우가 많습니다. 마치 저화질 사진을 확대할 때 픽셀이 깨지는 것과 비슷합니다.

해결책 (정렬 모듈):
연구팀은 **전문 보정 전문가 (Garment Aligner)**를 고용했습니다.

이 전문가는 AI 가 만든 옷 사진과 **실제 깨끗한 옷 사진 (참고 자료)**을 비교합니다.
"여기 무늬가 조금 흐릿하네", "버튼 위치가 살짝 어긋났네"라고 지적하며 디테일을 다듬어줍니다.
중요한 점은, 이 전문가가 학습 (훈련) 하는 동안만 일하고, 실제 옷을 만들어낼 때는 사라진다는 것입니다. 그래서 최종 결과물은 빠르고 깔끔하게 나옵니다.

왜 이 기술이 중요할까요?

쇼핑몰의 자동화: 쇼핑몰 주인은 모델이 입고 있는 사진만 있어도, 별도로 옷을 펴서 찍는 번거로운 작업 없이 깔끔한 상품 사진을 자동으로 만들 수 있습니다.
데이터의 보물창고: AI 가 더 똑똑해지려면 수많은 옷 사진이 필요한데, 이 기술로 수천 장의 옷 사진을 자동으로 만들어낼 수 있어 AI 학습 비용을 크게 줄여줍니다.
정확한 추천: "이 옷이 입고 있는 사람과 똑같은 옷을 찾아줘"라고 검색하면, 옷의 모양과 무늬가 정확히 일치하는 옷을 찾아줄 수 있습니다.

요약

이 논문은 **"사람이 입고 있는 복잡한 옷 사진에서, 마치 마법처럼 깔끔하고 정확한 상품 사진을 만들어내는 AI"**를 개발했습니다.

두 개의 AI 가 협력해서 옷의 구조를 파악하고,
텍스트 설명과 윤곽선을 함께 써서 헷갈림을 없애고,
전문 보정 도구로 디테일을 살려서,

기존 기술보다 훨씬 실제 옷과 똑같은 고품질 이미지를 만들어냅니다. 이는 앞으로 온라인 쇼핑과 패션 산업에 큰 변화를 가져올 기술로 평가받고 있습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

배경: 가상 의류 착용 (Virtual Try-On, VTON) 기술은 이미 널리 연구되어 왔으나, 그 역방향 작업인 **가상 탈의 (Virtual Try-Off, VTOFF)**는 상대적으로 간과되어 왔습니다.
목표: VTOFF 는 입은 상태의 개인 사진 (Clothed Individual Photos) 에서 의류의 표준화된 제품 이미지 (Flat, In-shop version) 를 복원하는 것을 목표로 합니다.
중요성: 이 기술은 이커머스 플랫폼의 상품 검색, 의상 추천, 대규모 데이터셋 구축, 그리고 파운데이션 모델 학습에 필수적입니다.
기존 기술의 한계:
1. 모호성 (Ambiguity): 단일 사진의 시각적 단서만 의존할 경우, 의류의 디자인이나 구조에 대한 모호성이 발생합니다.
2. 세부 정보 손실: 생성된 이미지가 미세한 질감 (Texture) 과 세부 사항을 잃어버려 실제 적용에 제한이 있습니다.
3. 아키텍처 불일치: 기존 VTOFF 방법들은 대부분 VTON 파이프라인을 단순히 입력/출력을 반대로 뒤집은 것에 그쳐, VTOFF 고유의 과제 (복잡한 자세, 가림 현상, 다양한 의류 카테고리) 에 최적화되지 않았습니다.

2. 제안 방법 (Methodology: TEMU-VTOFF)

저자들은 **TEMU-VTOFF (Text-Enhanced MUlti-category Virtual Try-OFF)**라는 새로운 아키텍처를 제안합니다. 이는 텍스트와 마스크 정보를 활용한 멀티모달 어텐션 메커니즘을 기반으로 한 이중 DiT (Dual-DiT) 프레임워크입니다.

핵심 구성 요소:

이중 DiT 아키텍처 (Dual-DiT Backbone):
- 특징 추출기 (Feature Extractor, $F_E$ ): 입은 상태의 사람 이미지 ( $x_{model}$ ) 에서 의류의 미세한 특징을 추출합니다. Stable Diffusion 3 (SD3) 기반의 DiT 를 사용하며, $t=0$ (클린 데이터) 시점의 특징을 추출하여 노이즈가 없는 명확한 정보를 제공합니다.
- 의류 생성기 (Garment Generator, $F_D$ ): 추출된 특징을 활용하여 최종 의류 이미지를 생성합니다.
- 동기화 전략: 추출기는 클린 데이터 ( $t=0$ ) 에서 특징을 뽑고, 생성기는 노이즈가 있는 잠재 공간 ( $t>0$ ) 에서 작동합니다. 이는 생성 과정에 불필요한 노이즈를 주입하지 않고 가장 명확한 조건 신호를 제공하기 위함입니다.
멀티모달 하이브리드 어텐션 (Multimodal Hybrid Attention, MHA):
- 기존 SD3 의 어텐션 메커니즘을 수정하여 텍스트 임베딩, 잠재 공간 특징, 그리고 추출기 ( $F_E$ ) 의 중간 특징을 통합합니다.
- 텍스트 (Text): CLIP 과 T5 인코더를 사용하여 의류에 대한 설명 (예: "단색 셔츠", "긴 소매") 을 생성하고, 이를 통해 의류의 카테고리 (상하의, 원피스 등) 와 구조적 속성을 명시적으로 지시합니다.
- 마스크 (Mask): 의류가 차지하는 영역을 시각적으로 강제하여 구조적 경계를 명확히 합니다.
- 효과: 텍스트는 '소프트'한 의미적 조건을, 마스크는 '하드'한 공간적 조건을 제공하여 모호성을 해결하고 다양한 카테고리의 의류를 처리할 수 있게 합니다.
의류 정렬 모듈 (Garment Aligner Module):
- 문제 해결: 확산 모델의 노이즈 예측 손실 ( $L_{diff}$ ) 은 고주파수 세부 사항 (텍스처, 로고 등) 의 손실을 초래할 수 있습니다.
- 해결책: 생성된 의류의 내부 특징 (DiT 의 8 번째 블록) 과 사전 학습된 비전 인코더 (DINOv2) 의 특징 간 정렬을 강제합니다.
- 손실 함수: $L_{align}$ 을 사용하여 생성된 특징과 DINOv2 특징 간의 코사인 유사도를 최대화합니다. 이는 추론 시에는 제거되지만, 학습 중에는 고해상도 텍스처와 구조적 일관성을 유지하도록 돕습니다.
학습 전략:
- 2 단계 학습: 먼저 특징 추출기 ( $F_E$ ) 를 학습한 후, 이를 고정하고 생성기 ( $F_D$ ) 를 학습합니다.
- 전체 손실 함수: $L_{total} = L_{diff} + \lambda \cdot L_{align}$ (확산 손실 + 정렬 손실).

3. 주요 기여 (Key Contributions)

다중 카테고리 처리 (Multi-Category Try-Off): 상의, 하의, 원피스 등 다양한 의류 카테고리를 별도의 파이프라인 없이 통합된 프레임워크로 처리합니다.
멀티모달 하이브리드 어텐션: 텍스트 설명과 사람/의류의 시각적 특징을 결합하여 새로운 어텐션 메커니즘을 도입함으로써 생성의 정확도를 높였습니다.
의류 정렬 모듈: DINOv2 기반의 정렬 손실을 도입하여 미세한 텍스처와 구조적 세부 사항을 보존하는 데 성공했습니다.
범용성 및 확장성: VITON-HD 와 Dress Code 데이터셋에서 기존 SOTA 방법들보다 우수한 성능을 보이며, 생성된 데이터를 VTON 모델의 학습 데이터 증강 (Data Augmentation) 으로 활용했을 때도 성능 향상을 입증했습니다.

4. 실험 결과 (Results)

데이터셋: VITON-HD (상의 전용) 와 Dress Code (상의, 하의, 원피스 포함) 를 사용했습니다.
정량적 평가:
- Dress Code: 모든 카테고리 (전체, 상의, 하의, 원피스) 에서 SSIM, PSNR, LPIPS, DISTS, FID, KID 등 주요 지표에서 기존 SOTA (TryOffDiff, MGT, Any2AnyTryon 등) 를 압도적으로 상회했습니다. 특히 FID 와 KID 점수가 현저히 낮아 생성된 이미지의 분포가 실제 제품 이미지와 매우 유사함을 보였습니다.
- VITON-HD: 대부분의 메트릭에서 새로운 SOTA 를 달성했습니다.
정성적 평가:
- 다양한 자세와 가림 현상 (Occlusion) 하에서도 의류의 색상, 패턴, 구조 (목선, 소매 길이 등) 를 정확하게 복원했습니다.
- 기존 방법들은 종종 색상 왜곡이나 구조적 결함을 보였으나, TEMU-VTOFF 는 선명하고 사실적인 결과를 생성했습니다.
사용자 연구 (User Study): 42 명의 참가자를 대상으로 한 쌍별 비교에서 TEMU-VTOFF 가 경쟁 모델 (MGT, Any2AnyTryon) 대비 약 76~77% 의 승률을 기록하며 시각적 품질이 우수함을 입증했습니다.
다운스트림 유틸리티: TEMU-VTOFF 로 생성된 합성 의류 이미지를 VTON 모델 (CatVTON) 의 학습 데이터로 추가했을 때, VTON 모델의 성능이 향상됨을 확인했습니다.

5. 의의 및 결론 (Significance)

실용적 가치: 고가의 스튜디오 촬영 없이도 입은 상태의 사진만으로 고품질의 제품 카탈로그 이미지를 대량으로 생성할 수 있어, 패션 산업의 디지털 전환과 데이터 구축 비용을 획기적으로 절감할 수 있습니다.
기술적 혁신: VTOFF 작업을 단순한 역전달이 아닌, 텍스트와 마스크를 활용한 전용 멀티모달 생성 문제로 재정의했습니다. 특히 DiT 기반의 이중 아키텍처와 정렬 모듈을 통해 기존 확산 모델의 한계였던 세부 정보 손실 문제를 해결했습니다.
미래 전망: 이 연구는 패션 AI 의 범위를 '착용'에서 '제품 복원'으로 확장하며, 향후 더 정교한 의류 분석 및 생성 모델 개발의 기초를 마련했습니다.

요약하자면, TEMU-VTOFF는 텍스트와 시각적 단서를 결합하고, 정교한 특징 정렬 메커니즘을 통해 복잡한 상황에서도 고품질의 의류 제품 이미지를 생성하는 새로운 SOTA 모델입니다.

Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals

1. 비유: "복잡한 미로에서 보물을 찾아내는 탐정"

2. 비유: "요리사와 레시피 (텍스트) 의 완벽한 조화"

3. 비유: "고화질 사진 보정 전문가 (Garment Aligner)"

왜 이 기술이 중요할까요?

요약

1. 문제 정의 (Problem Statement)

2. 제안 방법 (Methodology: TEMU-VTOFF)

핵심 구성 요소:

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation