Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals

이 논문은 단일 이미지 기반의 모호성과 세부 정보 손실 문제를 해결하기 위해 텍스트, 이미지, 마스크 정보를 통합한 'TEMU-VTOFF' 프레임워크를 제안하여, 의복 착용자 사진으로부터 고품질의 표준 제품 이미지를 생성하는 역가상 피팅 (VTOFF) 기술의 성능을 획기적으로 개선합니다.

Davide Lobba, Fulvio Sanguigni, Bin Ren, Marcella Cornia, Rita Cucchiara, Nicu Sebe

게시일 2026-02-24
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"입고 있는 옷을 입은 사람 사진에서, 그 옷이 가게에 진열된 상태 (평평하게 펴진 상태) 로 다시 만들어내는 기술"**에 대한 이야기입니다.

기존에 많이 알려진 '가상 의상 입히기 (Virtual Try-On)'는 옷 사진을 사람 사진에 입히는 것이었다면, 이 논문에서 소개하는 **'가상 의상 벗기기 (Virtual Try-Off)'**는 그 반대입니다. 사람이 입고 있는 사진을 보고, 그 옷이 어떻게 생겼는지 깔끔한 상품 사진으로 복원해내는 것입니다.

이 기술을 쉽게 이해할 수 있도록 세 가지 핵심 비유로 설명해 드리겠습니다.


1. 비유: "복잡한 미로에서 보물을 찾아내는 탐정"

상황:
사람이 입고 있는 옷 사진은 마치 옷이 구겨지고, 주름이 잡히고, 다른 물건 (가방, 다른 옷) 에 가려진 상태입니다. 또한, 사람 몸의 자세나 표정에 따라 옷의 모양이 왜곡되어 보입니다.
기존 기술들은 이 복잡한 상태의 옷을 보고 "아, 이건 티셔츠구나"라고 대충 추측해서 평평한 옷 사진을 만들려고 했지만, 무늬가 흐릿해지거나 옷의 모양이 일그러지는 문제가 있었습니다.

이 논문의 해결책 (TEMU-VTOFF):
이 연구팀은 **두 명의 탐정 (Dual-DiT)**을 고용했습니다.

  1. 첫 번째 탐정 (Feature Extractor): "입고 있는 사람 사진"을 자세히 분석합니다. 옷이 어떻게 구겨졌는지, 어떤 부분이 가려졌는지, 옷의 본래 구조는 무엇인지 **세부적인 단서 (Key & Value)**를 모읍니다.
  2. 두 번째 탐정 (Generator): 첫 번째 탐정이 모은 단서들을 바탕으로, 가게에 진열된 것처럼 깔끔한 옷 사진을 그려냅니다.

이 두 명이 협력하기 때문에, 옷이 구겨져 있거나 가려져 있어도 원래 옷의 모양과 무늬를 정확히 복원할 수 있습니다.

2. 비유: "요리사와 레시피 (텍스트) 의 완벽한 조화"

문제:
옷 사진만 보고 옷을 복원하려다 보면, "이 옷이 긴팔인지 짧은팔인지", "넥라인이 둥근지 V 자인지"를 헷갈릴 때가 많습니다. 마치 음식 사진만 보고 레시피를 완벽하게 기억해 내는 것처럼 어렵습니다.

해결책 (멀티모달 어텐션):
이 연구팀은 **옷에 대한 설명 (텍스트)**을 함께 사용합니다.

  • "파란색 데님 셔츠, 긴팔, 단추가 있는 넥라인"이라고 **레시피 (텍스트)**를 알려주면, AI 는 "아, 파란색 데님 셔츠구나!"라고 정확히 이해합니다.
  • 여기에 **옷의 윤곽선 (마스크)**까지 더하면, AI 는 "옷이 몸의 어디까지 덮고 있는지"를 정확히 알 수 있어, 옷의 모양이 흐트러지지 않고 딱 맞게 그려낼 수 있습니다.

이처럼 **눈 (이미지), 귀 (텍스트 설명), 손 (윤곽선)**을 모두 활용해서 옷을 복원하는 것이 이 기술의 핵심입니다.

3. 비유: "고화질 사진 보정 전문가 (Garment Aligner)"

문제:
AI 가 옷을 그릴 때, 큰 모양은 잘 나오는데 작은 무늬, 로고, 버튼, 천의 질감 같은 디테일은 흐릿해지거나 사라지는 경우가 많습니다. 마치 저화질 사진을 확대할 때 픽셀이 깨지는 것과 비슷합니다.

해결책 (정렬 모듈):
연구팀은 **전문 보정 전문가 (Garment Aligner)**를 고용했습니다.

  • 이 전문가는 AI 가 만든 옷 사진과 **실제 깨끗한 옷 사진 (참고 자료)**을 비교합니다.
  • "여기 무늬가 조금 흐릿하네", "버튼 위치가 살짝 어긋났네"라고 지적하며 디테일을 다듬어줍니다.
  • 중요한 점은, 이 전문가가 학습 (훈련) 하는 동안만 일하고, 실제 옷을 만들어낼 때는 사라진다는 것입니다. 그래서 최종 결과물은 빠르고 깔끔하게 나옵니다.

왜 이 기술이 중요할까요?

  1. 쇼핑몰의 자동화: 쇼핑몰 주인은 모델이 입고 있는 사진만 있어도, 별도로 옷을 펴서 찍는 번거로운 작업 없이 깔끔한 상품 사진을 자동으로 만들 수 있습니다.
  2. 데이터의 보물창고: AI 가 더 똑똑해지려면 수많은 옷 사진이 필요한데, 이 기술로 수천 장의 옷 사진을 자동으로 만들어낼 수 있어 AI 학습 비용을 크게 줄여줍니다.
  3. 정확한 추천: "이 옷이 입고 있는 사람과 똑같은 옷을 찾아줘"라고 검색하면, 옷의 모양과 무늬가 정확히 일치하는 옷을 찾아줄 수 있습니다.

요약

이 논문은 **"사람이 입고 있는 복잡한 옷 사진에서, 마치 마법처럼 깔끔하고 정확한 상품 사진을 만들어내는 AI"**를 개발했습니다.

  • 두 개의 AI 가 협력해서 옷의 구조를 파악하고,
  • 텍스트 설명과 윤곽선을 함께 써서 헷갈림을 없애고,
  • 전문 보정 도구로 디테일을 살려서,

기존 기술보다 훨씬 실제 옷과 똑같은 고품질 이미지를 만들어냅니다. 이는 앞으로 온라인 쇼핑과 패션 산업에 큰 변화를 가져올 기술로 평가받고 있습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →