PROMO: Promptable Outfitting for Efficient High-Fidelity Virtual Try-On

이 논문은 유동 매칭 기반의 DiT 아키텍처와 잠재 공간의 다중 모달 조건 결합 및 자기 참조 메커니즘을 활용하여, 기존 가상 의류 입기 (VTON) 방법들보다 높은 화질과 추론 효율성을 동시에 달성하는 프롬프트 기반 프레임워크 'PROMO'를 제안합니다.

Haohua Chen, Tianze Zhou, Wei Zhu, Runqi Wang, Yandong Guan, Dejia Song, Yibo Chen, Xu Tang, Yao Hu, Lu Sheng, Zhiyong Wu

게시일 2026-03-13
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

PROMO: 당신의 옷장 속 '마법 거울'을 소개합니다

안녕하세요! 오늘 소개해 드릴 논문은 **'PROMO'**라는 이름의 새로운 기술에 대한 것입니다. 이 기술은 온라인 쇼핑할 때 "이 옷을 입으면 내 몸에 잘 어울릴까?"라는 고민을 해결해 주는 가상 피팅 (Virtual Try-On) 기술의 차세대 버전입니다.

기존 기술들이 가진 문제점과 PROMO 가 어떻게 이를 해결했는지, 마치 요리사요리 도구에 비유해서 쉽게 설명해 드릴게요.


1. 기존 기술의 문제점: "거친 요리사들"

과거의 가상 피팅 기술들은 두 가지 큰 문제를 겪고 있었습니다.

  • 문제 1: 옷이 찌그러지거나 뚝뚝 끊겨요.
    예전 기술들은 옷을 사람 몸에 붙일 때 마치 종이 인형을 끼우는 것처럼 옷을 늘이거나 구부리는 방식 (Warpping) 을 썼습니다. 하지만 옷은 종이가 아니죠. 그래서 옷이 비틀리거나, 주름이 이상하게 잡히거나, 피부가 옷 밖으로 튀어나오는 어색한 결과가 자주 나왔습니다.
  • 문제 2: 느리고 비싸요.
    최근에는 AI(확산 모델) 를 써서 더 현실적인 사진을 만들지만, 이 과정이 매우 느리고 컴퓨터 성능을 많이 잡아먹습니다. 마치 고해상도 영화를 만들 때 컴퓨터가 과열될 정도로 무거운 작업을 해야 했죠. 또한, 옷의 디테일 (단추, 무늬) 이 흐릿해지거나 옷감이 실제처럼 느껴지지 않는 경우가 많았습니다.

2. PROMO 의 등장: "요리 실력도 좋고, 속도도 빠른 천재 셰프"

PROMO 는 이 모든 문제를 해결하기 위해 등장했습니다. 이를 세 가지 핵심 비법으로 나누어 설명해 볼게요.

① "요리 레시피"를 잘 읽는 능력 (프롬프트 기반 스타일 제어)

기존 기술들은 옷을 입히는 것만 신경 썼지, **"어떻게 입을지 (스타일)"**는 무시했습니다. 예를 들어, "셔츠를 허리에 넣어서 깔끔하게 입어" 혹은 "소매를 걷어서 편하게 입어" 같은 세부 지시를 못 했죠.

  • PROMO 의 비법: PROMO 는 Qwen 이라는 AI 언어 모델을 훈련시켜서, 옷 사진을 보고 "이 옷은 V 넥이고, 소매는 팔꿈치 위까지 오는 긴팔이야"라고 **자연스러운 설명 (프롬프트)**을 만들어냅니다.
  • 비유: 마치 요리사에게 "매콤하게, 약간 매콤하게, 아주 매콤하게" 중 원하는 맛을 말하면 그대로 만들어주는 것처럼, 사용자가 원하는 옷차림 스타일을 텍스트로 지시하면 그대로 구현해 줍니다.

② "여분의 재료"를 줄이는 지혜 (공간 조건 통합)

옷을 입힐 때 필요한 정보 (사람의 자세, 옷의 모양, 마스크 등) 가 너무 많으면 AI 가 처리하느라 지쳐버립니다. 기존 방식은 이 정보들을 하나하나 큰 용량으로 다 넣었습니다.

  • PROMO 의 비법: PROMO 는 이 정보들을 중요도별로 다듬어서 압축합니다. 예를 들어, 옷의 전체 모양은 자세히 보지만, 옷이 가린 몸통의 자세 정보는 조금 더 간략하게 처리합니다.
  • 비유: 요리할 때 모든 재료를 다 큰 냄비에 넣지 않고, 중요한 건 정성껏 넣고, 부수적인 건 적당히 줄여서 요리하는 것과 같습니다. 이렇게 하면 컴퓨터가 훨씬 빠르게 요리 (이미지 생성) 를 끝낼 수 있습니다.

③ "한 번에 여러 번" 기억하는 기술 (시간적 자기 참조)

가상 피팅을 할 때 AI 는 그림을 그리는 과정을 여러 단계 (시간) 로 나누어 진행합니다. 보통은 매 단계마다 옷의 정보를 다시 다시 확인해야 해서 시간이 오래 걸립니다.

  • PROMO 의 비법: PROMO 는 첫 단계에서 옷의 정보를 한 번만 기억 (캐싱) 해두고, 그 뒤의 단계에서는 그 기억을 재활용합니다.
  • 비유: 요리할 때 재료를 다 썰어놓고 한 번에 냄비에 넣는 게 아니라, 처음에 다 썰어둔 뒤에는 그 썰어진 재료를 계속 꺼내서 쓰는 것처럼, 불필요한 작업을 줄여서 속도를 2 배 이상 빠르게 만들었습니다.

3. PROMO 가 가져온 변화: "실제 입어본 것처럼"

이 기술이 실제로 어떤 효과를 냈는지 요약해 드리면:

  1. 실물 같은 옷감: 옷의 주름, 무늬, 재질감이 마치 실제 사진을 찍은 것처럼 선명합니다.
  2. 여러 옷 한 번에 입히기: 상의와 하의를 동시에 입히거나, 드레스와 액세서리를 함께 입히는 것도 가능합니다.
  3. 빠른 속도: 고화질 이미지를 만드는 데 걸리는 시간이 기존 기술보다 훨씬 짧아져서, 모바일 앱에서도 실시간으로 사용할 수 있게 되었습니다.
  4. 현실적인 상황 대응: 배경이 복잡하거나 옷이 헐렁한 경우에도 몸매가 자연스럽게 유지되도록 설계되었습니다.

4. 결론: 당신의 온라인 쇼핑 파트너

PROMO 는 단순히 옷을 입히는 것을 넘어, **"내가 이 옷을 입으면 어떤 스타일이 될지"**까지 상상할 수 있게 해주는 초현실적인 가상 피팅 거울입니다.

앞으로 온라인 쇼핑몰에서 "이 옷을 입어보세요" 버튼을 누르면, AI 가 당신의 몸매와 취향에 맞춰 가장 자연스럽고 빠른 속도로 옷을 입혀드릴 것입니다. 반품을 줄이고, 쇼핑의 즐거움을 더하는 진정한 혁신이라고 할 수 있죠!