MV-Fashion: Towards Enabling Virtual Try-On and Size Estimation with Multi-View Paired Data

이 논문은 가상 의류 착용 (VTON) 과 사이즈 추정과 같은 패션 특화 연구를 위해, 실제 착용 상태와 평면 카탈로그 이미지를 쌍으로 포함하는 3,273 개의 시퀀스와 7,250 만 프레임 규모의 대규모 다중 뷰 비디오 데이터셋인 'MV-Fashion'을 제안합니다.

Hunor Laczkó, Libang Jia, Loc-Phat Truong, Diego Hernández, Sergio Escalera, Jordi Gonzalez, Meysam Madadi

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'MV-Fashion'**이라는 새로운 데이터셋을 소개하는 연구입니다. 쉽게 말해, 온라인 쇼핑몰에서 옷을 입어보는 '가상 피팅 (Virtual Try-On)'과 '내 몸에 맞는 사이즈 찾기'를 훨씬 더 똑똑하고 정확하게 만들어주기 위해 만든 거대한 옷 입은 사람들의 영상 도서관이라고 생각하시면 됩니다.

이 내용을 일상적인 비유로 설명해 드릴게요.

1. 왜 이 연구가 필요할까요? (문제점)

지금까지 옷을 입어보거나 사이즈를 재는 AI 를 훈련시키기 위해 두 가지 종류의 데이터가 있었지만, 둘 다 불완전했습니다.

  • 2D 사진 데이터 (예: 옷장 속 평면 사진): 옷이 어떻게 생겼는지는 알 수 있지만, 사람이 입었을 때 옷이 어떻게 주름지고 움직이는지 (3 차원 정보) 는 알 수 없어요. 마치 평면 지도만 보고 3D 미로를 찾는 것과 비슷합니다.
  • 3D/4D 데이터 (예: 입은 사람 영상): 사람이 옷을 입고 움직이는 모습은 잘 보여주지만, 그 옷이 원래 어떤 모양의 평면 옷 (카탈로그 이미지) 이었는지에 대한 정보가 없어요. 마치 완성된 퍼즐은 있는데, 그 퍼즐 조각이 어떤 그림인지 알 수 없는 상태입니다.

이 두 가지를 따로따로 쓰다 보니, "이 옷을 입었을 때 내 몸매에 잘 맞을까?"를 정확히 예측하거나, "이 옷을 입은 채로 옆에서 보면 어떻게 보일까?"를 구현하는 데 한계가 있었습니다.

2. MV-Fashion 이 뭐죠? (해결책)

연구팀은 이 문제를 해결하기 위해 60 대 이상의 카메라가 둘러싼 특수 촬영실을 지었습니다. 여기서 80 명의 다양한 사람들이 3~10 벌씩의 옷을 입고 다양한 포즈로 움직이는 영상을 찍었습니다.

이 데이터셋의 핵심은 **'쌍 (Pairing)'**입니다.

  • 한쪽 눈: 옷을 입은 사람이 360 도 돌아가며 움직이는 생생한 영상 (다양한 각도, 주름, 층층이 껴입은 옷 등).
  • 다른쪽 눈: 그 옷이 평평하게 펴져 있는 '원본 카탈로그 사진'.

이 두 가지를 완벽하게 연결해 놓았습니다. 마치 옷장 (카탈로그) 과 거울 (입은 모습) 을 동시에 보여주는 마법 같은 공간이라고 생각하세요.

3. 이 데이터로 무엇을 할 수 있나요? (활용)

이 거대한 데이터로 AI 를 훈련시켜 세 가지 놀라운 일을 해냈습니다.

  1. 가상 피팅 (Virtual Try-On):

    • 비유: "이 옷을 입으면 내 몸에서 어떻게 보일까?"를 시뮬레이션하는 것.
    • 기존에는 옷을 입힌 뒤에도 옷이 이상하게 늘어나거나 뒤틀리는 경우가 많았지만, MV-Fashion 을 통해 옷이 피부에 자연스럽게 밀착되고, 팔을 들 때 소매가 어떻게 움직이는지까지 매우 사실적으로 구현할 수 있게 되었습니다.
  2. 사이즈 예측 (Size Estimation):

    • 비유: "이 옷을 입은 사람을 보고, 그 옷의 실제 치수 (가슴 둘레, 허리 등) 를 재는 것."
    • 옷을 입은 상태에서는 주름 때문에 치수를 재기 어렵습니다. 하지만 이 데이터는 옷의 재질과 신축성까지 알려주므로, 옷을 입은 상태에서도 "이 옷은 M 사이즈구나"라고 AI 가 정확히 추측할 수 있게 됩니다.
  3. 새로운 각도에서 보기 (Novel View Synthesis):

    • 비유: "앞에서 찍은 사진만 있는데, AI 가 옆에서 찍은 사진을 만들어내는 것."
    • 옷을 입은 사람의 영상을 여러 각도에서 찍었기 때문에, AI 는 앞면 사진만 있어도 뒷모습이나 옆모습을 매우 정교하게 그려낼 수 있게 되었습니다.

4. 이 연구의 특별한 점 (혁신)

  • 실제 옷감의 느낌: 단순히 옷을 입은 게 아니라, 소매를 걷어 올린 상태, 단추를 잠근/풀린 상태, 겉옷을 껴입은 상태 등 다양한 스타일링 변화를 포함했습니다. 마치 옷장 속 옷을 직접 만져보고 입어보는 경험을 데이터로 옮긴 것과 같습니다.
  • 실제와 같은 환경: 컴퓨터로 만든 가상의 옷 (Synthetic) 이 아니라, 실제 사람이 입은 옷을 찍었기 때문에 AI 가 현실 세계에서도 잘 작동합니다.

요약하자면

이 논문은 **"온라인 쇼핑에서 옷을 고를 때 '이 옷이 내 몸에 맞을까?'라는 고민을 해결해 줄 똑똑한 AI 를 키우기 위해, 옷을 입은 사람의 모든 각도와 스타일을 완벽하게 기록한 거대한 영상 도서관을 만들었다"**는 이야기입니다.

앞으로 이 데이터를 바탕으로 우리가 온라인에서 옷을 살 때, 거울 앞에서 옷을 입어보듯 정확한 사이즈와 핏을 미리 확인하고, 반품률을 줄여 환경에도 도움이 되는 시대가 올 수 있을 것입니다.