Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals

本文提出了 TEMU-VTOFF 框架,通过结合文本增强与多模态注意力机制的双 DiT 架构及结构对齐模块,有效解决了从穿着者图像生成多类别标准化服装产品图(虚拟试穿逆任务)中存在的视觉歧义与细节丢失问题,并在多个基准测试中取得了最先进的性能。

Davide Lobba, Fulvio Sanguigni, Bin Ren, Marcella Cornia, Rita Cucchiara, Nicu Sebe

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 TEMU-VTOFF 的新 AI 模型,它的核心任务可以用一个生动的比喻来理解:“把穿在身上的衣服‘脱’下来,还原成商店里展示的完美样衣”

在电商世界里,我们通常看到两种图:

  1. 模特图:真人穿着衣服,姿势各异,背景复杂,衣服可能因为动作而皱巴巴或被遮挡。
  2. 平铺图(样衣图):衣服平整地摆在白底上,没有褶皱,清晰展示所有细节,用于商品目录。

传统的 AI 技术擅长做“虚拟试穿”(VTON),即把平铺的衣服“穿”到模特身上。但这篇论文反其道而行之,做**“虚拟试脱”(VTOFF)**:给你一张模特穿着衣服的照片,AI 自动帮你把衣服“脱”下来,还原成那张完美的平铺图。

🧐 为什么这很难?(现有的痛点)

想象一下,你让一个画家根据一张“模特穿着皱巴巴 T 恤”的照片,画出这件 T 恤“平整挂在衣架上”的样子。这很难,因为:

  • 信息缺失:衣服被身体挡住了(比如腋下、背部),AI 不知道被挡住的部分长什么样。
  • 细节模糊:衣服上的花纹、纽扣、领口形状,因为模特的动作和光线,在照片里变得扭曲或模糊。
  • 种类繁杂:衣服有上衣、裤子、裙子,每种衣服的“脱法”和结构都不同。

以前的 AI 方法要么“脱”得不像(纹理丢失),要么只能处理单一类型的衣服,无法通用。

🚀 TEMU-VTOFF 是怎么做到的?(核心魔法)

作者设计了一个名为 TEMU-VTOFF 的“超级裁缝”,它用了三个聪明的招数:

1. 双核大脑(Dual-DiT):一个负责“看”,一个负责“画”

这就好比一个侦探和一个画家在合作:

  • 侦探(特征提取器):专门盯着模特身上的照片看。它不看整体,而是像放大镜一样,把衣服上的纹理、褶皱、被遮挡的部分都“脑补”出来,提取出最干净的特征。
  • 画家(生成器):拿着侦探提供的线索,在画布上重新画出这件衣服。
  • 关键点:侦探只负责从“脏”照片里提取“干净”的信息,画家只负责画。这样分工明确,画出来的衣服细节更丰富,不会糊成一团。

2. 多感官协同(多模态注意力):看图 + 读字 + 看轮廓

以前的 AI 可能只看图,容易猜错。TEMU-VTOFF 像个全能助手,它同时接收三种信息:

  • 看图:模特身上的衣服长啥样。
  • 读字(文本提示):AI 会先“读”懂这件衣服的描述(比如“这是一件带纽扣的蓝色牛仔衬衫”)。这就像给画家一个文字说明书,防止它把衬衫画成 T 恤,或者把蓝色画成红色。
  • 看轮廓(掩码):AI 知道衣服在模特身上的具体范围(哪里是袖子,哪里是衣身),像用描边笔一样,强制衣服保持正确的形状。

3. 细节修正师(Garment Aligner):像“校对员”一样检查

在训练过程中,AI 画完图后,会请一位**“资深校对员”(预训练的 DINOv2 模型)**来检查。

  • 校对员不看整张图,而是拿着放大镜看衣服的纹理和结构(比如纽扣是不是圆的,领口是不是对称的)。
  • 如果 AI 画的细节不够好,校对员就会“批评”它,让它重新调整。
  • 注意:这个校对员只在训练时存在,等模型真正去干活(推理)时,它就不在了,所以不会拖慢速度。

🌟 这个技术有什么用?

  1. 电商救星:商家不需要再花钱请模特、租摄影棚、买熨斗去拍那种完美的平铺图。只要模特穿着衣服拍张照,AI 就能自动生成完美的商品图,省大钱!
  2. 数据大清洗:以前训练 AI 需要大量完美的“衣服 - 模特”配对数据,很难收集。现在可以用这个技术,把海量的模特图自动转换成标准样衣图,极大地丰富了数据库。
  3. 更智能的推荐:因为还原出的衣服非常标准,AI 更容易识别这件衣服适合搭配什么裤子,或者推荐给谁。

📝 总结

简单来说,TEMU-VTOFF 就是一个**“逆向试衣间”。它不仅能帮你把衣服“脱”下来,还能把皱巴巴、被遮挡的衣服,瞬间“熨平”并“还原”成商店里那种完美无瑕的展示图。它通过分工合作(双核)**、多管齐下(看图读字)严格校对(细节修正),解决了以前 AI 做不到的难题,让电商和时尚行业能更高效地工作。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →