Multi-Level Conditioning by Pairing Localized Text and Sketch for Fashion Image Generation

本文提出了名为 LOTS 的多级引导框架,通过结合全局草图与局部文本 - 草图对来增强时尚图像生成,并发布了首个包含多对文本 - 草图的高质量时尚数据集 Sketchy 以验证该方法在保持全局结构的同时有效融合局部语义细节的能力。

Ziyue Liu, Davide Talon, Federico Girella, Zanxi Ruan, Mattia Mondo, Loris Bazzani, Yiming Wang, Marco Cristani

发布于 2026-02-23
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 LOTS 的新方法,它能让电脑像一位“超级时尚设计师”一样,根据草图文字描述,精准地画出复杂的时装搭配。

为了让你更容易理解,我们可以把这项技术想象成**“指挥一个由多个画手组成的团队,共同完成一幅巨大的时装画”**。

1. 以前的痛点:混乱的“大锅饭”

想象一下,你以前让 AI 画一套衣服(比如一件衬衫和一条裤子)。

  • 以前的做法:你给 AI 一张整体的草图,然后写一段话:“衬衫是红色的,裤子是蓝色的”。
  • 出现的问题:AI 经常“脑子短路”。它可能把“红色”画在了裤子上,把“蓝色”画在了衬衫上。这就叫**“属性混淆”**(Attribute Confusion)。就像你让厨师做“红烧肉”和“清蒸鱼”,结果厨师把红烧汁浇在了鱼身上,清蒸酱涂在了肉上。

2. LOTS 的解决方案:精准的“分头行动”

这篇论文提出的 LOTS 方法,就像是一个聪明的项目经理,它把任务拆解得更细致:

  • 局部指挥(Localized Pairs)
    它不再把衣服当成一个整体,而是把每一件衣服都单独对待。

    • 对于衬衫:它拿着一张衬衫的草图,配上一句“红色、丝绸材质”的文字。
    • 对于裤子:它拿着裤子的草图,配上一句“蓝色、牛仔材质”的文字。
    • 比喻:就像你给画手 A 一张衬衫的草图并说“画红的”,给画手 B 一张裤子的草图并说“画蓝的”。这样就不会搞混了。
  • 全局统筹(Global Guidance)
    光有局部还不够,如果每个人只画自己的部分,衣服可能连不起来,或者姿势很怪。

    • LOTS 还有一个**“总指挥”**,它看着整张全身草图,确保衬衫和裤子在空间上是协调的,整体风格(比如是去婚礼还是去海边)是统一的。
    • 比喻:总指挥告诉画手们:“虽然你们各自画红衬衫和蓝裤子,但要注意,它们必须穿在同一个模特身上,姿势要自然,背景要统一。”

3. 核心创新:两个阶段的“排练”

LOTS 的工作流程分为两步,非常像戏剧排练:

  1. 第一阶段:分头准备(Multi-level Conditioning)

    • 系统先分别理解每一组“草图 + 文字”(局部),同时也理解整张全身草图(全局)。
    • 它把这些信息都记在脑子里,但暂时不混合。就像演员们先各自背好自己的台词和动作,互不干扰。
  2. 第二阶段:融合演出(Diffusion Pair Guidance)

    • 在生成图像的过程中(就像演员上台表演),系统才慢慢把这些局部信息和全局信息融合在一起。
    • 关键点:它不是在一开始就把所有信息“搅拌”在一起(那样容易乱),而是在生成的每一步都小心地引导,确保“红”只出现在衬衫上,“蓝”只出现在裤子上,同时整体看起来又很和谐。

4. 新玩具:Sketchy 数据集

为了训练这个 AI,作者们还做了一个叫 Sketchy 的新数据库。

  • 以前:大家只有整张图的草图。
  • 现在:他们把一张图里的每件衣服都单独抠出来,画了单独的草图,并给每件衣服都配了详细的文字描述(比如“这件衬衫是紫色的,有领子”)。
  • 特别之处:他们还收集了普通人画的草图(“野生”草图)。哪怕你画得歪歪扭扭,像小孩涂鸦,这个系统也能理解你想表达什么,这大大增强了它的实用性。

5. 结果如何?

实验证明,LOTS 是目前的**“冠军”**:

  • 不乱画:它极少犯“把颜色画错衣服”的低级错误。
  • 听指挥:它能完美遵循你画的草图线条。
  • 懂审美:生成的图片既符合文字描述,又符合草图结构,看起来非常自然。

总结

简单来说,LOTS 就是给 AI 装上了一套**“分区域管理”**的操作系统。它不再把衣服画成一个大杂烩,而是像一位经验丰富的裁缝,左手拿着衬衫的图纸和布料说明,右手拿着裤子的图纸和布料说明,同时心里装着整体造型的蓝图,最终为你缝制出一套完美、精准且符合你想象的时装。

这项技术不仅能让设计师快速把灵感变成图,未来甚至可能让普通人也能通过简单的涂鸦和说话,定制出独一无二的专属服装。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →