Pinterest Canvas: Large-Scale Image Generation at Pinterest

本文介绍了 Pinterest 为应对严格产品需求而构建的大规模图像生成系统 Canvas,该系统通过“基础模型预训练结合任务特定微调”的架构,在背景增强、画幅扩展等多个实际场景中显著提升了用户参与度并优于第三方模型。

Yu Wang, Eric Tzeng, Raymond Shiau, Jie Yang, Dmitry Kislyuk, Charles Rosenberg

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍的是 Pinterest 内部开发的一个超级强大的图像生成系统,名叫 "Pinterest Canvas"

为了让你轻松理解,我们可以把 Pinterest 想象成一个巨大的**“灵感图书馆”**,里面有几亿张关于时尚、家居、美食的精美图片。用户来这里是为了寻找灵感,比如“我想把家里的客厅改成北欧风”或者“我想看看这款咖啡杯放在什么背景下最好看”。

以前,如果要用 AI 来帮用户修图或换背景,大家通常会用一个**“万能大厨师”(通用的 AI 模型)。这个厨师什么菜都会做,但让他专门做一道精致的甜点时,他可能会因为太想展示全能而把糖放多了,或者把蛋糕的形状搞错了。对于 Pinterest 来说,这是不行的,因为用户看到的必须是真实存在的产品**,不能把咖啡杯变成杯子形状的苹果。

Pinterest Canvas 的解决方案是:

1. 先培养一个“全能学徒”,再让他去“拜师学艺”

Pinterest 没有直接让那个“万能大厨师”去干活,而是先训练了一个基础模型(Base Model)

  • 比喻: 这就像是一个在烹饪学校学习了所有基础理论(切菜、火候、调味)的全能学徒。他懂各种菜系,知道怎么把东西做得好看。
  • 做法: 这个学徒在 Pinterest 海量的图片数据上接受了严格训练,学会了怎么理解文字指令,怎么根据一张图生成另一张图。

2. 针对具体任务,进行“特种训练”

这是这篇论文最核心的创新点。Pinterest 发现,不同的任务需求完全不同,甚至互相矛盾。

  • 比喻: 如果学徒要去给广告商做背景图,他必须像外科医生一样精准,绝对不能碰产品本身(比如不能把咖啡杯的颜色改了);但如果他要去给设计师做场景合成,他可能需要像魔术师一样,把产品放进雪景里,甚至改变它的角度。
  • 做法: 于是,Pinterest 让那个“全能学徒”快速转行,针对每一个具体任务(比如“换背景”、“拉长图片比例”、“把多张图合成一个场景”),在专门的数据集上进行微调(Fine-tuning)
    • 换背景版: 专门练习“只换背景,死守产品”。
    • 拉长图片版: 专门练习“把方形图变成竖长图,还要补全上下内容”。
    • 视频版: 专门练习“让静止的图片动起来”。

3. 这个系统具体能做什么?(就像给你的照片施魔法)

论文里展示了几个很酷的功能,我们可以这样理解:

  • 背景大变身(Background Outpainting):

    • 场景: 你有一张白底的产品图(比如一个白色的咖啡杯)。
    • 魔法: 你告诉 AI:“把这个杯子放在一个有阳光、有咖啡豆的深色石桌上。”
    • 结果: AI 瞬间生成一个逼真的场景,但杯子本身毫发无损,连上面的花纹都没变。这对广告商太重要了,因为不能误导消费者。
  • 图片比例大变身(Aspect-ratio Outpainting):

    • 场景: Pinterest 的页面是竖长的,但很多广告图是方形的,放上去很难看。
    • 魔法: 你告诉 AI:“把这张图上下拉长。”
    • 结果: AI 像画家一样,在图片的上方和下方“画”出了原本不存在的背景,让整张图看起来像是一张完整的竖长海报,而不是被强行拉伸的。
  • 多图合成(Multi-image Scene Synthesis):

    • 场景: 你有三个产品:一个花瓶、一个杯子、一本书。
    • 魔法: 你告诉 AI:“把它们摆在一个温馨的客厅桌子上。”
    • 结果: AI 一次性把这三个东西合成到一个完美的场景里,光影、位置都安排得妥妥当当。
  • 让图片动起来(Image-to-Motion):

    • 场景: 一张静止的沙发图。
    • 魔法: 你告诉 AI:“让镜头慢慢向左移动,展示更多房间。”
    • 结果: 静止的图片变成了一段几秒钟的平滑视频。

4. 效果怎么样?(数据不会撒谎)

Pinterest 真的把这个系统上线了,并且做了严格的测试:

  • 人工打分: 让真人评委对比 Pinterest 的 AI 和其他大厂(如 Google、OpenAI)的 AI。结果 Pinterest 的模型在**“不弄坏产品”**这一点上完胜,错误率低得多。
  • 用户点击: 当广告商使用这些 AI 生成的图片后,用户的点击率(CTR)提升了 18%点击量提升了 12.5%
    • 比喻: 这意味着,原本可能没人看的白底广告图,经过 AI 美化后,变成了让人忍不住想点进去的精美海报。

总结

Pinterest Canvas 的核心思想就是:不要试图用一个万能模型解决所有问题。

就像你家里不会只有一把刀切所有东西一样(切肉、切菜、切面包最好用不同的刀),Pinterest 选择先培养一个基础能力很强的大模型,然后针对每一个具体的业务场景,快速训练出专门的“特种兵”模型

这样做的好处是:

  1. 更精准: 专门干专门的事,效果更好。
  2. 更安全: 严格控制产品不变形,保护用户体验。
  3. 更灵活: 想加新功能?只需要微调一下,不用从头开始训练。

这就是 Pinterest 如何利用 AI,让每一张图片都变得更美、更吸引人,同时又不欺骗用户眼睛的秘诀。