Pinterest Canvas: Large-Scale Image Generation at Pinterest

Il paper presenta Pinterest Canvas, un sistema di generazione di immagini su larga scala che combina un modello di diffusione fondazionale addestrato su dati multimodali con varianti specializzate ottenute tramite fine-tuning rapido, dimostrando attraverso studi di caso e test A/B risultati superiori rispetto ai modelli di terze parti per compiti come il miglioramento dello sfondo e l'outpainting, con un significativo aumento del coinvolgimento degli utenti.

Yu Wang, Eric Tzeng, Raymond Shiau, Jie Yang, Dmitry Kislyuk, Charles Rosenberg

Pubblicato 2026-03-09
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

Immagina di entrare in un enorme magazzino di idee visive, come Pinterest. Lì, milioni di persone cercano ispirazione: "Come arredare il mio salotto?", "Che vestito abbinare a questa borsa?", "Come appare questo caffè in un pomeriggio invernale?".

Il problema è che le foto caricate dagli utenti o dai venditori sono spesso noiose: un oggetto su sfondo bianco, o una foto quadrata che non riempie bene lo schermo del telefono.

Pinterest Canvas è la soluzione magica che hanno creato gli ingegneri di Pinterest per trasformare queste foto "piatte" in immagini spettacolari, senza però inventare cose che non esistono.

Ecco come funziona, spiegato con parole semplici e qualche analogia divertente:

1. Il Grande Chef e i Suoi Specialisti

Immagina che Pinterest abbia assunto un Super Chef (il modello di base). Questo chef è bravissimo a cucinare di tutto: pasta, dolci, zuppe, grigliate. Ha imparato a cucinare guardando miliardi di ricette e assaggiando piatti da tutto il mondo.

Tuttavia, se chiedi a questo chef di preparare esattamente il piatto che vuoi tu per un cliente specifico (ad esempio, "voglio che questa tazza di caffè rimanga identica, ma voglio che lo sfondo cambi in una foresta innevata"), lo chef generico potrebbe sbagliare: potrebbe cambiare la forma della tazza o il colore del caffè.

La genialità di Pinterest Canvas sta nel dire: "Ok, Chef, tu sei il nostro fondamento. Ora, invece di farti cucinare tutto da solo, prendiamo la tua ricetta base e ti diamo una specializzazione rapida."

Creano quindi dei "Cuciniere Specializzati" (i modelli derivati):

  • Uno specializzato solo a cambiare lo sfondo dei prodotti.
  • Uno specializzato solo ad allargare le foto (per renderle verticali, perfette per il telefono).
  • Uno specializzato a mettere più oggetti insieme in una scena.

Ogni specialista usa le stesse basi del Super Chef, ma ha studiato solo su un tipo di compito specifico. È come se avessimo un allenatore di calcio generale che addestra un portiere, un attaccante e un difensore: tutti usano la stessa tecnica di base, ma ognuno sa fare la sua mossa perfetta.

2. La Magia dell'Editing (Senza Sbagliare)

Quando un venditore vuole mostrare una borsa su un tavolo di marmo invece che su sfondo bianco, Canvas non "inventa" la borsa da zero.

  • L'Analogia del Ritaglio: Immagina di ritagliare la foto della borsa con delle forbici precise. Canvas prende quel ritaglio e lo "attacca" su una nuova scena che ha dipinto dal nulla.
  • La Regola d'Oro: La borsa deve rimanere esattamente uguale. Se Canvas cambia il colore della fibbia o la forma della maniglia, è un fallimento (perché il cliente non riconoscerebbe il prodotto). I modelli specializzati sono addestrati a essere ossessivamente precisi su questo punto: "Il prodotto è sacro, lo sfondo è plastico".

3. Allargare la Foto (Outpainting)

Spesso le foto sono quadrate, ma Pinterest è fatto di colonne verticali. Una foto verticale è più bella e attira più clic.
Canvas agisce come un pittore che allarga la tela. Se hai una foto di un caffè su un tavolo, Canvas guarda cosa c'è intorno e dipinge il resto del tavolo, la finestra, la luce che entra, mantenendo il caffè al centro. Non inventa cose a caso, ma immagina cosa dovrebbe esserci lì per rendere la scena realistica.

4. Il Controllo di Qualità (L'occhio umano)

Anche se l'AI è potente, a volte fa errori strani (come mettere una mano in più o un oggetto fluttuante).
Pinterest ha creato un sistema di "doppio controllo":

  1. Il Robot Giudice: Un'intelligenza artificiale controlla se l'immagine è tecnicamente buona.
  2. L'Uomo Reale: Se l'AI passa il test, due persone vere guardano la foto. Se dicono "Ehi, quella tazza sembra un po' storta" o "Lo sfondo è troppo scuro", l'immagine viene scartata.
    È come se avessi un editor di foto che lavora 24 ore su 24, ma che chiama sempre un amico umano per un parere finale prima di pubblicare.

5. I Risultati: Perché funziona?

Grazie a questo sistema, Pinterest ha visto due cose incredibili:

  • Meno errori: Le immagini generate sono molto più precise rispetto a quelle di altri sistemi AI famosi (che spesso deformano i prodotti).
  • Più clic: Quando le persone vedono una foto di un prodotto in una scena realistica e bella (invece che su sfondo bianco), sono molto più propense a cliccarci sopra. I dati dicono che le persone cliccano il 18% in più sulle foto con sfondi generati da Canvas e il 12,5% in più su quelle allargate.

In Sintesi

Pinterest Canvas non è un mago che crea il nulla dal nulla. È un artigiano digitale che prende un oggetto reale, lo protegge con cura, e gli costruisce intorno un mondo perfetto e realistico, tutto fatto su misura per le esigenze specifiche di chi vende o cerca ispirazione.

È la differenza tra prendere una foto sgranata e metterla in un album, e avere un fotografo professionista che ti fa un ritratto in studio con la luce perfetta, mantenendo però il tuo viso esattamente com'è.