Pinterest Canvas: Large-Scale Image Generation at Pinterest

Das Paper stellt Pinterest Canvas vor, ein groß angelegtes Bildgenerierungssystem, das auf einem vielseitigen Basis-Modell aufbaut und durch schnelle, aufgabenspezifische Feinabstimmungen spezialisierte Modelle für Bildbearbeitung und -verbesserung erstellt, die in A/B-Tests signifikant höhere Nutzerinteraktionen und eine bessere Leistung als Drittanbietermodelle erzielen.

Yu Wang, Eric Tzeng, Raymond Shiau, Jie Yang, Dmitry Kislyuk, Charles Rosenberg

Veröffentlicht 2026-03-09
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🎨 Pinterest Canvas: Der „Meister-Koch" für Bilder

Stell dir vor, Pinterest ist eine riesige Bibliothek voller Bilder. Aber manchmal wollen die Nutzer nicht nur ein Bild sehen, sondern eines, das sie verbessert oder verändert haben. Vielleicht möchten sie den Hintergrund eines Produktfotos ändern, damit es besser aussieht, oder ein quadratisches Bild so strecken, dass es auf dem Handy besser passt.

Das Problem mit den aktuellen KI-Modellen (den „Künstlichen Intelligenzen") ist, dass sie wie Generalisten sind. Sie können alles ein bisschen: ein Bild malen, ein Lied komponieren, einen Text schreiben. Aber wenn du ihnen sagst: „Mach genau das, aber verändere nicht das Produkt selbst, nur den Hintergrund!", werden sie oft chaotisch. Sie könnten das Produkt versehentlich verzerren, die Farbe ändern oder Teile davon verschwinden lassen. Das ist für eine Werbung katastrophal.

Die Lösung von Pinterest: Das „Schweizer Taschenmesser"-Prinzip

Anstatt einen einzigen, riesigen Roboter zu bauen, der alles kann (und dabei bei wichtigen Details oft danebenliegt), hat Pinterest eine clevere Strategie namens Pinterest Canvas entwickelt.

Stell dir das so vor:

  1. Der Grundstein (Das Fundament): Zuerst trainieren sie einen sehr starken, allgemeinen KI-Roboter. Dieser lernt, wie die Welt aussieht, wie Farben funktionieren und wie man Bilder bearbeitet. Er ist wie ein Lehrling, der alle grundlegenden Techniken des Kochens lernt.
  2. Die Spezialisten (Die Feinabstimmung): Anstatt diesen Lehrling für jeden einzelnen Job zu schicken, schicken sie ihn zur Spezialschule.
    • Für das Hinzufügen von Hintergründen wird er zum Hintergrund-Spezialisten.
    • Für das Ändern des Bildformats wird er zum Format-Experten.
    • Für das Erstellen von Videos aus Bildern wird er zum Filmemacher.

Jeder dieser „Spezialisten" ist eine eigene Version des Grundmodells, die nur auf einen bestimmten Job trainiert wurde. Das ist wie ein Koch, der nicht versucht, ein 5-Gänge-Menü und gleichzeitig eine Pizza zu machen. Er macht nur die Pizza, aber er macht sie perfekt, weil er sich nur darauf konzentriert.

🛠️ Wie funktioniert das in der Praxis?

Stell dir vor, du hast ein Foto eines weißen Kaffeetassens auf einem weißen Tisch.

  • Der alte Weg (Generische KI): Du sagst: „Mach einen Wald im Hintergrund." Die KI könnte die Tasse plötzlich grün färben, weil sie denkt, der Wald macht sie grün, oder sie könnte die Tasse in einen Baum verwandeln. Das ist nicht gut für einen Shop.
  • Der Pinterest Canvas Weg:
    1. Das System nimmt das Foto der Tasse.
    2. Es schneidet die Tasse virtuell aus (wie mit einem Messer).
    3. Der Spezialist für Hintergründe malt nun einen schönen Wald hinter die Tasse.
    4. Wichtig: Die Tasse selbst wird am Ende wieder exakt so zurückgelegt, wie sie war. Nichts wird verändert, außer dem, was du wolltest.

📈 Warum ist das so erfolgreich?

Die Forscher haben das System getestet und es funktioniert erstaunlich gut:

  • Bessere Klicks: Wenn Werbung mit diesen perfekt bearbeiteten Bildern angezeigt wird, klicken die Leute viel öfter darauf (ca. 18 % mehr bei Hintergrund-Änderungen). Das liegt daran, dass die Bilder natürlicher und ansprechender wirken, ohne dass das Produkt „falsch" aussieht.
  • Weniger Fehler: Andere KI-Modelle machen oft Fehler, wie z. B. dass ein Teil des Produkts verschwindet oder die Form sich verändert. Pinterest Canvas macht das viel seltener, weil der Spezialist genau weiß, was er nicht anfassen darf.
  • Vielseitigkeit: Das System kann nicht nur Hintergründe ändern, sondern auch:
    • Bilder in die Länge oder Breite strecken (Outpainting).
    • Mehrere Produkte in eine Szene setzen (z. B. eine Tasse, ein Buch und eine Pflanze auf einem Tisch).
    • Aus einem statischen Bild ein kurzes, bewegtes Video machen (z. B. damit der Kaffee dampft oder die Kamera schwenkt).

🍓 Ein einfaches Bild zum Merken

Stell dir vor, du willst ein Foto von einem Erdbeer-Macaroon bearbeiten.

  • Eine allgemeine KI wäre wie ein Künstler, der dir sagt: „Ich male dir einen neuen Hintergrund, aber ich könnte auch den Macaroon in eine Banane verwandeln, weil ich kreativ bin."
  • Pinterest Canvas ist wie ein Handwerker mit einem präzisen Werkzeug. Er sagt: „Ich nehme den Macaroon, lege ihn auf eine neue Unterlage, ändere die Farbe des Tellers, aber der Macaroon bleibt genau so, wie er ist. Hier ist dein perfektes Bild."

Fazit

Pinterest hat also nicht versucht, den „perfekten Allround-KI-Roboter" zu bauen. Stattdessen haben sie einen starken Grundstein gelegt und daraus viele hochspezialisierte Werkzeuge gemacht. Das Ergebnis sind Bilder, die nicht nur schön aussehen, sondern auch genau das tun, was die Nutzer und Werbetreibenden brauchen: Sie verbessern das Erlebnis, ohne die Realität zu verzerren.