PinCLIP: Large-scale Foundational Multimodal Representation at Pinterest

Pinterest は、VLM(視覚言語モデル)の強みを推薦システムに統合し、画像とテキストの整合性学習と隣接アライメント目的を備えたハイブリッド Vision Transformer 構造「PinCLIP」を開発することで、検索精度の向上、コールドスタート問題の解決、そしてエンゲージメントの大幅な増加を実現しました。

Josh Beal, Eric Kim, Jinfeng Rao, Rex Wu, Dmitry Kislyuk, Charles Rosenberg

公開日 2026-03-05
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

Pinterest 社が開発した新しい技術「PinCLIP(ピンクリップ)」について、難しい専門用語を使わず、日常の例え話を使ってわかりやすく解説します。

🎨 PinCLIP とは?「Pinterest の超能力な目」

Pinterest は、写真やアイデアを収集する「デジタルの壁紙(ボード)」のような場所です。ユーザーは「おしゃれな靴が欲しい」「夕食のレシピを探したい」といった検索をしたり、気に入った写真を見つけて保存(リピン)したりします。

しかし、Pinterest には**「数億枚もの写真」「数億人のユーザー」がいます。この膨大な情報の中から、あなたが本当に欲しがっているものを瞬時に見つけるのは、まるで「巨大な図書館で、本の内容を一言も読まずに、表紙の絵だけで『あなたが今探している物語』を見つける」**ような難しい作業です。

これまでのシステムは、写真と文章を別々に理解していましたが、PinCLIPは、**「写真」と「言葉」を完全に融合させた、まるで人間のように文脈を理解する「超能力な目」**のようなものです。


🔍 3 つの大きな工夫(どうやってすごいのか?)

PinCLIP が他のシステムと違うのは、以下の 3 つの「魔法」を使っているからです。

1. 「写真」と「言葉」を仲介する「翻訳者」

  • これまでのやり方: 写真を見て「犬だ」と認識し、別で文章を読んで「ゴールデンレトリーバー」と認識し、最後に「あ、同じだ!」と判断していました。
  • PinCLIP のやり方: 写真と文章を**「最初から一緒に」**学習します。
    • 例え話: 料理のレシピ(文章)と、出来上がった料理の写真を見ながら、**「この写真の香ばしさは、この文章の『焼く』という言葉と繋がっている」**と、最初から一体となって理解する料理人です。
    • これにより、「金色の靴」という言葉と、実際に金色の靴が写っている写真の結びつきが、これまで以上に強くなります。

2. 「友達関係」を学ぶ「社交的な先生」

  • これまでのやり方: 「この写真」と「この文章」が合っているかだけを勉強していました。
  • PinCLIP のやり方: **「同じボードに保存された写真同士」**の関係も勉強します。
    • 例え話: 料理教室で、A さんが「パスタ」と「トマトソース」を一緒に保存していたとします。PinCLIP は、「あ、この 2 つは『友達』なんだな」と学びます。
    • もしあなたが「パスタ」を検索したら、単に「パスタの写真」だけでなく、「トマトソース」や「パスタに合うワイン」の写真も、**「同じ趣味を持つ人たちが一緒に保存している」**という文脈から提案できるようになります。これを「隣接するピンの整列(Neighbor Alignment)」と呼びます。

3. 「冷たいスタート」を温める「魔法の暖炉」

  • 問題点: 新しく投稿された写真(特に広告や新しいクリエイターの作品)は、誰も保存していないので、Pinterest のシステムは「これが何だかわからない」と判断し、誰も見せてもらえません。これを**「コールドスタート(冷たいスタート)」**問題と呼びます。
  • PinCLIP の解決策: 写真の見た目と文章の意味を深く理解しているため、**「誰も保存したことがない新しい写真」**でも、「これは『おしゃれなカフェ』の写真だ」と瞬時に判断できます。
    • 結果: 新鮮なコンテンツがすぐに適切な人のもとに届くようになり、新しい広告のクリック率が**8.7%も上がり、新しい投稿の保存数が15%**も増えました。まるで、新しいお店がオープンした瞬間に、すぐにファンが集まるようなものです。

🚀 実際の効果は?

この技術を実際に Pinterest に導入したところ、以下のような素晴らしい成果が出ました。

  • 検索精度の向上: 「金色の革靴」と検索すると、本当に金色で革の靴がズラッと並びます。従来のシステムより20% 以上も精度が良くなりました。
  • ユーザーの満足度: ホームフィード(トップページ)や検索結果で、ユーザーがより多くの写真に「いいね(リピン)」をするようになりました。
  • ビジネスへの貢献: 広告主にとって、新しい広告がより多くの人に見られるようになり、クリック率(CTR)が5% 以上向上しました。

💡 まとめ

PinCLIP は、単なる「画像認識」や「検索技術」の進化ではありません。
「写真の美しさ」と「言葉の意味」を、人間が持つ「文脈(つながり)」の感覚で理解し、新しいアイデアをすぐに発見できるようにする、Pinterest の新しい心臓部です。

これにより、Pinterest は単なる写真集ではなく、**「あなたの興味を先回りして満たしてくれる、賢いパートナー」**へと進化しました。