PinCLIP: Large-scale Foundational Multimodal Representation at Pinterest

이 논문은 Pinterest 의 추천 및 검색 성능을 향상시키기 위해 대규모 멀티모달 표현 학습 모델인 PinCLIP 을 제안하고, 이를 통해 오프라인 평가에서 기존 최첨단 모델 대비 20% 높은 성능과 온라인 A/B 테스트에서 신규 콘텐츠 및 광고의 참여율 증가 등 실질적인 비즈니스 성과를 입증했습니다.

Josh Beal, Eric Kim, Jinfeng Rao, Rex Wu, Dmitry Kislyuk, Charles Rosenberg

게시일 2026-03-05
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

핀터레스트의 '핀클립 (PinCLIP)': 그림과 말의 완벽한 춤을 추게 만든 AI

이 논문은 세계적인 이미지 공유 플랫폼인 핀터레스트 (Pinterest) 가 어떻게 사용자들이 원하는 그림을 더 잘 찾아주고, 새로운 콘텐츠를 더 잘 추천해 주는지 설명합니다. 핵심은 '핀클립 (PinCLIP)' 이라는 새로운 인공지능 모델입니다.

이 복잡한 기술 이야기를 일상적인 비유로 쉽게 풀어보겠습니다.


1. 문제: "그림은 알겠는데, 말은 못 알아듣는 AI"

과거의 추천 시스템은 그림을 보고 "이건 강아지야"라고만 알았지, "이 강아지는 금발이고 소파 위에 앉아 있어"라는 세부적인 묘사문맥을 잘 이해하지 못했습니다.

  • 비유: 마치 그림만 보고 사람 이름을 대는 친구를 상상해 보세요. 그 친구는 그림 속 강아지를 보고 "강아지"라고 말은 하지만, "저 강아지는 금발이고 귀여워"라는 사용자의 구체적인 요청에는 "아, 그냥 강아지겠지?"라고 대충 넘겨버립니다.
  • 결과: 사용자가 원하는 정교한 그림을 찾기 힘들고, 새로 올라온 그림 (신규 콘텐츠) 은 아무도 모르고 방치되기 쉽습니다.

2. 해결책: 핀클립 (PinCLIP) 의 등장

핀터레스트는 이 문제를 해결하기 위해 핀클립을 만들었습니다. 이 모델은 그림 (Visual)말 (Text) 을 동시에 이해하고, 두 가지를 완벽하게 연결하는 능력을 갖췄습니다.

핵심 기술 1: '혼합형' 뇌 (Hybrid Vision Transformer)

기존의 AI 는 그림과 글을 따로따로 처리했다가 나중에 합쳤다면, 핀클립은 처음부터 그림과 글이 섞여 있는 하나의 통합된 뇌를 가졌습니다.

  • 비유: 그림을 보는 눈과 글을 읽는 머리가 한 쌍의 눈과 귀처럼 작동합니다. "금발 강아지"라는 글을 읽을 때, 그림 속 강아지의 금발 털을 바로 연상하고, 반대로 강아지 그림을 볼 때 "금발"이라는 단어가 자연스럽게 떠오르는 상태입니다.

핵심 기술 2: '친구 관계' 학습 (Neighbor Alignment)

단순히 "그림과 글이 맞다"는 것만 배우는 게 아닙니다. 핀클립은 사용자들이 어떤 그림들을 함께 보거나 저장했는지도 학습합니다.

  • 비유: "이 강아지 그림을 좋아한 사람들은 보통 '강아지 장난감' 그림도 좋아한다"는 관계 (연결) 를 학습합니다. 마치 핀터레스트의 '보드 (Board)'처럼, 같은 주제나 취향으로 묶인 그림들끼리 서로를 알아보는 능력을 기릅니다.

핵심 기술 3: '마트료시카' 인형 (Matryoshka Representation)

AI 가 만든 정보 (임베딩) 는 너무 크고 무거워서 실시간으로 쓰기 힘들었습니다. 핀클립은 정보를 마트료시카 인형처럼 여러 층으로 만들었습니다.

  • 비유: 큰 인형 (정확한 정보) 을 열어보면 작은 인형 (간단한 정보) 이 나옵니다.
    • 빠른 검색: 먼저 작은 인형 (64 차원) 을 꺼내서 대략적인 후보를 빠르게 찾습니다.
    • 정밀한 검색: 필요하면 큰 인형 (256 차원) 을 열어 가장 정확한 정보를 확인합니다.
    • 이렇게 하면 속도는 빠르면서 정확도도 높게 유지할 수 있습니다.

3. 실제 효과: 무엇이 달라졌나요?

이 기술을 실제 서비스에 적용한 결과, 놀라운 변화가 일어났습니다.

① 검색과 추천이 훨씬 똑똑해짐

  • 결과: 기존 최고의 모델 (Qwen 등) 보다 20% 이상 더 정확하게 그림을 찾아냈습니다.
  • 비유: "빨간 드레스를 입고 해변에 서 있는 여자"라고 검색했을 때, 예전에는 빨간 드레스만 찾거나 해변만 찾다가 실수했지만, 이제는 모든 조건을 완벽하게 충족하는 그림을 바로 찾아냅니다.

② '신규 콘텐츠'의 위기 탈출 (콜드 스타트 해결)

가장 큰 성과는 새로운 그림이 잘 노출된다는 점입니다.

  • 문제: 새로운 그림은 데이터가 없어서 AI 가 "이건 뭐지?"라고 고민하다가 무시하기 쉽습니다.
  • 해결: 핀클립은 그림과 글의 연결을 잘 이해하므로, 데이터가 적어도 그림의 내용과 분위기를 바로 파악합니다.
  • 성과:
    • 일반 콘텐츠 (Organic) 의 재공유 (Repin) 가 15% 증가.
    • 새로운 광고의 클릭 수가 8.7% 증가.
    • 비유: 새로 입은 옷을 입은 사람이 거리를 지나가도, 지나가는 사람들이 "와, 예쁘다!"라고 바로 알아보고 칭찬해 주는 효과가 난 것입니다.

③ 사용자 만족도 상승

  • 홈피드, 검색, 관련 핀 (Related Pins) 등 모든 곳에서 사용자가 더 많이 클릭하고 공유하는 등 참여도가 크게 늘어났습니다.

4. 요약: 핀클립이 가져온 변화

핀터레스트의 핀클립은 단순히 "그림을 더 잘 보는 AI"가 아닙니다.

  1. 그림과 말을 하나로 묶어 사용자의 복잡한 의도를 정확히 이해합니다.
  2. 친구 관계 (연결성) 를 학습하여 비슷한 취향의 콘텐츠를 찾아냅니다.
  3. 마트료시카 인형처럼 정보를 압축하여 빠르고 효율적으로 작동합니다.
  4. 그 결과, 새로운 콘텐츠도 빛을 보고, 사용자는 원하는 것을 더 쉽게 찾아 핀터레스트를 더 오래, 더 즐겁게 이용하게 되었습니다.

이처럼 핀클립은 거대한 데이터 속에서 그림과 말의 춤을 완벽하게 조율하여, 사용자에게 더 나은 경험을 선사하는 기술의 승리입니다.