Efficient Discriminative Joint Encoders for Large Scale Vision-Language Reranking

이 논문은 대규모 비전 - 언어 재순위화 작업에서 기존 결합 인코더의 병목 현상을 해결하기 위해 오프라인으로 비전 토큰을 사전 계산하고 경량 어댑터로 압축하여 저장 공간과 온라인 연산 비용을 획기적으로 줄이면서도 기존 수준의 성능을 유지하는 'EDJE'를 제안합니다.

Mitchell Keren Taraday, Shahaf Wagner, Chaim Baskin

게시일 2026-02-24
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

📸 문제: "사진을 볼 때마다 매번 현상소를 찾는 건 너무 느려요!"

지금까지 우리가 인터넷에서 "노을이 진 해변"이라고 검색하면, 컴퓨터는 다음과 같은 과정을 거쳤습니다.

  1. 검색어 입력: "노을이 진 해변"을 입력합니다.
  2. 초고속 필터링 (CLIP 등): 컴퓨터는 미리 저장된 수백만 장의 사진의 '간단한 요약본' (벡터) 을 비교해서, 가장 비슷한 사진 100 장을 골라냅니다. (이건 매우 빠릅니다.)
  3. 정밀한 재확인 (재순위 매기기): 하지만 100 장 중 진짜로 가장 완벽한 사진은 어디일까요? 이를 위해 기존 기술은 100 장의 사진을 하나하나 다시 꺼내서, 사진 속 모든 디테일 (구름 모양, 물결 질감 등) 을 상세히 분석했습니다.

여기가 문제였습니다!
이 '상세 분석' 과정은 마치 매번 사진을 현상소에서 다시 현상해 오듯이 시간이 너무 오래 걸립니다. 검색창에 입력하고 1 초도 안 되어 결과가 나와야 하는데, 이 과정 때문에 실제 서비스에서는 쓸 수 없었습니다.

💡 해결책: EDJE (효율적인 지능형 재순위 매기기 시스템)

이 논문은 이 문제를 해결하기 위해 EDJE라는 새로운 방식을 제안합니다. 핵심 아이디어는 **"무거운 작업은 미리 해두고, 검색할 때는 가볍게만 하라"**는 것입니다.

1. 미리 준비해 두기 (오프라인 전처리)

기존 방식은 검색할 때마다 사진을 분석했지만, EDJE 는 미리 모든 사진을 분석해 두었습니다.

  • 비유: 도서관 사서가 모든 책을 미리 읽고, 책의 핵심 내용 64 줄만 요약해서 작은 카드에 적어두는 것과 같습니다. (기존 방식은 책 전체를 다시 읽어가는 것이죠.)

2. 요약본을 압축하기 (토큰 압축)

그런데 이 '핵심 요약 카드'도 너무 많으면 저장 공간이 부족해집니다. 그래서 EDJE 는 가장 중요한 정보만 남기고 64 줄짜리 카드를 더 작게 압축합니다.

  • 비유: 576 개의 단어짜리 긴 보고서 대신, 가장 핵심적인 64 개의 키워드만 뽑아낸 요약본을 만드는 것입니다. 이 요약본은 저장 공간도 적게 차지하고, 읽는 속도도 엄청 빠릅니다.

3. 검색할 때의 마법 (온라인 처리)

이제 사용자가 "노을이 진 해변"이라고 검색하면:

  1. 미리 준비된 **작은 요약 카드 (64 개의 키워드)**와 검색어를 비교합니다.
  2. 무거운 사진 분석은 이미 끝났기 때문에, 컴퓨터는 가볍고 빠른 언어 모델만 작동시킵니다.
  3. 결과는 순식간에 나옵니다.

🚀 EDJE 의 놀라운 성과

이 논문은 EDJE 가 다음과 같은 일을 해냈다고 말합니다:

  • 속도: 기존 방식보다 최대 53 배 더 빠릅니다. (초당 5 만 개의 이미지 처리 가능!)
  • 저장 공간: 사진 하나당 저장 공간이 49KB밖에 안 됩니다. (기존 방식은 1,700KB 이상 필요했습니다. 즉, 같은 공간에 30 배 더 많은 사진을 저장할 수 있습니다.)
  • 정확도: 속도가 빨라졌는데도, 사진 찾는 정확도는 기존 최고 기술 (BLIP 등) 과 동일하거나 더 좋습니다.

🧩 한 줄 요약

"기존에는 사진을 찾을 때마다 매번 '두꺼운 사전'을 뒤져야 했지만, EDJE 는 미리 '핵심 키워드 카드'를 만들어두어, 검색할 때 '가벼운 메모장'만으로도 최고의 정확도로 원하는 사진을 찾아냅니다."

이 기술 덕분에 앞으로 우리가 스마트폰이나 웹에서 이미지를 검색할 때, 더 빠르고, 더 많은 사진을, 더 정확하게 찾을 수 있게 될 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →