Efficient Discriminative Joint Encoders for Large Scale Vision-Language Reranking

Each language version is independently generated for its own context, not a direct translation.

📸 문제: "사진을 볼 때마다 매번 현상소를 찾는 건 너무 느려요!"

지금까지 우리가 인터넷에서 "노을이 진 해변"이라고 검색하면, 컴퓨터는 다음과 같은 과정을 거쳤습니다.

검색어 입력: "노을이 진 해변"을 입력합니다.
초고속 필터링 (CLIP 등): 컴퓨터는 미리 저장된 수백만 장의 사진의 '간단한 요약본' (벡터) 을 비교해서, 가장 비슷한 사진 100 장을 골라냅니다. (이건 매우 빠릅니다.)
정밀한 재확인 (재순위 매기기): 하지만 100 장 중 진짜로 가장 완벽한 사진은 어디일까요? 이를 위해 기존 기술은 100 장의 사진을 하나하나 다시 꺼내서, 사진 속 모든 디테일 (구름 모양, 물결 질감 등) 을 상세히 분석했습니다.

여기가 문제였습니다!
이 '상세 분석' 과정은 마치 매번 사진을 현상소에서 다시 현상해 오듯이 시간이 너무 오래 걸립니다. 검색창에 입력하고 1 초도 안 되어 결과가 나와야 하는데, 이 과정 때문에 실제 서비스에서는 쓸 수 없었습니다.

💡 해결책: EDJE (효율적인 지능형 재순위 매기기 시스템)

이 논문은 이 문제를 해결하기 위해 EDJE라는 새로운 방식을 제안합니다. 핵심 아이디어는 **"무거운 작업은 미리 해두고, 검색할 때는 가볍게만 하라"**는 것입니다.

1. 미리 준비해 두기 (오프라인 전처리)

기존 방식은 검색할 때마다 사진을 분석했지만, EDJE 는 미리 모든 사진을 분석해 두었습니다.

비유: 도서관 사서가 모든 책을 미리 읽고, 책의 핵심 내용 64 줄만 요약해서 작은 카드에 적어두는 것과 같습니다. (기존 방식은 책 전체를 다시 읽어가는 것이죠.)

2. 요약본을 압축하기 (토큰 압축)

그런데 이 '핵심 요약 카드'도 너무 많으면 저장 공간이 부족해집니다. 그래서 EDJE 는 가장 중요한 정보만 남기고 64 줄짜리 카드를 더 작게 압축합니다.

비유: 576 개의 단어짜리 긴 보고서 대신, 가장 핵심적인 64 개의 키워드만 뽑아낸 요약본을 만드는 것입니다. 이 요약본은 저장 공간도 적게 차지하고, 읽는 속도도 엄청 빠릅니다.

3. 검색할 때의 마법 (온라인 처리)

이제 사용자가 "노을이 진 해변"이라고 검색하면:

미리 준비된 **작은 요약 카드 (64 개의 키워드)**와 검색어를 비교합니다.
무거운 사진 분석은 이미 끝났기 때문에, 컴퓨터는 가볍고 빠른 언어 모델만 작동시킵니다.
결과는 순식간에 나옵니다.

🚀 EDJE 의 놀라운 성과

이 논문은 EDJE 가 다음과 같은 일을 해냈다고 말합니다:

속도: 기존 방식보다 최대 53 배 더 빠릅니다. (초당 5 만 개의 이미지 처리 가능!)
저장 공간: 사진 하나당 저장 공간이 49KB밖에 안 됩니다. (기존 방식은 1,700KB 이상 필요했습니다. 즉, 같은 공간에 30 배 더 많은 사진을 저장할 수 있습니다.)
정확도: 속도가 빨라졌는데도, 사진 찾는 정확도는 기존 최고 기술 (BLIP 등) 과 동일하거나 더 좋습니다.

🧩 한 줄 요약

"기존에는 사진을 찾을 때마다 매번 '두꺼운 사전'을 뒤져야 했지만, EDJE 는 미리 '핵심 키워드 카드'를 만들어두어, 검색할 때 '가벼운 메모장'만으로도 최고의 정확도로 원하는 사진을 찾아냅니다."

이 기술 덕분에 앞으로 우리가 스마트폰이나 웹에서 이미지를 검색할 때, 더 빠르고, 더 많은 사진을, 더 정확하게 찾을 수 있게 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

배경: 대규모 멀티모달 검색 (이미지 검색 또는 텍스트 기반 이미지 검색) 은 일반적으로 CLIP 과 같은 임베딩 기반 모델 (Embedding-based models) 을 사용하여 사전 계산된 벡터로 빠른 검색을 수행한 후, 최상위 후보들을 재랭킹하는 2 단계 파이프라인을 따릅니다.
현황: 텍스트 검색에서는 교차 인코더 (Cross-encoder, 즉 Joint Encoder) 기반의 재랭커가 표준으로 사용되지만, 시각 - 언어 분야에서는 이를 대체할 만한 효율적인 Joint Encoder 가 부재합니다.
핵심 병목 현상: BLIP, BLIP-2 와 같은 선구적인 Joint Encoder 들은 강력한 성능을 보이지만, 온라인 추론 시 고해상도 비전 백본 (Vision Backbone, 예: ViT-L) 을 통해 이미지 특징을 추출하는 과정이 매우 비용이 많이 듭니다.
- 예를 들어, BLIP 의 경우 추론 시간의 83~93% 가 이미지 특징 추출에 소요됩니다.
- 이는 수천 개의 후보를 재랭킹해야 하는 대규모 검색 시스템에서 실용적이지 않게 만듭니다.
질문: "온라인 특징 추출 없이도 Joint Modeling 의 이점을 활용하면서 대규모 검색에 필요한 효율성을 달성할 수 있는가?"

2. 방법론 (Methodology: EDJE)

저자들은 EDJE를 제안하며, 이는 시각 특징 추출을 오프라인으로 이전하고 경량 어댑터를 통해 토큰을 압축하는 방식을 취합니다.

A. 비전 특징의 오프라인 사전 계산 (Offline Vision Precomputation)

기존 Joint Encoder 는 매 쿼리마다 이미지를 인코딩하지만, EDJE 는 비전 인코더를 전처리 단계로 간주합니다.
이미지 데이터는 오프라인에서 한 번만 인코딩되어 디스크에 저장됩니다.
이를 통해 온라인 추론 시 무거운 비전 인코더를 실행할 필요가 없어지지만, 모든 토큰을 저장하면 저장 공간 비용이 과도해집니다 (웹 규모 데이터베이스의 경우 테라바이트 단위).

B. 토큰 압축 어댑터 (Token-Compression Adapter)

저장 공간과 온라인 계산 비용을 줄이기 위해 가벼운 어텐션 기반 어댑터를 도입했습니다.
작동 원리:
1. 오프라인에서 추출된 긴 시각 토큰 시퀀스 (예: ViT 의 576 개 토큰) 를 입력받습니다.
2. 학습 가능한 보편적 쿼리 토큰 (Universal Query Tokens, $Q$ ) 을 사용하여 크로스 어텐션 (Cross-Attention) 을 수행합니다.
3. 이 과정에서 시각 토큰 중 의미적으로 가장 관련성이 높은 정보만 선택하여 소수의 압축된 토큰 (예: 64 개) 으로 집계 (Aggregate) 합니다.
4. 압축된 토큰은 경량 언어 모델 (Language Model) 의 임베딩 공간으로 투영됩니다.
장점: 저장 공간이 획기적으로 줄어들며 (이미지당 약 49KB), 온라인 추론 시 처리해야 하는 토큰 수가 감소하여 고처리량 (High-throughput) 이 가능해집니다.

C. 컴팩트 결합 인코더 (Compact Joint Encoder)

압축된 시각 토큰과 텍스트 토큰을 결합하여 재랭킹 점수를 생성합니다.
거대한 LLM 대신 MiniLM과 같은 경량 언어 모델을 사용하여 속도를 극대화합니다.
이 아키텍처는 비전 인코더와 언어 모델 간의 교차 상호작용을 효율적으로 처리하면서도 모듈러한 설계를 유지합니다.

D. 훈련 전략 (Training Strategy)

In-batch Hard Negative Mining: 임베딩 모델을 사용하여 배치 내 hardest negative 샘플을 선별하여 훈련합니다.
다중 목적 함수: 이미지 - 텍스트 매칭 (ITM), 마스킹 언어 모델링 (MLM), 텍스트 임베딩 복구 (Text-embedding recovery) 를 동시에 최적화합니다.
지식 증류 (Distillation): 압축되지 않은 'Local' 모델 (Teacher) 에서 학습된 로짓을 사용하여 토큰 압축 모델 (Student) 을 훈련시켜 성능을 유지합니다.

3. 주요 기여 (Key Contributions)

EDJE 아키텍처 제안: 무거운 비전 특징 추출을 오프라인으로 이동시키고, 경량 어댑터로 토큰을 압축하여 대규모 재랭킹이 가능한 효율적인 Joint Encoder 를 개발했습니다.
성능과 효율성의 균형: 기존 Joint Encoder 들 (BLIP, BLIP-2 등) 과 비교하여 저장 공간과 온라인 지연 시간을 획기적으로 줄이면서도 (최대 53 배 빠른 추론), Flickr30k(Zero-shot) 와 COCO(Fine-tuned) 에서 SOTA 수준의 재랭킹 성능을 달성했습니다.
심층 분석: 토큰 압축 비율, 재랭킹 풀 크기, 훈련 목적 함수, 그리고 양자화 (Quantization) 가 성능에 미치는 영향을 체계적으로 분석하여 효율성과 정확도 간의 트레이드오프를 규명했습니다.

4. 실험 결과 (Results)

추론 속도: EDJE 는 초당 약 50,000 개의 이미지 - 텍스트 쌍을 처리할 수 있으며, 이는 기존 Joint Encoder 대비 53 배 이상 빠릅니다.
저장 공간: 압축된 토큰 (64 개) 을 사용할 경우 이미지당 약 49KB의 디스크 공간만 필요하며, 이는 기존 방식 (수 MB) 에 비해 압도적으로 작습니다.
검색 성능:
- Flickr30k (Zero-shot): SigLIP2 백본을 사용할 때, 기존 Joint Encoder 들과 동등하거나 더 나은 Recall@1 성능을 보입니다.
- COCO (Fine-tuned): 기존 모델들과 경쟁력 있는 성능을 유지합니다.
- 임베딩 모델 향상: 다양한 임베딩 기반 모델 (CLIP, DFN, MetaCLIP, SigLIP2) 의 최상위 후보를 EDJE 로 재랭킹했을 때, 모든 모델에서 검색 성능이 크게 향상되었습니다 (예: CLIP 의 이미지 검색 Recall@1 최대 15% 향상).
압축의 효과: 576 개의 원본 토큰을 64 개로 압축하더라도 검색 성능은 거의 유지되며, 오히려 불필요한 노이즈가 제거되어 의미론적 일관성이 개선됨을 확인했습니다.

5. 의의 및 결론 (Significance)

이 논문은 대규모 멀티모달 검색 시스템에서 Joint Encoder 의 실용적 부재 문제를 해결했다는 점에서 중요한 의의가 있습니다.

패러다임 전환: "온라인 특징 추출"이라는 관습을 깨고, "오프라인 특징 추출 + 토큰 압축"이라는 새로운 접근법을 제시하여, 강력한 비전 모델의 힘을 유지하면서 실시간 검색 시스템에 통합할 수 있는 길을 열었습니다.
확장성: EDJE 는 모듈러한 설계로 인해 다양한 비전 백본과 언어 모델과 호환 가능하며, 텍스트 검색에서 널리 쓰이는 Cross-encoder 기반 재랭킹 전략을 시각 - 언어 분야로 성공적으로 확장했습니다.
실무 적용 가능성: 낮은 저장 비용과 높은 처리량을 제공함으로써, 웹 규모의 이미지 검색, 콘텐츠 관리, 검색 증강 생성 (RAG) 등 다양한 실제 응용 분야에서 즉시 활용 가능한 솔루션을 제공합니다.

요약하자면, EDJE 는 **효율성 (Efficiency)**과 **정확성 (Accuracy)**이라는 상충되는 두 가지 목표를 동시에 달성하여 대규모 시각 - 언어 재랭킹의 새로운 표준을 제시한 연구입니다.