VisionZip: Longer is Better but Not Necessary in Vision Language Models

Each language version is independently generated for its own context, not a direct translation.

1. 문제: "모든 사진을 다 보는 건 너무 비효율적이에요!"

최근 AI 모델들은 이미지를 이해할 때, 이미지를 작은 조각 (토큰) 으로 잘게 쪼개서 언어 모델에게 보여줍니다.

기존 방식: 고해상도 이미지를 보면, AI 는 수천 개의 작은 조각을 만들어냅니다. 마치 100 장의 사진을 1,000 장으로 잘게 찢어서 설명하라고 시키는 것과 같습니다.
문제점: 이 조각들 중 대부분은 **중요하지 않은 배경 **(하늘, 벽, 바닥)입니다. 하지만 AI 는 이 불필요한 조각들까지 모두 계산해야 하므로, 시간이 오래 걸리고 메모리를 많이 잡아먹습니다.

비유: 식당에서 주문을 받는데, 요리사가 "손님이 시킨 스테이크"뿐만 아니라 "식탁 위의 소금병", "창문 밖의 구름", "접시 가장자리의 무늬"까지 모두 자세히 설명해야 한다면 얼마나 비효율적일까요?

2. 해결책: "비전Zip (VisionZip)" - 핵심만 뽑아내는 마법

저자들은 "모든 조각이 다 필요한가?"라는 의문을 품고, **가장 중요한 정보만 골라내는 '비전Zip'**이라는 방법을 개발했습니다.

핵심 원리 1: "스타 토큰 (Dominant Tokens) 찾기"

AI 가 이미지를 볼 때, 실제로 집중하는 곳은 매우 제한적입니다.

관찰: AI 의 '주의 (Attention)'는 이미지의 **주인공 **(예: 사람, 고양이, 자동차)에만 집중하고, 나머지는 거의 무시합니다.
방법: 비전Zip 은 이 주인공이 있는 부분을 먼저 찾아냅니다. 마치 뉴스에서 가장 중요한 헤드라인만 먼저 읽는 것과 같습니다.

핵심 원리 2: "유사한 정보끼리 뭉치기 (Contextual Token Merging)"

주인공이 아닌 나머지 부분 (배경) 이라도 아예 버리면 안 되죠.

방법: 비슷한 정보를 가진 조각들을 하나로 합칩니다.
비유: "푸른 하늘" 조각 100 개를 따로 따로 설명하는 대신, "푸른 하늘"이라는 하나의 요약된 개념으로 만들어버리는 것입니다. 이렇게 하면 정보는 유지되지만, 양은 획기적으로 줄어듭니다.

3. 왜 기존 방법보다 좋은가요?

기존의 효율적인 AI 들은 "질문 (텍스트) 과 관련된 이미지 조각"을 찾으려 했습니다. 하지만 이는 문맥에 따라 달라지는 방식이라서, 질문이 바뀌면 중요한 정보가 누락될 수 있습니다.

비전Zip 의 장점: 질문과 상관없이 이미지의 핵심 정보를 먼저 뽑아냅니다.
- 비유: 질문이 "이 사람이 무슨 옷을 입었나요?"든 "저기 있는 개는 무슨 색인가요?"든, **이미지의 핵심 요소 **(사람, 개)를 먼저 확보해 두는 것입니다. 그래서 **대화 **(Multi-turn)에서도 훨씬 더 잘 작동합니다.

4. 놀라운 성과: "작은 모델이 큰 모델을 이기다"

이 방법을 적용한 결과, 놀라운 일들이 일어났습니다.

속도 8 배 향상: 이미지를 처리하는 시간이 8 배 빨라졌습니다.
13B 모델이 7B 보다 빠르고 똑똑해짐:
- 보통 모델이 클수록 (13B) 더 똑똑하지만 느립니다.
- 하지만 비전Zip 을 쓰면, **큰 모델 **(13B)이 **작은 모델 **(7B)보다 더 빠르면서도 더 좋은 결과를 냅니다.
- 비유: "무거운 트럭 (13B) 에 짐을 1/10 으로 줄여주니, 경차 (7B) 보다 더 빠르게 목적지에 도착하면서, 더 많은 화물 (정보) 을 실은 채로 도착한 것"입니다.

5. 결론: "더 많은 것보다, 더 좋은 것이 중요하다"

이 논문은 우리에게 중요한 메시지를 줍니다.

**"이미지를 더 많이 쪼개면 **(토큰을 늘리면)
중요한 것은 "양"이 아니라 "질"입니다.

비전Zip 은 불필요한 노이즈를 제거하고 진짜 중요한 정보만 전달함으로써, AI 가 더 빠르고, 더 저렴하게, 그리고 더 똑똑하게 작동할 수 있게 해줍니다. 이는 자율주행, 로봇, 모바일 기기 등 실제 생활에 AI 를 적용하는 데 큰 도움이 될 것입니다.

한 줄 요약:

비전Zip은 AI 가 이미지를 볼 때 불필요한 배경 정보를 과감히 잘라내고, 핵심 내용만 요약해서 전달하는 기술로, 더 빠르고 더 똑똑한 AI를 가능하게 합니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

최근 비전 - 언어 모델 (VLM, Vision-Language Models) 의 성능 향상은 시각 토큰 (visual tokens) 의 길이를 늘리는 방식으로 이루어져 왔습니다. 예를 들어, LLaVA-1.5 는 576 개의 시각 토큰을 사용하며, LLaVA-NeXT 와 같은 최신 모델은 고해상도 이미지를 처리하기 위해 2,880 개 이상의 토큰을 생성합니다. 반면 텍스트 토큰은 수십 개에서 백여 개 수준에 불과합니다.

이러한 과도한 시각 토큰의 증가는 다음과 같은 심각한 문제를 야기합니다:

계산 비용 및 메모리 과부하: 시각 토큰이 전체 시퀀스 길이의 대부분을 차지하여 Transformer 의 자기 주의 (Self-attention) 메커니즘에서 계산 복잡도가 $O(n^2)$ 로 급증합니다. 이는 엣지 컴퓨팅, 자율 주행, 로봇 공학 등 실시간 응용 분야에서 모델 배포를 어렵게 만듭니다.
정보의 중복성 (Redundancy): 저자들은 인기 있는 비전 인코더 (CLIP, SigLIP 등) 가 생성하는 시각 토큰들이 실제로는 상당한 정보 중복성을 포함하고 있음을 관찰했습니다. 즉, 모든 토큰이 중요한 정보를 담고 있는 것이 아니라, 소수의 토큰만이 주요 정보를 집중하고 나머지는 노이즈에 가깝습니다.

2. 방법론 (Methodology: VisionZip)

저자는 시각 토큰의 중복성을 줄이면서도 모델 성능을 유지하기 위해 VisionZip이라는 새로운 방법을 제안합니다. VisionZip 은 텍스트에 의존하지 않는 (text-agnostic) 방식으로, 시각 인코더 단계에서 정보량이 풍부한 토큰을 선별하고 나머지를 병합하는 두 단계로 구성됩니다.

A. 핵심 원리

주도 토큰 선택 (Dominant Token Selection):
- 비전 인코더의 어텐션 (attention) 점수를 분석하여, 이미지 전체 정보를 가장 많이 집계하는 소수의 '주도 토큰 (Dominant Tokens)'을 식별합니다.
- CLS 토큰이 있는 모델 (CLIP 등) 의 경우 CLS 토큰이 주시하는 토큰을 선택하고, CLS 토큰이 없는 모델 (SigLIP 등) 의 경우 다른 토큰들로부터 평균적으로 높은 어텐션을 받는 토큰을 선택합니다.
문맥 토큰 병합 (Contextual Token Merging):
- 선택된 주도 토큰 외의 나머지 토큰들은 버리는 것이 아니라, 의미적 유사성 (semantic similarity) 을 기준으로 병합합니다.
- 키 (Key) 벡터 간의 유사도를 계산하여 가장 유사한 토큰들을 그룹화하고 평균화하여 '문맥 토큰 (Contextual Tokens)'으로 변환합니다. 이를 통해 세부 정보의 손실을 방지합니다.

B. 효율적 미세 조정 (Efficient Tuning)

시각 토큰 수를 급격히 줄이면 원래 모델의 학습 공간과 새로운 입력 공간 사이의 불일치 (misalignment) 가 발생할 수 있습니다.
이를 해결하기 위해 저자는 프로젝터 (Projector) 레이어만 30 분 동안 1/10 크기의 데이터셋으로 미세 조정하는 방식을 제안합니다. 이는 전체 모델을 재학습하는 비용 없이 토큰 수 감소에 따른 성능 저하를 보정합니다.

3. 주요 기여 (Key Contributions)

시각 토큰 중복성에 대한 발견 및 분석:
- 비전 인코더의 어텐션 분포를 분석하여, 대부분의 시각 토큰이 낮은 어텐션 점수를 가지며 정보량이 적다는 것을 통계적으로 증명했습니다.
- 기존 방법론들이 텍스트와 시각 토큰 간의 어텐션에 의존하여 토큰을 선택할 때, 실제 중요한 정보 (주도 토큰) 가 아닌 배경이나 주변부의 토큰을 선택하는 '기능적 불일치 (Feature Misalignment)' 문제를 지적했습니다.
간단하고 효과적인 VisionZip 알고리즘 제안:
- 학습이 필요 없는 (training-free) 모드와 경량 미세 조정 모드를 모두 지원하며, 기존 LLM 가속화 알고리즘과 호환됩니다.
- 텍스트에 의존하지 않으므로 다중 턴 대화 (multi-turn dialogue) 와 같은 실시간 시나리오에서도 이전 방법들보다 우수한 성능을 발휘합니다.
성능과 효율성의 동시 달성:
- 기존 SOTA 방법 (FastV, SparseVLM) 을 능가하는 성능을 유지하면서 시각 토큰 수를 획기적으로 줄였습니다.

4. 실험 결과 (Results)

VisionZip 은 LLaVA-1.5, LLaVA-NeXT, Mini-Gemini, Video-LLaVA 등 다양한 모델과 벤치마크에서 평가되었습니다.

성능 (Performance):
- LLaVA-1.5: 시각 토큰을 576 개에서 64 개 (약 89% 감소) 로 줄였을 때, 학습 없이도 기존 SOTA 방법 (FastV, SparseVLM) 보다 평균 18.4%~8.2% 더 높은 성능을 기록했습니다. 효율적 미세 조정 (VisionZip‡) 을 적용하면 95.2% 의 성능을 유지했습니다.
- LLaVA-NeXT: 2,880 개 토큰을 640 개로 줄여도 97.6% 의 성능을 유지하며, 160 개로 줄여도 92.0% 이상의 성능을 보였습니다.
- Video Understanding: Video-LLaVA 에서 프레임당 토큰 수를 줄여 전체 토큰 수를 2048 개에서 136 개로 줄였을 때, SparseVLM 대비 6.7% 높은 성능을 달성했습니다.
효율성 (Efficiency):
- 추론 속도: LLaVA-NeXT 7B 모델에서 프리필링 (prefilling) 시간을 8 배 단축했습니다.
- 모델 크기 역전 현상: VisionZip 을 적용한 13B 모델이 7B 모델보다 더 빠른 추론 속도를 보이면서도 더 높은 정확도를 달성했습니다. (예: 13B 모델이 7B 모델보다 2 배 빠름)
- 메모리: CUDA 메모리 사용량을 20% 이상 절감하며, 양자화 (Quantization) 기술과도 호환됩니다.

5. 의의 및 결론 (Significance)

이 논문은 "시각 토큰의 길이를 늘리는 것이 항상 성능 향상에 기여하는 것은 아니다"라는 통찰을 제공합니다.

패러다임 전환: 단순히 토큰 수를 늘리는 대신, **어떤 토큰이 중요한지 (정보 추출)**에 초점을 맞춰야 함을 강조합니다.
실용성: VisionZip 은 엣지 디바이스, 실시간 비디오 처리, 다중 턴 대화 등 계산 자원이 제한된 실제 환경에서 VLM 을 배포하는 데 필수적인 기술이 될 수 있습니다.
미래 방향: 향후 연구는 더 적은 중복성을 가진 비전 인코더를 개발하거나, VisionZip 과 같은 토큰 압축 기법을 통해 더 긴 비디오 시퀀스를 처리하는 방향으로 나아가야 함을 시사합니다.

요약하자면, VisionZip은 불필요한 시각 토큰을 제거하고 핵심 정보만 선별하여 VLM 의 계산 효율성을 극대화하면서도 오히려 성능을 향상시킨 획기적인 방법론입니다.