VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

Each language version is independently generated for its own context, not a direct translation.

🎒 비유: "가방을 정리하는 새로운 방법"

생각해 보세요. 여러분이 여행을 가려고 **거대한 가방 (AI 모델)**을 정리하고 있습니다. 이 가방 안에는 **여행지 사진 (이미지)**과 **여행 계획서 (텍스트)**가 가득 차 있습니다.

1. 문제점: "사진이 너무 많고, 가방이 혼란스러워요!"

기존의 AI 압축 기술 (LLM 용) 은 이 가방을 정리할 때, **"사진과 글자 모두 똑같은 무게로 취급"**했습니다.
하지만 이 논문은 두 가지 치명적인 문제를 발견했습니다.

문제 1: 사진 과잉 (Visual Over-representation)
- 가방 안에 쓸데없이 비슷한 사진이 너무 많습니다. 예를 들어, "파란 하늘" 사진이 100 장이나 있는데, 그중 90 장은 거의 똑같습니다.
- 기존 기술은 이 100 장을 모두 똑같이 중요하게 여겨 정리하려다 보니, 정작 중요한 글자 (여행 계획) 가 밀려나고 가방이 비효율적으로 변해버립니다.
문제 2: 언어와 이미지의 괴리 (Modality Gap)
- 사진과 글자는 서로 다른 언어로 되어 있습니다. 사진은 "색깔과 형태"로, 글자는 "의미"로 표현되죠.
- 기존 기술은 이 두 가지를 섞어서 한 번에 정리하려다 보니, 사진의 소음 (잡음) 에 가려져 중요한 글자의 의미가 왜곡되는 문제가 생깁니다.

2. 해결책: "VLMQ, 중요한 것만 챙기는 스마트 정리사"

저자들은 이 문제를 해결하기 위해 VLMQ라는 새로운 정리법을 고안했습니다. 핵심은 **"중요도 (Saliency)"**를 따지는 것입니다.

🔍 "중요도 탐정" (Gradient-Driven Importance Factor)
- VLMQ 는 가방을 정리하기 전에, **"이 사진이 정말 필요한가?"**를 수학적으로 계산합니다.
- 마치 중요한 문서에는 빨간색 스티커를, 불필요한 복사본에는 회색 스티커를 붙이는 것과 같습니다.
- 이 기술은 AI 가 학습할 때 어떤 정보가 '오류'를 많이 일으키는지 (기울기, Gradient) 를 분석하여, 진짜 중요한 정보 (중요한 사진과 글자) 에는 더 많은 공간을 주고, 불필요한 정보는 과감히 줄입니다.
⚡ "효율적인 정리" (Lightweight Block-wise Backpropagation)
- 보통 이런 정리를 하려면 가방을 완전히 비우고 다시 채우는 데 엄청난 시간이 걸립니다 (재학습).
- 하지만 VLMQ 는 가방의 작은 구역 (블록) 단위로만 잠깐 확인하고 정리합니다. 그래서 시간과 에너지를 거의 쓰지 않으면서도 최고의 정리 효과를 냅니다.

3. 결과: "가방은 작아졌는데, 내용은 그대로!"

이 기술을 적용한 결과, 놀라운 성과가 나왔습니다.

압축률: AI 모델의 크기를 **2 비트 (매우 작은 숫자)**로 줄여도, 원래 모델과 거의 비슷한 성능을 냅니다.
성능 향상: 기존 기술로 정리했을 때 60 점 정도였던 점수가, VLMQ 로 정리하니 76 점까지 올라갔습니다. (약 16% 향상)
실용성: 이제 거대한 AI 모델도 일반 스마트폰이나 엣지 디바이스에서도 빠르고 가볍게 돌아갈 수 있게 되었습니다.

💡 한 줄 요약

"기존 기술은 가방 속의 모든 것을 똑같이 취급해 혼란을 빚었지만, VLMQ 는 '무엇이 진짜 중요한지'를 알고 불필요한 사진을 과감히 줄여, AI 를 가볍고 똑똑하게 만들었습니다."

이 기술은 앞으로 우리가 스마트폰에서 고화질 이미지 분석이나 복잡한 질문을 AI 에게 물어볼 때, 더 빠르고 정확하게 답변을 받을 수 있게 해줄 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

비전 - 언어 모델 (VLMs) 은 텍스트와 이미지를 함께 처리하는 강력한 능력을 가지고 있지만, 모델의 규모가 커짐에 따라 메모리 사용량과 추론 비용이 급증하여 실제 배포에 어려움이 있습니다. 이를 해결하기 위해 기존 대규모 언어 모델 (LLM) 에 적용된 학습 후 양자화 (Post-Training Quantization, PTQ) 기술이 주목받고 있으나, VLM 에 직접 적용할 때는 다음과 같은 두 가지 고유한 특성으로 인해 성능이 크게 저하되는 문제가 발생합니다.

시각적 과대표성 (Visual Over-representation): VLM 입력은 텍스트 토큰에 비해 시각 (이미지) 토큰이 과도하게 많고 중복되는 경향이 있습니다. 기존 PTQ 방법들은 모든 토큰을 균일하게 취급하여 MSE(평균 제곱 오차) 를 최소화하는데, 이로 인해 중요한 정보보다는 중복된 시각적 특징에 양자화 오차가 집중되어 성능이 떨어집니다.
모달리티 간격 (Modality Gap): 잠재 공간 (Latent Feature Space) 에서 텍스트 토큰과 시각 토큰의 분포가 명확하게 분리되어 있습니다. 기존 방법들은 이러한 모달리티 차이를 고려하지 않아, 양자화 과정에서 중요한 텍스트 토큰의 정보를 희생하고 redundant 한 시각 토큰을 과도하게 보존하는 편향 (Bias) 이 발생합니다.

2. 제안 방법: VLMQ (Methodology)

이러한 문제를 해결하기 위해 저자들은 VLMQ라는 VLM 전용 PTQ 프레임워크를 제안합니다. 핵심 아이디어는 "중요한 토큰 (Salient Tokens) 을 우선시하고 중복된 토큰은 억제하는 중심 인식 (Importance-Aware) 양자화"입니다.

2.1. 경향 기반 중요도 인자 (Gradient-Driven Importance Factor)

이론적 근거: 손실 변화 (Loss Perturbation) 가 토큰 수준의 출력 오차와 **기울기 (Gradient)**의 곱으로 근사될 수 있음을 증명했습니다 (Theorem 1).
구현: 단순히 오차 크기만 보는 것이 아니라, 각 토큰이 손실 함수에 미치는 영향을 나타내는 **기울기 기반 중요도 인자 ( $G$ $G$ )**를 도입했습니다.
- 시각 토큰 중 중복된 것은 기울기가 작아 중요도가 낮게, 중요한 텍스트나 핵심 시각 토큰은 기울기가 커 중요도가 높게 평가됩니다.
- 이 인자는 대각 행렬 형태로, 양자화 최적화 목적 함수에 가중치로 적용됩니다.

2.2. 효율적인 기울기 획득 (Efficient Gradient Acquisition)

전체 네트워크에 대한 역전파는 비용이 너무 크고, 레이어 단위만으로는 레이어 간 의존성을 놓칩니다.
경량 블록 단위 역전파 (Lightweight Block-wise Backpropagation): Attention 모듈 직후에 활성화 훅 (Hook) 을 설치하여, 각 블록 (Attention + MLP) 단위에서 국소 손실 (Local Loss) 을 계산하고 한 번의 역전파만 수행하여 기울기를 추출합니다. 이는 계산 효율성을 극대화하면서도 정확한 중요도 인자를 제공합니다.

2.3. 중요도 인식 최적화 목적 함수 (Importance-Aware Objective)

기존 PTQ 가 단순한 MSE( $||\Delta z||^2$ ) 를 최소화하는 반면, VLMQ 는 제안된 중요도 인자 $G$ 를 목적 함수에 통합합니다:
$\arg \min_{\hat{W}} || (\Delta W X - \Delta \hat{W} X) G ||_2^2$
이를 통해 중요한 토큰의 오차는 크게 penalize 하고, 중복된 토큰의 오차는 상대적으로 덜 penalize 하여, 양자화 과정에서 정보 손실을 최소화합니다.

3. 주요 기여 (Key Contributions)

VLM 과 PTQ 의 불일치 규명: VLM 의 시각적 중복성과 기존 PTQ 의 토큰 무관심 (Token-agnostic) 목표 사이의 근본적인 불일치를 발견하고, 이것이 LLM PTQ 방법을 VLM 에 직접 적용할 때 성능 저하를 일으키는 주원인임을 실증했습니다.
경향 기반 중요도 인자 제안: 토큰별 정보량 변동을 포착하는 수학적 이론과 실험적 근거를 바탕으로 한 새로운 중요도 인자 $G$ 를 개발했습니다.
효율적인 프레임워크 구축: 블록 단위 역전파를 통해 추가적인 계산 비용을 최소화하면서도 정교한 양자화 보정이 가능한 VLMQ 를 구현했습니다.
SOTA 성능 달성: 다양한 VLM 모델 (Qwen2-VL, LLaVA-OneVision 등) 과 벤치마크에서 기존 방법들을 압도하는 성능을 입증했습니다.

4. 실험 결과 (Results)

저자들은 0.5B 에서 32B 크기의 다양한 VLM 모델에 대해 8 개의 벤치마크 (TextVQA, DocVQA, MME-RealWorld 등) 에서 실험을 수행했습니다.

초저비트 (Ultra-low-bit) 성능: 특히 2 비트 (INT2) 양자화 환경에서 기존 방법들이 붕괴되는 반면, VLMQ 는 뛰어난 성능을 유지했습니다.
- MME-RealWorld 벤치마크에서 Qwen2-VL-7B 모델을 2 비트로 양자화했을 때, 기존 GPTQ 대비 **16.45%**의 정확도 향상을 기록했습니다.
- Qwen2.5-VL-7B 모델에서도 2 비트 환경에서 GPTQ 대비 1.88% ~ 2.33% 의 평균 정확도 향상을 보였습니다.
3 비트 (INT3) 성능: 3 비트 환경에서도 GPTQ 및 GPTAQ 대비 일관된 성능 향상 (평균 0.1% ~ 1.0% 이상) 을 보이며, 다양한 모델 크기와 작업에서 강건함을 입증했습니다.
효율성: 양자화 과정에서의 추가 메모리 오버헤드는 32B 모델 기준 약 2.6GB 내외로 적으며, 양자화 시간은 모델 크기에 따라 최대 10 분 정도만 증가하여 실용적입니다. 추론 속도는 기존 GPTQ 와 동일하게 유지됩니다.

5. 의의 및 결론 (Significance)

이 논문은 VLM 의 고유한 특성 (시각적 과대표성, 모달리티 간격) 을 고려한 최초의 효율적인 PTQ 프레임워크를 제시했다는 점에서 의미가 큽니다.

실용적 가치: 고비용의 재학습 (Fine-tuning) 없이도 VLM 을 초저비트 (2~3 비트) 환경에서 고품질로 배포할 수 있는 길을 열었습니다. 이는 모바일 기기나 엣지 디바이스에서의 멀티모달 AI 적용을 가능하게 합니다.
방법론적 확장: 단순히 모달리티를 구분하는 것을 넘어, 토큰 단위의 중요도 (Saliency) 를 동적으로 평가하고 양자화 과정에 반영하는 새로운 패러다임을 제시했습니다.

결론적으로, VLMQ 는 VLM 의 양자화 성능 한계를 돌파하여 대규모 멀티모달 모델의 실제 세계 배포를 가속화하는 핵심 기술로 평가됩니다.