VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models
이 논문은 비전 - 언어 모델 (VLM) 의 활성화 특성을 분석하여 시각 토큰의 과잉 표현과 모달리티 간극 문제를 해결하기 위해, 토큰별 중요도를 고려한 선택적 양자화 전략을 도입함으로써 저비트 환경에서도 기존 방법보다 뛰어난 성능을 달성하는 VLMQ 라는 새로운 Post-Training Quantization 프레임워크를 제안합니다.