VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models
Die Arbeit stellt VLMQ vor, einen post-training-Quantisierungsrahmen für Vision-Sprach-Modelle, der durch die Identifizierung und Berücksichtigung von visueller Überrepräsentation sowie einer Modality-Gap und die selektive Priorisierung salienter Token mittels eines gradientenbasierten Wichtigkeitsfaktors die Quantisierungsleistung insbesondere bei niedrigen Bitbreiten signifikant verbessert.