VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models
Dit paper introduceert VLMQ, een post-training kwantisatieframework dat specifiek is ontworpen voor vision-language modellen door visuele oververtegenwoordiging en een modale kloof aan te pakken via een salientie-gedreven aanpak die de prestaties aanzienlijk verbetert, zelfs bij zeer lage bitbreedtes.