Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity
Das Paper stellt PruneSID vor, einen trainingsfreien Ansatz zur effizienten Kompression von Vision-Token in Vision-Language-Modellen, der durch eine synergistische Kombination aus semantischer Clustering und intra-gruppalem Non-Maximum-Suppression sowie einer dynamischen Kompressionsrate einen neuen State-of-the-Art bei gleichzeitiger drastischer Beschleunigung und minimalem Genauigkeitsverlust erreicht.