Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity
El artículo presenta PruneSID, un método sin entrenamiento que optimiza la compresión de tokens visuales en modelos de lenguaje-vision mediante un análisis de componentes semánticos y supresión no máxima intra-grupo, logrando un rendimiento de vanguardia y una aceleración significativa al preservar la información esencial y diversa.