Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity
Il paper introduce PruneSID, un metodo senza addestramento per la compressione dei token visivi nei modelli visione-linguaggio che, combinando analisi delle componenti semantiche e soppressione non massima, preserva l'essenza delle informazioni riducendo drasticamente il carico computazionale e migliorando le prestazioni rispetto agli approcci esistenti.