PixelPrune: Pixel-Level Adaptive Visual Token Reduction via Predictive Coding
PixelPrune is een trainingsvrije, pixelgebaseerde methode die redundante beeldpatches via voorspellende codering verwijdert voordat ze de Vision Transformer bereiken, waardoor de inferentie- en trainingsnelheid van Vision-Language Modellen aanzienlijk wordt versneld zonder in te leveren op de nauwkeurigheid.