Energy-Driven Adaptive Visual Token Pruning for Efficient Vision-Language Models
Il paper presenta E-AdaPrune, un framework di pruning adattivo guidato dall'energia che ottimizza l'efficienza dei modelli visione-linguaggio allocando dinamicamente il budget dei token in base alla densità informativa delle immagini, ottenendo prestazioni superiori senza parametri aggiuntivi.