Rethinking Visual Token Reduction in LVLMs Under Cross-Modal Misalignment
Cet article présente VisionDrop, un cadre d'élagage visuel sans entraînement qui surmonte les désalignements intermodaux en sélectionnant des tokens visuels informatifs via une attention intra-modale, réduisant ainsi considérablement la latence et le coût computationnel des modèles vision-langage tout en préservant leurs performances.