AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models
AgilePruner es un estudio empírico que analiza las limitaciones de los métodos de poda de tokens visuales basados en atención y diversidad en los Modelos Grandes de Visión y Lenguaje, revelando que la diversidad conservada se correlaciona con alucinaciones y que el rendimiento óptimo depende de la complejidad de la imagen, lo que lleva al desarrollo de un mecanismo de poda adaptativa que mejora el rendimiento y reduce las alucinaciones.