iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models
El paper presenta iLLaVA, un método que acelera de extremo a extremo los modelos multimodales grandes optimizando conjuntamente el codificador de imágenes y el modelo de lenguaje mediante una estrategia de fusión de tokens que recicla información útil, logrando mejoras significativas en velocidad y eficiencia sin sacrificar la precisión.