iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models
O artigo apresenta o iLLaVA, uma abordagem que acelera modelos multimodais de grande escala otimizando conjuntamente o codificador de imagem e o LLM através de uma estratégia inovadora de fusão de tokens que recicla informações descartadas, resultando em ganhos significativos de eficiência e desempenho tanto em tarefas de imagem quanto de vídeo.