Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models
O artigo propõe o método AOT (Token Anchors via Local and Global Optimal Transport), uma abordagem sem treinamento que otimiza a eficiência dos Modelos de Linguagem Grande para Vídeo ao reduzir tokens redundantes agregando contextos locais e globais através de transporte ótimo, preservando assim a fidelidade visual e temporal em benchmarks de vídeos curtos e longos.