Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models
이 논문은 비디오 대형 언어 모델의 비효율적인 토큰 문제를 해결하기 위해 국소 및 전역 컨텍스트를 최적 수송 (Optimal Transport) 기반으로 통합하는 'AOT'라는 새로운 토큰 축소 기법을 제안하여, 학습 없이도 계산 효율성을 크게 높이면서도 시공간적 충실도를 유지하는 것을 목표로 합니다.