What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models
本論文は、マルチモーダル大規模言語モデルにおける視覚トークンの分析手法「EmbedLens」を提案し、入力段階で画像固有の意味を担う「生トークン」のみが重要であり、内部視覚計算の大半は冗長であることを明らかにすることで、トークン剪定や中層への直接注入による効率的なモデル設計の指針を示しています。