When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs
이 논문은 비전 대규모 언어 모델 (VLLM) 의 깊은 층에서 기존 토큰 가지치기 방법이 무작위 제거보다 성능이 떨어지는 '정보의 소멸' 현상을 규명하고, 시각적 정보의 유효 깊이를 기반으로 무작위 가지치기를 결합한 새로운 전략을 제안하여 성능을 유지하면서 추론 효율을 극대화함을 보여줍니다.