When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

Each language version is independently generated for its own context, not a direct translation.

🎬 비유: "영화 감상의 100% 스포일러 vs. 핵심 장면"

생각해 보세요. 여러분이 긴 영화를 볼 때, 처음 10분은 배우들의 표정, 배경, 의상 등 모든 디테일을 주의 깊게 봅니다. 하지만 영화가 1시간 넘어가면, 스토리는 이미 전개되고 중요한 건 '결말'뿐입니다. 이때까지도 매 프레임마다 "저기 저 구름 모양이 뭐지?", "배경 음악이 왜 바뀌지?"라고 분석하면 오히려 영화 감상이 지루해지고 시간이 낭비되죠.

이 논문은 AI 가 이미지를 볼 때도 똑같은 현상이 일어난다고 말합니다.

1. 문제: "AI 는 너무 많은 정보를 가지고 다닙니다"

AI 는 이미지를 볼 때 수백 개의 작은 조각 (토큰) 으로 나눕니다. 마치 영화를 1 초 단위로 잘게 쪼개서 모두 분석하는 것과 같습니다.

초반 (얕은 층): AI 는 이미지의 핵심 정보 (예: "사람이 있다", "공이 있다") 를 잘 파악합니다.
후반 (깊은 층): 하지만 AI 가 깊게 생각할수록, 이 조각들이 가진 정보의 가치가 점점 희미해집니다. 마치 영화의 마지막 10 분 동안은 모든 장면이 다 비슷하게 느껴지는 것처럼요.

2. 발견: "심층에서는 '무작위 삭제'가 더 나을 수도 있다"

연구진은 "AI 가 이미지의 중요한 조각을 골라내서 버리는 (Pruning) 기술"을 연구했습니다. 그런데 놀라운 사실을 발견했습니다.

"AI 가 깊게 생각할수록 (레이어가 깊어질수록), 어떤 조각이 중요한지 구분하는 복잡한 알고리즘은 쓸모가 없어집니다. 그냥 '무작위로' 조각을 버리는 것과 성능이 똑같아집니다."

왜일까요?
이 논문은 이를 **"정보의 수평선 (Information Horizon)"**이라고 이름 붙였습니다.

비유: 여러분이 해변을 걷다가 파도가 치는 곳 (정보 Horizon) 을 넘어서면, 더 이상 파도 소리가 들리지 않습니다.
AI 에게: 이미지의 정보가 AI 의 뇌 (레이어) 를 깊게 통과하면, 모든 조각이 "아무 정보도 없는 빈 껍데기"가 됩니다. 이때는 누가 중요한지 골라낼 필요도, 그걸 계산할 필요도 없습니다. 그냥 무작위로 버려도 결과가 똑같습니다.

3. 중요한 변수: "어떤 일을 하느냐에 따라 달라집니다"

이 '정보의 수평선'이 어디에 위치하는지는 두 가지에 따라 달라집니다.

작업의 난이도 (시각적 복잡도):
- 단순한 질문: "이 사진에 공이 있나요?" → AI 는 초반에 정보를 다 파악하고, 10 단계 정도면 정보가 사라집니다.
- 복잡한 질문: "이 사진 속 글씨를 읽어보세요 (OCR)" → AI 는 아주 깊은 곳까지 정보를 찾아야 하므로, '수평선'이 훨씬 더 깊게 위치합니다.
AI 의 능력:
- 초고성능 AI (Qwen 등): 깊은 곳까지 정보를 잘 캐냅니다.
- 일반 AI (LLaVA 등): 조금만 깊어지면 정보가 사라집니다.

4. 해결책: "혼합 전략 (하이브리드)"

이제 이 발견을 어떻게 쓸까요? 논문은 **"초반에는 똑똑하게 골라내고, 후반에는 무작위로 버리자"**고 제안합니다.

초반 (얕은 층): AI 가 중요한 정보를 잘 파악할 때, 복잡한 알고리즘으로 가장 중요한 조각만 남기고 나머지를 버립니다.
후반 (깊은 층): 정보가 이미 다 사라진 구간에서는, 복잡한 계산 없이 무작위로 조각을 버립니다. (계산 비용이 아예 들지 않아서 더 빠릅니다!)

결과:
이 방법을 쓰면 AI 는 속도는 70% 이상 빨라지는데, 정확도는 거의 떨어지지 않습니다. 마치 "영화 초반은 꼼꼼히 보고, 후반은 중요한 대사만 듣고 끝내서 2 시간 영화를 30 분에 보는 것"과 같습니다.

💡 한 줄 요약

"AI 가 이미지를 깊게 분석할수록 모든 정보가 비슷해져서, 복잡한 계산 없이 무작위로 버려도 성능이 떨어지지 않습니다. 이 사실을 이용해 AI 를 더 빠르고 똑똑하게 만들었습니다!"

이 연구는 AI 가 불필요한 계산을 줄여주어, 우리가 스마트폰이나 클라우드에서 더 가볍고 빠르게 고화질 이미지를 분석할 수 있는 길을 열었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

비전 대형 언어 모델 (VLLM) 은 이미지 이해를 위해 수백 개의 시각 토큰 (visual tokens) 을 입력으로 사용하며, 이로 인해 추론 비용이 매우 높습니다. 이를 해결하기 위해 토큰 가지치기 (Token Pruning) 기법이 연구되어 왔으나, 기존 방법론에는 다음과 같은 한계가 발견되었습니다.

심층에서의 성능 저하: VLLM 의 언어 디코더 (Language Decoder) 의 깊은 층 (예: 20 층 이후) 에서 기존 가지치기 방법 (중요도 기반 또는 다양성 기반) 은 무작위 가지치기 (Random Pruning) 와 동등하거나 오히려 더 낮은 성능을 보입니다.
근본 원인 불명: 왜 심층에서 기존 방법론이 무작위 선택보다 나을 수 없는지, 그리고 시각 토큰이 모델의 깊이와 함께 어떻게 정보를 잃어가는지에 대한 체계적인 분석이 부족했습니다.

2. 방법론 (Methodology)

가. 시각 토큰 정보량 (Visual Token Information) 의 정의

저자들은 시각 토큰이 모델 출력에 기여하는 '정보량'을 정량화하기 위해 새로운 지표를 제안했습니다.

측정 방식: 특정 층 $i$ 에서 대상 시각 토큰 $V_k$ 를 제외한 나머지 모든 시각 토큰을 제거한 후 모델의 정답 확률을 계산합니다. 그 다음, 해당 토큰 $V_k$ 까지 제거하여 텍스트만 남긴 상태에서의 정답 확률을 계산합니다.
정보량 ( $I_i(V_k)$ ): 두 확률의 차이 ( $P_{with\_token} - P_{text\_only}$ ) 를 해당 토큰의 정보량으로 정의합니다. 즉, 토큰이 제거되었을 때 모델의 정답 확률이 얼마나 떨어지는지로 정보의 중요성을 판단합니다.

나. 정보의 소멸과 '정보 지평선 (Information Horizon)'

정보의 균일화: 실험 결과, 네트워크가 깊어질수록 시각 토큰들의 정보량이 점차 균일해지다가 특정 층에서 거의 0 에 수렴하는 현상이 관찰되었습니다.
정보 지평선 (Information Horizon): 시각 토큰의 평균 정보량이 0 에 가까워지는 특정 층을 의미합니다. 이 층 이후의 토큰들은 모델 성능에 거의 영향을 주지 않는 '중복된 정보'를 담고 있습니다.
동적 특성: 이 지평선의 위치는 고정되어 있지 않으며, 작업의 시각적 복잡도 (예: OCR 은 VQA 보다 깊은 층까지 정보 유지) 와 모델의 시각적 능력 (고성능 모델일수록 더 깊은 층까지 정보 활용) 에 따라 달라집니다.

다. 제안된 전략: 무작위 가지치기 통합

얕은 층: 기존 가지치기 방법 (DivPrune, DART 등) 을 사용하여 고정보량 토큰을 선별적으로 유지합니다.
깊은 층 (정보 지평선 이후): 모든 토큰의 정보량이 균일하고 낮아지므로, 복잡한 계산 없이 무작위 가지치기를 적용합니다. 이는 계산 오버헤드를 줄이면서도 성능을 유지하는 효율적인 방법입니다.

3. 주요 기여 (Key Contributions)

시각 토큰 정보량 정량화: 출력 확률 변화를 기반으로 시각 토큰의 정보량을 측정하는 새로운 지표를 제안하고, 저정보량 토큰 제거가 성능 향상에 기여함을 입증했습니다.
정보 지평선 발견: 시각 토큰의 정보가 심층에서 소멸하는 '정보 지평선' 현상을 발견하고, 이 지평선 이후의 토큰 제거가 성능에 영향을 미치지 않음을 규명했습니다.
동적 요인 규명: 정보 지평선의 위치가 작업의 시각적 복잡도와 모델의 시각적 능력에 따라 동적으로 변함을 발견했습니다.
효율적인 가지치기 프레임워크: 기존 가지치기 방법과 심층에서의 무작위 가지치기를 결합하여, 다양한 모델과 벤치마크에서 성능과 효율성을 동시에 최적화하는 방법을 제시했습니다.

4. 실험 결과 (Results)

성능 유지 및 향상:
- Qwen2.5-VL-7B: DivPrune 에 무작위 가지치기를 결합한 방법 (DivPrune+Random) 은 시각 토큰을 50% 제거하면서도 원래 모델 성능의 96.9% 를 유지했습니다. 특히 OCRBench 에서 기존 DART 방법 (75.5%) 보다 높은 77.9% 의 정확도를 기록했습니다.
- LLaVA-1.5-7B: DivPrune+Random 은 MMBench 에서 기존 DivPrune 대비 6.7% 향상 (54.6% → 61.3%) 을 보였습니다.
무작위 가지치기 vs 고정 층 제거 (VTW):
- 기존 연구 (VTW) 처럼 특정 층 이후 모든 토큰을 제거하는 방식보다, 심층에서 무작위 가지치기를 적용하는 방식이 복잡한 시각 작업 (TextVQA, OCR 등) 에서 더 높은 정확도를 보였습니다.
효율성 (Efficiency):
- LLaVA-1.5-7B (TextVQA): DART+Random 방식은 기존 DART 대비 FLOPs 를 2.44T 에서 2.36T 로 줄이고, 정확도는 50.4% 에서 53.4% 로 향상시켰습니다.
- 지연 시간 (Latency): 무작위 가지치기는 FlashAttention 과 호환되어 메모리 사용량을 줄이고 추론 속도를 높입니다. (예: 0.6 배 지연 시간 단축).

5. 의의 및 결론 (Significance)

이 논문은 VLLM 의 심층에서 시각 토큰이 정보를 잃어가는 '정보 지평선' 현상을 최초로 체계적으로 규명했습니다. 기존의 복잡한 중요도 기반 가지치기 알고리즘이 심층에서 오히려 비효율적일 수 있음을 지적하고, 심층에서는 단순한 무작위 가지치기가 오히려 더 효과적임을 증명했습니다.

이는 VLLM 의 추론 가속화를 위해 작업의 복잡도와 모델의 능력에 따라 동적으로 가지치기 전략을 조정해야 함을 시사하며, 단순하면서도 강력한 가지치기 전략 (기존 방법 + 무작위 가지치기) 을 통해 높은 성능과 낮은 계산 비용을 동시에 달성할 수 있는 새로운 방향을 제시합니다.