When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

이 논문은 비전 대규모 언어 모델 (VLLM) 의 깊은 층에서 기존 토큰 가지치기 방법이 무작위 제거보다 성능이 떨어지는 '정보의 소멸' 현상을 규명하고, 시각적 정보의 유효 깊이를 기반으로 무작위 가지치기를 결합한 새로운 전략을 제안하여 성능을 유지하면서 추론 효율을 극대화함을 보여줍니다.

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 비유: "영화 감상의 100% 스포일러 vs. 핵심 장면"

생각해 보세요. 여러분이 긴 영화를 볼 때, 처음 10분은 배우들의 표정, 배경, 의상 등 모든 디테일을 주의 깊게 봅니다. 하지만 영화가 1시간 넘어가면, 스토리는 이미 전개되고 중요한 건 '결말'뿐입니다. 이때까지도 매 프레임마다 "저기 저 구름 모양이 뭐지?", "배경 음악이 왜 바뀌지?"라고 분석하면 오히려 영화 감상이 지루해지고 시간이 낭비되죠.

이 논문은 AI 가 이미지를 볼 때도 똑같은 현상이 일어난다고 말합니다.

1. 문제: "AI 는 너무 많은 정보를 가지고 다닙니다"

AI 는 이미지를 볼 때 수백 개의 작은 조각 (토큰) 으로 나눕니다. 마치 영화를 1 초 단위로 잘게 쪼개서 모두 분석하는 것과 같습니다.

  • 초반 (얕은 층): AI 는 이미지의 핵심 정보 (예: "사람이 있다", "공이 있다") 를 잘 파악합니다.
  • 후반 (깊은 층): 하지만 AI 가 깊게 생각할수록, 이 조각들이 가진 정보의 가치가 점점 희미해집니다. 마치 영화의 마지막 10 분 동안은 모든 장면이 다 비슷하게 느껴지는 것처럼요.

2. 발견: "심층에서는 '무작위 삭제'가 더 나을 수도 있다"

연구진은 "AI 가 이미지의 중요한 조각을 골라내서 버리는 (Pruning) 기술"을 연구했습니다. 그런데 놀라운 사실을 발견했습니다.

"AI 가 깊게 생각할수록 (레이어가 깊어질수록), 어떤 조각이 중요한지 구분하는 복잡한 알고리즘은 쓸모가 없어집니다. 그냥 '무작위로' 조각을 버리는 것과 성능이 똑같아집니다."

왜일까요?
이 논문은 이를 **"정보의 수평선 (Information Horizon)"**이라고 이름 붙였습니다.

  • 비유: 여러분이 해변을 걷다가 파도가 치는 곳 (정보 Horizon) 을 넘어서면, 더 이상 파도 소리가 들리지 않습니다.
  • AI 에게: 이미지의 정보가 AI 의 뇌 (레이어) 를 깊게 통과하면, 모든 조각이 "아무 정보도 없는 빈 껍데기"가 됩니다. 이때는 누가 중요한지 골라낼 필요도, 그걸 계산할 필요도 없습니다. 그냥 무작위로 버려도 결과가 똑같습니다.

3. 중요한 변수: "어떤 일을 하느냐에 따라 달라집니다"

이 '정보의 수평선'이 어디에 위치하는지는 두 가지에 따라 달라집니다.

  • 작업의 난이도 (시각적 복잡도):
    • 단순한 질문: "이 사진에 공이 있나요?" → AI 는 초반에 정보를 다 파악하고, 10 단계 정도면 정보가 사라집니다.
    • 복잡한 질문: "이 사진 속 글씨를 읽어보세요 (OCR)" → AI 는 아주 깊은 곳까지 정보를 찾아야 하므로, '수평선'이 훨씬 더 깊게 위치합니다.
  • AI 의 능력:
    • 초고성능 AI (Qwen 등): 깊은 곳까지 정보를 잘 캐냅니다.
    • 일반 AI (LLaVA 등): 조금만 깊어지면 정보가 사라집니다.

4. 해결책: "혼합 전략 (하이브리드)"

이제 이 발견을 어떻게 쓸까요? 논문은 **"초반에는 똑똑하게 골라내고, 후반에는 무작위로 버리자"**고 제안합니다.

  • 초반 (얕은 층): AI 가 중요한 정보를 잘 파악할 때, 복잡한 알고리즘으로 가장 중요한 조각만 남기고 나머지를 버립니다.
  • 후반 (깊은 층): 정보가 이미 다 사라진 구간에서는, 복잡한 계산 없이 무작위로 조각을 버립니다. (계산 비용이 아예 들지 않아서 더 빠릅니다!)

결과:
이 방법을 쓰면 AI 는 속도는 70% 이상 빨라지는데, 정확도는 거의 떨어지지 않습니다. 마치 "영화 초반은 꼼꼼히 보고, 후반은 중요한 대사만 듣고 끝내서 2 시간 영화를 30 분에 보는 것"과 같습니다.


💡 한 줄 요약

"AI 가 이미지를 깊게 분석할수록 모든 정보가 비슷해져서, 복잡한 계산 없이 무작위로 버려도 성능이 떨어지지 않습니다. 이 사실을 이용해 AI 를 더 빠르고 똑똑하게 만들었습니다!"

이 연구는 AI 가 불필요한 계산을 줄여주어, 우리가 스마트폰이나 클라우드에서 더 가볍고 빠르게 고화질 이미지를 분석할 수 있는 길을 열었습니다.