What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

이 논문은 제안한 'EmbedLens' 분석 도구를 통해 멀티모달 대규모 언어 모델의 시각 토큰이 의미적 희소성을 가지며, 이미지 정보를 주로 담고 있는 '살아있는 토큰'만으로도 대부분의 작업이 가능하고 내부 계산이 불필요함을 규명하여 효율적인 모델 설계를 위한 토큰 가지치기 및 중간 계층 주입 전략을 제시합니다.

Yingqi Fan, Junlong Tong, Anhao Zhao, Xiaoyu Shen

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 핵심 스토리: "이미지라는 비행기 탑승"

AI 가 이미지를 처리할 때, 이미지를 잘게 쪼개어 **'비주얼 토큰 (Visual Tokens)'**이라는 작은 조각들 (패치) 로 만듭니다. 보통 우리는 이 모든 조각들이 그림의 의미를 담고 있다고 생각하지만, 이 논문은 **"아니요, 사실은 60% 만 의미 있고 나머지는 쓸모없거나 방해만 됩니다"**라고 말합니다.

저자들은 이 3 가지 토큰을 다음과 같이 분류했습니다:

1. 🪑 '싱크 (Sink)' 토큰: "의자만 차지하는 VIP"

  • 비유: 비행기에 탑승할 때, 어떤 승객은 자리에 앉아 있기만 하고 아무 말도 안 합니다. 그림이 무엇이든 (개인지, 고양이인지) 항상 똑같은 자리에 앉아 있습니다.
  • 실제 의미: 이 토큰들은 그림의 내용과 상관없이 항상 똑같은 숫자 패턴을 가집니다. AI 가 주의를 기울이게 하거나 구조를 잡는 역할만 할 뿐, 실제 그림의 의미 (개, 고양이, 빨간색 등) 는 전혀 담고 있지 않습니다.
  • 결론: 이들을 제거해도 AI 는 전혀 혼란을 느끼지 않습니다. 오히려 방해받지 않아 더 잘할 수도 있습니다.

2. 💀 '데드 (Dead)' 토큰: "잠자는 직원"

  • 비유: 사무실에 들어와서 아무 일도 하지 않고 멍하니 있는 직원들입니다. 다른 직원들이 열심히 일할 때, 이 친구들은 아무런 반응도 하지 않고 그냥 존재만 합니다.
  • 실제 의미: 이 토큰들은 그림의 내용과 무관하게 반복되는 패턴을 보입니다. AI 가 이들에게 주의를 기울이지도 않고, 이들도 아무런 정보를 전달하지 않습니다.
  • 결론: 이들을 잘라내면 (약 30% 제거) 오히려 AI 의 성능이 더 좋아집니다. 잡음이 사라진 셈이죠.

3. 🌟 '라이브 (Alive)' 토큰: "진짜 일하는 60%"

  • 비유: 비행기에서 실제로 목적지를 알려주는 승무원이나, 사무실에서 진짜 업무를 처리하는 핵심 직원들입니다.
  • 실제 의미: 전체 토큰 중 약 60% 만이 진짜 의미 (사물의 종류, 색깔, 글자 등) 를 담고 있습니다. 이 친구들이야말로 AI 가 그림을 이해하는 데 필수적인 '생각'을 전달합니다.
  • 놀라운 발견: 이 '라이브' 토큰들은 AI 가 깊게 생각하기 전에 이미 이미지의 핵심 정보 (예: "노란 버스", "검은 글자") 를 완벽하게 준비해 온 상태였습니다.

🔍 더 깊은 비밀: "왜 AI 는 이미 준비된 정보를 더듬거리나요?"

연구팀은 이 '라이브' 토큰들이 AI 의 뇌 (LLM) 에 들어간 후 어떻게 처리되는지 조사했습니다.

  1. 불필요한 재처리 (Redundancy):

    • 비유: 이미 요리사가 완벽하게 요리한 요리를 가져와서, 다른 요리사가 "음, 이걸 다시 한 번 볶아볼까?"라고 생각하며 불필요하게 다시 조리하는 것과 같습니다.
    • 사실: 대부분의 경우, AI 가 이미지를 처음 받아서 처리하는 초기 단계 (얕은 층) 에서 다시 생각할 필요가 없습니다. 이미 준비된 정보를 그대로 받아들이면 됩니다. 오히려 다시 생각하면 (재처리하면) 색깔을 배경색과 혼동하는 등 오류가 생길 수도 있습니다.
  2. 중간층에 바로 넣으면 돼요 (Mid-layer Injection):

    • 비유: 신입 사원 (초기 층) 에게 복잡한 업무를 시키지 말고, **경험 많은 팀장 (중간 층)**에게 바로 보고하는 것이 훨씬 효율적입니다.
    • 사실: '라이브' 토큰들은 AI 의 초기 층보다는 중간 층의 언어 이해 능력과 더 잘 맞습니다. 따라서 이미지를 AI 의 처음이 아니라, 중간 단계에 바로 주입하는 것이 더 빠르고 정확합니다.

🚀 이 연구가 우리에게 주는 교훈

이 논문은 AI 개발자들에게 다음과 같은 효율적인 방법을 제시합니다:

  1. 불필요한 것 잘라내기 (Token Pruning): 의미 없는 '싱크'와 '데드' 토큰을 미리 잘라내면, AI 는 더 가볍고 빠르게 작동합니다.
  2. 불필요한 계산 줄이기: 이미 준비된 정보를 다시 계산하지 않아도 되므로, AI 가 하는 일을 줄여 에너지를 아낄 수 있습니다.
  3. 직접 중간에 투입하기: 이미지를 AI 의 처음이 아니라, 이해할 준비가 된 중간 단계에 바로 넣어주면 더 똑똑하게 반응합니다.

📝 한 줄 요약

"AI 가 그림을 볼 때, 40% 는 아무 의미 없는 잡음이고, 나머지 60% 만이 진짜 의미입니다. 그리고 그 60% 는 이미 완벽하게 준비되어 있으니, AI 가 다시 고민할 필요 없이 바로 중간 단계에 주면 됩니다!"

이 연구를 통해 우리는 더 빠르고, 저렴하며, 이해하기 쉬운 차세대 AI 를 만들 수 있는 길을 찾았습니다.