What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

Each language version is independently generated for its own context, not a direct translation.

🎬 핵심 스토리: "이미지라는 비행기 탑승"

AI 가 이미지를 처리할 때, 이미지를 잘게 쪼개어 **'비주얼 토큰 (Visual Tokens)'**이라는 작은 조각들 (패치) 로 만듭니다. 보통 우리는 이 모든 조각들이 그림의 의미를 담고 있다고 생각하지만, 이 논문은 **"아니요, 사실은 60% 만 의미 있고 나머지는 쓸모없거나 방해만 됩니다"**라고 말합니다.

저자들은 이 3 가지 토큰을 다음과 같이 분류했습니다:

1. 🪑 '싱크 (Sink)' 토큰: "의자만 차지하는 VIP"

비유: 비행기에 탑승할 때, 어떤 승객은 자리에 앉아 있기만 하고 아무 말도 안 합니다. 그림이 무엇이든 (개인지, 고양이인지) 항상 똑같은 자리에 앉아 있습니다.
실제 의미: 이 토큰들은 그림의 내용과 상관없이 항상 똑같은 숫자 패턴을 가집니다. AI 가 주의를 기울이게 하거나 구조를 잡는 역할만 할 뿐, 실제 그림의 의미 (개, 고양이, 빨간색 등) 는 전혀 담고 있지 않습니다.
결론: 이들을 제거해도 AI 는 전혀 혼란을 느끼지 않습니다. 오히려 방해받지 않아 더 잘할 수도 있습니다.

2. 💀 '데드 (Dead)' 토큰: "잠자는 직원"

비유: 사무실에 들어와서 아무 일도 하지 않고 멍하니 있는 직원들입니다. 다른 직원들이 열심히 일할 때, 이 친구들은 아무런 반응도 하지 않고 그냥 존재만 합니다.
실제 의미: 이 토큰들은 그림의 내용과 무관하게 반복되는 패턴을 보입니다. AI 가 이들에게 주의를 기울이지도 않고, 이들도 아무런 정보를 전달하지 않습니다.
결론: 이들을 잘라내면 (약 30% 제거) 오히려 AI 의 성능이 더 좋아집니다. 잡음이 사라진 셈이죠.

3. 🌟 '라이브 (Alive)' 토큰: "진짜 일하는 60%"

비유: 비행기에서 실제로 목적지를 알려주는 승무원이나, 사무실에서 진짜 업무를 처리하는 핵심 직원들입니다.
실제 의미: 전체 토큰 중 약 60% 만이 진짜 의미 (사물의 종류, 색깔, 글자 등) 를 담고 있습니다. 이 친구들이야말로 AI 가 그림을 이해하는 데 필수적인 '생각'을 전달합니다.
놀라운 발견: 이 '라이브' 토큰들은 AI 가 깊게 생각하기 전에 이미 이미지의 핵심 정보 (예: "노란 버스", "검은 글자") 를 완벽하게 준비해 온 상태였습니다.

🔍 더 깊은 비밀: "왜 AI 는 이미 준비된 정보를 더듬거리나요?"

연구팀은 이 '라이브' 토큰들이 AI 의 뇌 (LLM) 에 들어간 후 어떻게 처리되는지 조사했습니다.

불필요한 재처리 (Redundancy):
- 비유: 이미 요리사가 완벽하게 요리한 요리를 가져와서, 다른 요리사가 "음, 이걸 다시 한 번 볶아볼까?"라고 생각하며 불필요하게 다시 조리하는 것과 같습니다.
- 사실: 대부분의 경우, AI 가 이미지를 처음 받아서 처리하는 초기 단계 (얕은 층) 에서 다시 생각할 필요가 없습니다. 이미 준비된 정보를 그대로 받아들이면 됩니다. 오히려 다시 생각하면 (재처리하면) 색깔을 배경색과 혼동하는 등 오류가 생길 수도 있습니다.
중간층에 바로 넣으면 돼요 (Mid-layer Injection):
- 비유: 신입 사원 (초기 층) 에게 복잡한 업무를 시키지 말고, **경험 많은 팀장 (중간 층)**에게 바로 보고하는 것이 훨씬 효율적입니다.
- 사실: '라이브' 토큰들은 AI 의 초기 층보다는 중간 층의 언어 이해 능력과 더 잘 맞습니다. 따라서 이미지를 AI 의 처음이 아니라, 중간 단계에 바로 주입하는 것이 더 빠르고 정확합니다.

🚀 이 연구가 우리에게 주는 교훈

이 논문은 AI 개발자들에게 다음과 같은 효율적인 방법을 제시합니다:

불필요한 것 잘라내기 (Token Pruning): 의미 없는 '싱크'와 '데드' 토큰을 미리 잘라내면, AI 는 더 가볍고 빠르게 작동합니다.
불필요한 계산 줄이기: 이미 준비된 정보를 다시 계산하지 않아도 되므로, AI 가 하는 일을 줄여 에너지를 아낄 수 있습니다.
직접 중간에 투입하기: 이미지를 AI 의 처음이 아니라, 이해할 준비가 된 중간 단계에 바로 넣어주면 더 똑똑하게 반응합니다.

📝 한 줄 요약

"AI 가 그림을 볼 때, 40% 는 아무 의미 없는 잡음이고, 나머지 60% 만이 진짜 의미입니다. 그리고 그 60% 는 이미 완벽하게 준비되어 있으니, AI 가 다시 고민할 필요 없이 바로 중간 단계에 주면 됩니다!"

이 연구를 통해 우리는 더 빠르고, 저렴하며, 이해하기 쉬운 차세대 AI 를 만들 수 있는 길을 찾았습니다.

What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

🎬 핵심 스토리: "이미지라는 비행기 탑승"

1. 🪑 '싱크 (Sink)' 토큰: "의자만 차지하는 VIP"

2. 💀 '데드 (Dead)' 토큰: "잠자는 직원"

3. 🌟 '라이브 (Alive)' 토큰: "진짜 일하는 60%"

🔍 더 깊은 비밀: "왜 AI 는 이미 준비된 정보를 더듬거리나요?"

🚀 이 연구가 우리에게 주는 교훈

📝 한 줄 요약

1. 연구 배경 및 문제 제기 (Problem)

2. 방법론 (Methodology)

3. 주요 발견 및 결과 (Key Findings & Results)

A. 시각 토큰의 3 가지 기능적 분류 (Tri-partition)

B. 내부 시각 계산의 중복성 (Redundancy in Internal Computation)

C. 최적의 주입 위치 (Mid-layer Injection)

4. 주요 기여 (Contributions)

5. 의의 및 결론 (Significance)

What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

🎬 핵심 스토리: "이미지라는 비행기 탑승"

1. 🪑 '싱크 (Sink)' 토큰: "의자만 차지하는 VIP"

2. 💀 '데드 (Dead)' 토큰: "잠자는 직원"

3. 🌟 '라이브 (Alive)' 토큰: "진짜 일하는 60%"

🔍 더 깊은 비밀: "왜 AI 는 이미 준비된 정보를 더듬거리나요?"

🚀 이 연구가 우리에게 주는 교훈

📝 한 줄 요약

1. 연구 배경 및 문제 제기 (Problem)

2. 방법론 (Methodology)

3. 주요 발견 및 결과 (Key Findings & Results)

A. 시각 토큰의 3 가지 기능적 분류 (Tri-partition)

B. 내부 시각 계산의 중복성 (Redundancy in Internal Computation)

C. 최적의 주입 위치 (Mid-layer Injection)

4. 주요 기여 (Contributions)

5. 의의 및 결론 (Significance)

유사한 논문

Bitboard version of Tetris AI

Multiverse: Language-Conditioned Multi-Game Level Blending via Shared Representation

Concerning Uncertainty -- A Systematic Survey of Uncertainty-Aware XAI

Neuro-Symbolic Learning for Predictive Process Monitoring via Two-Stage Logic Tensor Networks with Rule Pruning

Compliance-Aware Predictive Process Monitoring: A Neuro-Symbolic Approach