EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models

Each language version is independently generated for its own context, not a direct translation.

🎒 비유: "AI 의 가방 정리하기"

생각해 보세요. AI 가 이미지를 볼 때, 마치 **수백 개의 작은 조각 (토큰)**을 한 바구니에 담아서 분석합니다. 예를 들어, 576 개의 조각이 있다면 AI 는 이 모든 조각을 하나하나 꼼꼼히 살펴봐야 하기에 시간이 오래 걸리고 배터리도 많이 소모됩니다.

기존의 방법들은 "어떤 조각이 중요할까?"를 대충 짐작하거나, "3 번째 층부터는 다 버려라"라고 임의의 규칙으로 정했습니다. 하지만 이 방법은 때로는 중요한 조각을 버리거나, 불필요한 조각을 남기기도 했습니다.

EntropyPrune은 이 문제를 해결하기 위해 **"정보의 양을 정확히 재는 저울"**을 도입했습니다.

🔍 핵심 아이디어 1: "정보 폭탄이 터지는 지점 찾기" (엔트로피 붕괴 층)

논문 연구자들은 AI 가 이미지를 처리하는 과정을 관찰하다가 놀라운 사실을 발견했습니다.

초반 단계: AI 는 이미지의 모든 세부 사항을 열심히 받아들이고 있습니다. 정보량이 풍부합니다.
어느 순간 (특정 층): 갑자기 정보의 양이 뚝 떨어집니다. 마치 "아, 이제 이 이미지의 핵심은 다 파악했구나. 나머지는 그냥 반복되는 소음이야"라고 AI 가 스스로 깨닫는 순간입니다.

이 연구자들은 이 순간을 **'엔트로피 붕괴 층 (Entropy Collapse Layer)'**이라고 불렀습니다. 마치 산 정상에서 갑자기 계곡으로 떨어지는 지점처럼, 그 지점 이후로는 불필요한 정보 (중복된 조각) 가 쏟아져 나옵니다.

👉 결론: 우리는 이 '뚝 떨어지는 지점' 바로 앞에서 불필요한 조각들을 과감하게 잘라내면 됩니다. 언제 잘라야 할지 임의로 정할 필요가 없는 것입니다.

⚖️ 핵심 아이디어 2: "조각의 가치를 측정하는 저울" (행렬 엔트로피)

그렇다면 어떤 조각을 남기고 어떤 조각을 버릴까요?

기존 방법들은 "주의를 많이 기울인 조각"을 남겼습니다. 하지만 EntropyPrune 은 **"정보의 다양성"**을 측정합니다.

높은 엔트로피 (다양한 정보): 그 조각이 새로운 정보를 담고 있습니다. (예: "노란색 택시", "남자가 의자에 앉아 있음") → 유지!
낮은 엔트로피 (중복된 정보): 그 조각은 이미 알고 있는 정보의 반복이거나, 의미 없는 소음입니다. (예: 배경의 똑같은 하늘색 부분) → 버리기!

이때 사용하는 계산 방식이 **'행렬 엔트로피'**인데, 이를 쉽게 말하면 **"그 조각이 얼마나 많은 새로운 이야기를 담고 있는가?"**를 수학적으로 계산하는 것입니다.

🚀 핵심 아이디어 3: "스피드업 마법" (64 배 빠른 계산)

문제는 이 '정보량 계산'이 너무 무겁다는 거였습니다. 모든 조각을 계산하려면 AI 가 멈춰서 생각해야 할 정도로 느려집니다.

연구자들은 여기서 **수학적 마법 (이중 그람 행렬의 대칭성)**을 사용했습니다.

비유: 100 명의 학생의 성적을 일일이 계산하는 대신, 10 명의 대표 학생 성적만 보면 전체 평균을 100% 정확히 알 수 있는 방법을 찾은 것입니다.
결과: 계산 속도가 이론적으로 64 배 빨라졌습니다. AI 가 멈추지 않고도 불필요한 조각을 빠르게 잘라낼 수 있게 된 것입니다.

🏆 실제 성과: "무게는 1/3, 성능은 그대로!"

이 기술을 적용한 결과, 놀라운 변화가 일어났습니다.

LLaVA-1.5-7B라는 모델을 예로 들면, 시각 토큰 (이미지 조각) 을 77.8% (약 450 개)나 잘라냈습니다.
하지만 AI 의 성능은 96% 이상 유지되었습니다.
오히려 불필요한 소음 (중복 정보) 을 제거했기 때문에, 환각 (Hallucination, 엉뚱한 말하기) 현상이 줄어들어 더 정확한 답변을 내놓았습니다.
- 예시: 기존 모델은 "남자가 택시에서 옷을 널고 있다"라고 잘못 말했지만, EntropyPrune 은 "남자가 접이식 의자에 앉아 있고, 파란 셔츠를 들고 있다"라고 정확하게 파악했습니다.

💡 요약

이 논문은 AI 에게 **"무엇을 볼지, 언제 멈출지"**를 가르치는 지능적인 청소부 같은 기술입니다.

언제? 정보량이 뚝 떨어지는 '엔트로피 붕괴 층'을 찾아서.
무엇을? 정보량이 적은 (중복된) 조각을 골라서.
어떻게? 계산 속도를 64 배나 빠르게 하는 수학적 마법을 써서.

이 덕분에 AI 는 더 적은 에너지로 더 똑똑하게, 그리고 더 빠르게 이미지를 이해할 수 있게 되었습니다. 마치 불필요한 짐을 싹 비운 배가 더 빠르고 안정적으로 항해하는 것과 같습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

멀티모달 대형 언어 모델 (MLLM) 은 이미지 이해 및 추론 작업에서 뛰어난 성능을 보이지만, 효율성 측면에서 심각한 한계가 존재합니다.

계산 비용 과다: 하나의 이미지를 수백 개 (예: LLaVA-1.5 의 경우 576 개) 의 시각 토큰 (visual tokens) 으로 표현하여 입력 시퀀스 길이가 길어지고, 이로 인해 추론 시 계산 비용 (FLOPs) 과 메모리 사용량이 급증합니다.
기존 토큰 가지치기 (Token Pruning) 의 한계:
- 기존 방법들은 주로 어텐션 맵 (attention maps) 이나 특징 유사도 (feature similarity) 를 기반으로 중요도가 낮은 토큰을 제거합니다.
- 가장 큰 문제점: 어느 레이어 (layer) 에서 가지치기를 수행할지가 대부분 경험적 (heuristic) 인 규칙이나 그리드 서치 (grid search) 를 통해 고정되어 결정됩니다. 이는 모델의 내부 정보 흐름을 반영하지 못하며, 해석 가능성 (interpretability) 이 부족하고 다른 모델로 전이 (transferability) 하기 어렵습니다.

2. 방법론 (Methodology)

저자들은 정보 이론적 관점에서 시각 토큰의 정보 밀도를 분석하여 행렬 엔트로피 (Matrix Entropy) 를 기반으로 한 새로운 가지치기 프레임워크 EntropyPrune 을 제안합니다.

A. 핵심 발견: 엔트로피 붕괴 레이어 (Entropy Collapse Layer, ECL)

행렬 엔트로피 분석: 시각 토큰 표현의 정보 내용을 추적 정규화 (trace-normalized) 된 공분산 행렬의 엔트로피로 정의합니다. 이는 양자 정보 이론의 폰 노이만 엔트로피 (Von Neumann entropy) 와 수학적으로 동치입니다.
ECL 발견: 다양한 데이터셋과 모델 (LLaVA-1.5, LLaVA-NeXT) 에서 시각 토큰의 행렬 엔트로피를 레이어별로 분석한 결과, 초기 레이어에서는 높은 엔트로피를 유지하다가 특정 레이어 (예: 2 층) 를 지나면서 엔트로피가 급격히 감소하는 현상을 발견했습니다.
의미: 이 급격한 감소는 시각 토큰이 가진 정보량이 급격히 줄어들고 중복성이 급증함을 의미합니다. 따라서 이 지점을 엔트로피 붕괴 레이어 (ECL) 로 정의하고, 가지치기를 시작할 최적의 시점으로 활용합니다. 이는 경험적 선택이 아닌 이론적 근거에 기반한 해석 가능한 기준입니다.

B. EntropyPrune 프레임워크

언제 가지치기 할 것인가 (When to Prune): ECL 을 감지하여 가지치기를 시작할 레이어를 자동으로 결정합니다.
무엇을 가지치기 할 것인가 (What to Prune):
- 각 시각 토큰을 헤드별 (head-wise) 행렬로 재구성합니다.
- 각 토큰의 공분산 행렬을 계산하고, 이를 통해 토큰별 행렬 엔트로피 점수를 산출합니다.
- 엔트로피가 높은 토큰 (정보량이 풍부한 토큰) 은 유지하고, 낮은 토큰 (중복된 정보) 은 제거합니다. 이 과정은 어텐션 맵에 의존하지 않습니다.
효율적인 계산 (Spectral Acceleration):
- 행렬 엔트로피 계산을 위해 고유값 분해 (eigendecomposition) 가 필요하며, 이는 헤드 차원 ( $d_h$ ) 에 대해 $O(d_h^3)$ 의 복잡도를 가집니다.
- 이중 Gram 행렬 (Dual Gram Matrices) 의 스펙트럼 동치성을 활용합니다. $d_h \times d_h$ 크기의 공분산 행렬 대신, 헤드 수 ( $h$ ) 크기의 Gram 행렬 ( $h \times h$ ) 의 고유값을 계산하여 엔트로피를 구합니다.
- 효과: $d_h \gg h$ 인 일반적인 MLLM 구조에서 이론적으로 64 배 ( $64\times$ ) 의 속도 향상을 달성하여 실시간 추론을 가능하게 합니다.

3. 주요 기여 (Key Contributions)

엔트로피 붕괴 현상 규명: MLLM 에서 시각 정보의 엔트로피가 특정 레이어에서 급격히 감소하는 'ECL' 현상을 발견하고, 이를 가지치기 레이어 선정의 해석 가능한 기준으로 제시했습니다.
EntropyPrune 프레임워크 제안: 학습이 필요 없는 (training-free) 토큰 가지치기 방법을 제안하며, 행렬 엔트로피를 토큰 중요도 지표로 사용합니다.
효율성 최적화: 이중 Gram 행렬을 이용한 스펙트럼 가속 전략을 통해 엔트로피 계산의 복잡도를 획기적으로 낮추고 64 배의 이론적 속도 향상을 달성했습니다.
광범위한 검증: 다양한 이미지 및 비디오 벤치마크에서 SOTA(최고 수준) 가지치기 방법들을 압도하는 성능을 입증했습니다.

4. 실험 결과 (Results)

LLaVA-1.5-7B 모델을 기준으로 한 주요 결과는 다음과 같습니다:

성능 유지 및 향상:
- 시각 토큰을 77.8% 제거 (128 개 유지) 했을 때, FLOPs 는 68.2% 감소했으나 원래 모델 성능의 96.0% 를 유지했습니다.
- 일부 벤치마크 (MMVet 등) 에서는 가지치기를 하지 않은 원본 모델보다 더 높은 정확도를 기록하기도 했습니다.
기존 방법 대비 우위: FastV, DART, DivPrune, CDPruner 등 최신 가지치기 방법들보다 정확도와 효율성 면에서 일관되게 우수한 성능을 보였습니다.
확장성 (Scalability):
- 고해상도 입력: LLaVA-NeXT-7B(고해상도 이미지) 및 Qwen2.5-VL-7B(동적 해상도 지원) 에서도 효과적으로 작동했습니다.
- 비디오 이해: Video-LLaVA-7B 를 적용하여 비디오 데이터에서도 시간적 중복성을 효과적으로 제거하며 성능을 유지했습니다.
효율성: 가지치기 과정 자체의 오버헤드는 무시할 수준이며, KV 캐시 메모리 사용량과 FLOPs 를 크게 줄여 추론 속도를 가속화했습니다.

5. 의의 및 결론 (Significance)

이론적 근거의 제공: 기존의 경험적/heuristic 한 가지치기 방식에서 벗어나, 정보 이론 (행렬 엔트로피) 에 기반한 과학적이고 해석 가능한 가지치기 기준을 제시했습니다.
실용적 효율성: 학습 비용 없이 (training-free) 모델의 계산 부하를 획기적으로 줄이면서도 성능을 유지하므로, 엣지 디바이스나 리소스가 제한된 환경에서 MLLM 배포를 가능하게 합니다.
Green AI 기여: 추론 시 에너지 소비와 탄소 배출을 줄여 지속 가능한 AI 발전에 기여합니다.

이 논문은 멀티모달 모델의 효율성 문제를 해결하기 위해 정보 이론적 접근법을 도입하여, "언제 (When)"와 "어떻게 (How)" 토큰을 줄여야 하는지에 대한 명확하고 강력한 솔루션을 제시했다는 점에서 의의가 큽니다.