AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

🎬 비유: "거대한 영화관과 효율적인 관객"

생각해 보세요. AI 가 이미지를 분석할 때, 마치 거대한 영화관에 수백 명의 관객 (화소/토큰) 을 앉혀놓고 영화를 보게 하는 것과 같습니다.

문제점: 관객이 너무 많으면 (이미지 토큰이 너무 많으면), 감독 (AI) 이 모든 관객의 이야기를 다 듣고 결정하는 데 시간이 너무 오래 걸려서 느려집니다.
기존 해결책: 그래서 감독은 "불필요한 관객은 나가라"라고 합니다. 하지만 어떻게 내보낼지 두 가지 방식이 있었습니다.

1. 기존 방식의 두 가지 극단

**방식 A **(주의 집중형) "가장 크게 소리를 지르거나 눈이 빛나는 관객만 남긴다."
- 장점: 중요한 핵심 장면은 잘 잡습니다.
- 단점: 주변 배경이나 작은 디테일을 놓쳐서, "저기 저기 뭐가 있더라?"라고 헛것을 보는 **환각 **(Hallucination)이 생길 수 있습니다.
**방식 B **(다양성 유지형) "관객들이 서로 너무 비슷하지 않게, 다양한 위치에 앉은 사람만 남긴다."
- 장점: 전체적인 풍경이 잘 보입니다.
- 단점: 중요한 핵심 인물은 놓치고, 없는 사람까지 있는 것처럼 착각하는 환각이 더 자주 발생합니다. (너무 많은 정보를 다 보려다 혼란이 오기 때문)

🔍 연구팀이 발견한 놀라운 사실

이 논문 연구팀은 이 두 방식의 특징을 자세히 분석해서 두 가지 중요한 통찰을 얻었습니다.

1. "이미지가 단순할 때는 '핵심'을, 복잡할 때는 '다양함'을 챙겨라!"

단순한 이미지 (예: 흰 배경에 사과 하나): 중요한 정보가 한곳에 모여 있습니다. 이때는 방식 A(주의 집중형)가 훨씬 잘 작동합니다.
복잡한 이미지 (예: 시장 한복판, 사람과 물건이 가득): 정보가 여기저기 흩어져 있습니다. 이때는 방식 B(다양성 유지형)가 더 좋습니다.
기존의 문제: 대부분의 AI 는 이미지 종류와 상관없이 같은 방식으로 토큰을 잘라냈습니다. 그래서 복잡한 이미지에서는 핵심을 놓치고, 단순한 이미지에서는 헛것을 보게 된 것입니다.

2. "다양함이 많을수록 AI 는 더 많이 헛것을 본다"

연구 결과, 무조건 다양한 정보를 남기려고 하면 (방식 B), AI 는 없는 물건을 있는 것처럼 말해주는 환각이 훨씬 자주 발생했습니다. 반면, 중요한 정보에 집중하면 (방식 A) 더 안전한 답변을 내놓았습니다.

🛠️ 새로운 솔루션: "AGILEPRUNER (유연한 가지치기)"

연구팀은 이 발견을 바탕으로 AI 에게 "상황에 따라 똑똑하게 선택하라"는 지시를 내렸습니다.

어떻게 작동하나요?
AI 가 이미지를 볼 때, 먼저 "이 이미지가 단순한가, 복잡한가?"를 빠르게 판단합니다.
- 단순한 이미지 👉 "핵심만 딱! (주의 집중형)"으로 토큰을 줄입니다.
- 복잡한 이미지 👉 "다양한 정보도 챙겨줘! (다양성 유지형)"로 토큰을 줄입니다.

이걸 AGILEPRUNER이라고 이름 붙였습니다. 마치 현명한 정원사가 나무의 모양에 따라 가위를 다르게 움직여 가지치기를 하듯, 이미지의 상황에 맞춰 최적의 방식으로 정보를 정리하는 것입니다.

🏆 결과는 어떨까요?

이 새로운 방법을 적용한 AI 는 다음과 같은 성과를 냈습니다.

속도: 계산량이 크게 줄어들어 훨씬 빠르게 작동합니다.
정확도: 단순한 이미지든 복잡한 이미지든, 기존 방법들보다 더 정확하게 답을 냅니다.
안전성: 없는 물건을 있는 것처럼 말하는 **환각 **(Hallucination) 현상을 크게 줄였습니다.

💡 한 줄 요약

"AI 가 이미지를 볼 때, 이미지가 단순하면 '핵심'만 쏙쏙 뽑고, 복잡하면 '다양한 정보'도 챙겨주는 똑똑한 방식을 개발했습니다. 덕분에 AI 는 더 빠르고, 더 정확하며, 헛소리를 덜 하게 되었습니다."

이 연구는 AI 가 에너지를 아끼면서도 똑똑하게 행동할 수 있는 새로운 길을 제시했다는 점에서 매우 의미 있습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

대규모 시각 - 언어 모델 (LVLM) 은 이미지, 텍스트, 비디오 등 다양한 모달리티를 통합하여 인간 수준의 추론 능력을 보여주지만, 고해상도 이미지나 비디오 입력 시 수백 개의 시각 토큰 (visual tokens) 을 생성합니다. 이로 인해 어텐션 (attention) 기반 계산의 복잡도가 토큰 수의 제곱에 비례하여 증가하여 추론 속도와 효율성이 크게 저하됩니다.

이를 해결하기 위해 기존 연구들은 불필요하거나 중복된 시각 토큰을 제거하는 토큰 프루닝 (Token Pruning) 기법을 도입했습니다. 주요 접근법은 두 가지로 나뉩니다.

어텐션 기반 (Attention-based): 어텐션 점수가 높은 토큰을 중요 정보로 간주하고 나머지를 제거합니다. (예: FasterVLM, VisPruner)
다양성 기반 (Diversity-based): 토큰 간의 특징 유사성을 기반으로 중복을 줄이고 다양성을 확보합니다. (예: DivPrune)

기존 연구의 한계:

두 접근법의 실제 동작 특성과 한계에 대한 심층적인 분석이 부족합니다.
어떤 방법이 얼마나 특징 공간의 다양성 (feature diversity) 을 보존하는지 정량적으로 평가된 바가 없습니다.
보존된 토큰의 특성이 LVLM 의 환각 (Hallucination, 존재하지 않는 객체를 생성하는 현상) 에 미치는 영향이 체계적으로 연구되지 않았습니다.
이미지 유형 (단순 vs 복잡) 에 따라 어떤 프루닝 전략이 더 효과적인지에 대한 명확한 기준이 부재합니다.

2. 방법론 (Methodology)

저자들은 기존 프루닝 방법들의 내재적 행동을 분석하기 위해 실제 유효 차원 (Effective Rank, erank) 과 어텐션 엔트로피 (Attention Entropy) 를 도입하여 정량적 분석을 수행했습니다.

2.1 핵심 분석 지표

Effective Rank (erank): 토큰 임베딩 행렬의 유효한 차원 수를 측정하여 특징 공간의 다양성을 정량화합니다. 높은 erank 는 정보가 여러 차원에 고르게 분포됨을, 낮은 erank 는 정보가 소수의 주요 차원에 집중됨을 의미합니다.
Attention Entropy: 클래스 토큰의 어텐션 점수 분포를 통해 시각 정보의 집중도를 측정합니다. 낮은 엔트로피는 정보가 특정 영역에 집중됨을, 높은 엔트로피는 정보가 여러 영역에 분산됨을 나타냅니다.

2.2 실증 분석 (Empirical Studies)

다양성 보존과 환각의 상관관계:
- 기존 방법들의 erank 를 측정하여 다양성 보존 정도를 비교했습니다.
- CHAIR 데이터셋을 사용하여 생성된 캡션의 객체 환각 빈도를 분석했습니다.
- 결과: 다양성 기반 방법은 높은 erank 를 유지하지만, 이는 환각 빈도 증가와 강한 상관관계를 보입니다. 반면, 어텐션 기반 방법은 낮은 다양성을 유지하지만 환각을 억제하고 더 보수적인 출력을 생성합니다.
이미지 복잡도에 따른 성능 차이:
- 단순한 이미지 (정보 집중) 와 복잡한 이미지 (정보 분산) 를 구분하여 분석했습니다.
- 결과: 단순한 이미지 (낮은 erank, 낮은 엔트로피) 에서는 어텐션 기반 프루닝이, 복잡한 이미지 (높은 erank, 높은 엔트로피) 에서는 다양성 기반 프루닝이 더 우수한 성능을 보입니다.

2.3 제안 방법: AgilePruner (적응형 프루닝)

위 실증적 통찰을 바탕으로 이미지 인지형 적응형 프루닝 (Image-aware Adaptive Pruning) 메커니즘을 제안했습니다.

동적 임계값 (Dynamic Threshold): 이미지의 복잡도 (erank) 에 따라 토큰 선택 시 유사성 임계값 ( $\tau$ $τ$ ) 을 동적으로 조정합니다.
- 단순 이미지 (낮은 erank): 임계값을 낮게 설정하여 어텐션 점수가 높은 토큰을 우선적으로 보존하고, 미세한 디테일을 잃지 않도록 합니다.
- 복잡 이미지 (높은 erank): 임계값을 높게 설정하여 중복된 토큰을 더 aggressively 제거하고, 더 다양한 토큰을 선택하여 전경 정보를 확보합니다.
알고리즘: 어텐션 점순으로 토큰을 정렬한 후, 선택된 토큰과 유사도가 임계값보다 낮은 이웃 토큰들을 제거하는 과정을 반복합니다.

3. 주요 기여 (Key Contributions)

최초의 erank 기반 프루닝 특성 분석: 기존 프루닝 방법들이 특징 다양성을 얼마나 보존하는지 정량화하고, 이 보존된 다양성이 환각 행동과 어떻게 연결되는지를 최초로 규명했습니다.
이미지 복잡도 의존성 발견: 어텐션 기반과 다양성 기반 프루닝 간의 일관된 성능 선호도가 이미지 복잡도에 따라 달라진다는 것을 발견했습니다. (단순 이미지 = 어텐션 우세, 복잡 이미지 = 다양성 우세)
실행 가능한 적응형 프레임워크 제시: 위 실증적 원리를 바탕으로 기존 프루닝 방법 (하이브리드 및 혼합 방식) 에 적용 가능한 간단한 적응형 메커니즘을 제안하고, 이를 통해 성능과 환각 억제를 동시에 달성하는 것을 증명했습니다.

4. 실험 결과 (Results)

벤치마크 성능: LLaVA-1.5-7B, LLaVA-1.5-13B, LLaVA-NeXT-7B, Qwen2.5-VL-7B 등 다양한 모델에서 9 개의 멀티모달 벤치마크 (VQAv2, GQA, POPE, MME 등) 를 평가했습니다.
- 토큰 수를 64 개로 줄였을 때, 기존 방법들은 25% 이상의 성능 저하를 보인 반면, AgilePruner 는 3.24% 미만의 저하만 보이며 기존 최상위 방법들 (VisionZip, DivPrune) 보다 2.2%~1.74% 더 높은 성능을 기록했습니다.
환각 억제 (CHAIR 평가):
- 다양성 기반 방법 (DivPrune) 은 높은 환각 점수 (CS, CI) 를 보인 반면, AgilePruner 는 어텐션 기반 방법과 유사하게 환각을 효과적으로 억제하면서도 Recall 을 유지했습니다.
효율성:
- 프루닝 자체의 계산 오버헤드 (erank 계산) 는 전체 추론 시간의 약 3.2% 에 불과하여 경량화되었습니다.
- FLOPs 를 89% 감소시키면서도 원본 모델 성능의 96% 이상을 유지했습니다.

5. 의의 및 결론 (Significance)

이 논문은 LVLM 의 토큰 프루닝 전략이 단순히 "무조건 줄이는" 것이 아니라, 입력 이미지의 복잡도에 따라 적응적으로 전략을 변경해야 함을 실증적으로 증명했습니다.

이론적 통찰: 어텐션 기반 방법이 환각을 줄이는 데 유리하고, 다양성 기반 방법이 복잡한 장면 이해에 유리하다는 상충되는 특성을 규명했습니다.
실용적 가치: 제안된 AgilePruner 는 별도의 추가 학습 (training-free) 이 필요 없으며, 기존 하이브리드 방법이나 단일 방법에도 쉽게 적용되어 일관된 성능 향상을 제공합니다.
미래 방향: 프루닝 알고리즘 설계 시 고정된 규칙보다는 데이터의 통계적 특성 (erank, 엔트로피) 을 반영한 적응형 메커니즘이 필수적임을 시사합니다.

결론적으로, AgilePruner 는 계산 효율성과 모델 정확도, 그리고 신뢰성 (환각 감소) 사이의 최적 균형을 달성하는 새로운 패러다임을 제시합니다.