Pyramid Token Pruning for High-Resolution Large Vision-Language Models via Region, Token, and Instruction-Guided Importance

Each language version is independently generated for its own context, not a direct translation.

🎨 비유: "명화 감상을 위한 스마트 가이드"

상상해 보세요. 여러분이 거대한 박물관에 갔습니다. 벽에는 **수천 개의 작은 그림 조각 (토큰)**으로 이루어진 거대한 고해상도 그림이 걸려 있습니다. 이제 여러분은 AI(로봇 안내원) 에게 "이 그림에서 오른쪽에 있는 펜 옆에 있는 물체는 뭐야?"라고 물어봅니다.

1. 기존 방식의 문제점: "모든 조각을 다 들고 다니는 무거운 안내원"

기존의 AI 는 여러분이 물어보기 전에, 그림의 모든 조각을 하나도 빠짐없이 다 뜯어서 머릿속에 넣고 분석합니다.

문제: 그림이 너무 크면 (고해상도), 조각이 수천 개가 됩니다. AI 는 이 모든 조각을 처리하느라 머리가 터질 듯 무겁고 느려집니다.
비유: 마치 "펜 옆에 있는 물체"를 찾으라고 했을 때, AI 가 벽 전체의 모든 조각을 하나하나 손으로 만져보며 답을 찾는 것과 같습니다. 불필요한 조각 (예: 구석진 배경의 먼지) 도 다 챙겨서 속도가 매우 느립니다.

2. 제안된 방법 (PTP): "스마트한 3 단계 필터링"

이 논문에서 제안한 **PTP(Pyramid Token Pruning)**는 AI 에게 **"무엇을 봐야 할지"**를 3 단계로 가르쳐 주는 스마트 가이드 역할을 합니다.

1 단계: "어떤 구역이 중요할까?" (지역별 중요도)

비유: 그림을 여러 구역으로 나눕니다. "아, 이 구역은 배경이라서 중요하지 않고, 저 구역은 펜이 있는 곳이라서 중요해!"라고 대략적인 구역을 먼저 가려냅니다.
효과: 중요하지 않은 구역의 조각들은 아예 건드리지 않고 버립니다.

2 단계: "그 구역 안에서도 어떤 조각이 핵심일까?" (토큰별 중요도)

비유: 중요한 구역 (예: 펜이 있는 곳) 안에도 여전히 불필요한 조각들이 있을 수 있습니다. "이 구역에서도 펜 자체가 가장 중요하고, 주변 배경은 덜 중요하네"라고 조각 하나하나를 더 자세히 골라냅니다.
효과: 중요한 구역 안에서도 핵심만 남깁니다.

3 단계: "질문과 관련된 건 뭐지?" (지시어 기반 중요도)

비유: 이제 여러분의 질문 ("펜 옆에 있는 물체") 을 AI 가 다시 봅니다. "아! 질문에서 '펜'과 '오른쪽'을 강조했구나! 그렇다면 이 구역의 오른쪽에 있는 조각이 가장 중요하겠구나!"라고 질문 내용에 맞춰 최종적으로 다시 한번 정리를 합니다.
효과: 시각적으로 눈에 띄는 것만 보는 게 아니라, 질문에 딱 맞는 정보만 남깁니다.

3. 결과: "가볍고 빠른, 똑똑한 AI"

이 3 단계를 거치면 AI 는 불필요한 조각 50% 이상을 버리고도, 원래 그림의 99% 만큼의 정확도로 답을 낼 수 있습니다.

속도: 처리 시간이 절반 이상 줄어듭니다.
메모리: 컴퓨터의 메모리 (RAM) 사용량도 크게 줄어듭니다.
정확도: 오히려 불필요한 정보 (노이즈) 가 사라져서, 더 정확한 답을 내는 경우도 많습니다.

💡 핵심 요약

이 기술은 **"모든 것을 다 보는 게 능사가 아니다"**는 철학을 담고 있습니다.

사람의 눈처럼: 우리는 그림을 볼 때 무작정 모든 픽셀을 보는 게 아니라, 중요한 부분 (시선) 에 집중하고 나머지는 무시하죠.
AI 에 적용: 이 논문은 AI 도 사람처럼 "어디를 봐야 할지 (지역)", "무엇을 봐야 할지 (조각)", **"왜 봐야 할지 (질문)"**를 3 단계로 판단하게 만들어, 무겁고 느린 AI 를 가볍고 빠른 AI 로 변신시켰습니다.

이제 AI 는 고해상도 이미지도 스마트폰처럼 가볍고 빠르게 처리할 수 있게 된 것입니다! 🚀

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

고해상도 입력의 필요성과 한계: 대규모 시각 - 언어 모델 (LVLM) 은 미세한 시각적 세부 사항을 이해하기 위해 고해상도 이미지를 처리해야 합니다. 이를 위해 고해상도 이미지를 여러 개의 서브 이미지 (타일) 로 분할하여 인코딩하는 방식이 사용되지만, 이로 인해 시각 토큰 (visual tokens) 의 수가 기하급수적으로 증가합니다.
계산 비용의 폭발: 토큰 수의 증가는 추론 지연 시간 (latency) 증가, GPU 메모리 사용량 급증, 처리량 저하를 초래하여 실제 배포를 어렵게 만듭니다.
기존 방법의 한계:
- 학습 기반 방법: 토큰 압축을 위해 프로젝터 (projector) 를 재설계하거나 추가 학습이 필요한 경우, 플러그 앤 플레이 (plug-and-play) 적용이 어렵습니다.
- 학습 없는 방법 (Training-free):
  - 전처리 단계 (Vision Encoder 후): CLS 어텐션 등을 기반으로 토큰을 제거하지만, 텍스트 지시 (instruction) 와 무관하게 작동하여 작업에 중요한 정보를 실수로 제거할 위험이 있습니다.
  - LLM 내부: 텍스트 - 비전 어텐션을 이용하지만, 비전 인코더에 내재된 풍부한 시각적 중요도 (visual saliency) 정보를 간과하는 경우가 많습니다.
- 결론: 기존 방법들은 하향식 (top-down, 텍스트 기반) 과 상향식 (bottom-up, 시각 기반) 중요도를 통합하지 못하거나, 특정 작업에 최적화되지 않아 효율성과 정확도 간의 균형을 이루기 어렵습니다.

2. 제안 방법: 피라미드 토큰 가지치기 (Pyramid Token Pruning, PTP)

저자들은 학습이 필요 없는 (training-free) 플러그 앤 플레이 전략인 PTP를 제안합니다. 이는 인간의 시각적 인지 과정 (중요한 영역에 먼저 주의를 기울이고, 세부 사항으로 집중하며, 질문의 맥락을 고려함) 에서 영감을 받아 설계되었습니다.

PTP 는 3 단계의 계층적 가지치기 파이프라인을 따릅니다:

A. 영역 수준 중요도 평가 (Region-Level Importance Scoring)

상향식 (Bottom-up) 접근: 고해상도 이미지를 분할한 각 서브 이미지 (타일) 가 전체 장면에서 얼마나 중요한지 평가합니다.
방법: 각 타일의 CLS 토큰과 전체 이미지 (Global thumbnail) 의 CLS 토큰 간의 코사인 유사도를 계산하여 '시각적 관심도 (visual interest)' 점수를 산출합니다.
할당: 이 점수를 기반으로 각 타일에 할당할 **토큰 예산 (token budget)**을 동적으로 배분합니다. 중요한 영역은 더 많은 토큰을 유지하고, 덜 중요한 영역은 더 많이 제거합니다.

B. 토큰 수준 중요도 평가 (Token-Level Bottom-Up Scoring)

상향식 (Bottom-up) 접근: 각 타일 내부에서 개별 패치 (patch) 토큰의 중요도를 평가합니다.
방법: 비전 인코더 (ViT) 의 특정 레이어에서 CLS 토큰이 각 패치 토큰에 부여하는 어텐션 가중치를 사용합니다. CLS 토큰이 많이 주시하는 패치는 해당 영역의 표현에 중요한 시각적 정보를 담고 있다고 간주합니다.

C. 지시 기반 중요도 평가 (Instruction-Guided Top-Down Scoring)

하향식 (Top-down) 접근: 사용자의 텍스트 질문 (instruction) 이 시각 토큰 중 어떤 부분에 집중하는지 평가합니다.
방법: LLM 의 초기 레이어에서 질문 토큰이 시각 토큰으로 보내는 어텐션 가중치를 분석합니다. 특정 객체나 영역을 언급하는 질문의 경우, 해당 시각 토큰의 점수가 높아집니다. 이는 작업에 필수적인 증거를 보존하기 위해 중요합니다.

D. 적응형 융합 및 가지치기 (Adaptive Fusion & Pruning)

통합 점수: 각 토큰의 최종 중요도 점수 ( $s_j$ $s_{j}$ ) 는 지시 기반 점수 ( $c_j$ $c_{j}$ ) 와 시각 기반 점수 ( $b_j$ $b_{j}$ ) 를 하이퍼파라미터 $\alpha$ $α$ 로 가중합하여 계산합니다.
- $s_j = \alpha c_j + (1 - \alpha) b_j$
가지치기: 각 영역의 할당된 예산 내에서 점수가 높은 토큰들만 선택하여 LLM 에 전달합니다.

3. 주요 기여 (Key Contributions)

계층적 가지치기 메커니즘: 영역 (Region) 과 토큰 (Token) 수준의 시각적 중요도 (Bottom-up) 와 텍스트 지시 (Instruction) 기반의 하향식 중요도 (Top-down) 를 통합한 최초의 피라미드 구조 제안.
학습 불필요 (Training-Free): 모델 구조 수정이나 추가 학습 없이 기존 LVLM 파이프라인에 즉시 적용 가능한 플러그 앤 플레이 모듈.
작업 인식형 최적화: OCR 과 같은 세부 시각 작업과 오픈 도메인 질문 응답 작업에 따라 시각적 중요도와 지시 기반 중요도의 가중치 ( $\alpha$ ) 를 조절할 수 있음을 규명.

4. 실험 결과 (Results)

벤치마크: InternVL2-2B 및 InternVL2-8B 모델을 기반으로 13 개의 다양한 LVLM 벤치마크 (AI2D, SQA-I, VizWiz, TextVQA, MME, POPE 등) 에서 평가.
성능:
- 정확도: 시각 토큰을 50% 제거했음에도 불구하고, 원본 모델 대비 **99.8% (2B 모델 기준) ~ 99.7% (8B 모델 기준)**의 정확도를 유지했습니다.
- 우세성: 여러 벤치마크 (AI2D, MME, POPE 등) 에서 가지치기 전 원본 모델보다 더 높은 정확도를 기록하기도 했습니다. 이는 불필요한 노이즈 토큰 제거가 모델의 집중력을 높였음을 시사합니다.
- 경쟁 모델 대비: Random, VTW, FastV, GSearch 등 기존 가지치기 방법들보다 모든 카테고리에서 우수한 성능을 보였습니다.
효율성 (InternVL2-2B 기준, 50% 가지치기):
- 추론 시간: 325.7ms $\rightarrow$ 187.4ms (약 42% 단축)
- FLOPs: 6.40 TFLOPs $\rightarrow$ 3.04 TFLOPs (약 52.5% 감소)
- GPU 메모리: 24.6GB $\rightarrow$ 20.9GB (약 15% 감소)
- KV-Cache: 336.0MB $\rightarrow$ 168.0MB (50% 감소)

5. 의의 및 결론 (Significance)

고해상도 LVLM 의 실용화: 고해상도 이미지 처리 시 발생하는 계산 비용 폭증 문제를 해결하여, 제한된 하드웨어 자원에서도 고품질 멀티모달 추론이 가능하게 합니다.
효율성과 정확도의 균형: 단순히 토큰을 줄이는 것을 넘어, '어떤 토큰을 남겨야 하는가'에 대한 통찰을 제공했습니다. 특히 **시각적 중요도 (Bottom-up)**와 **작업 관련성 (Top-down)**의 균형이 작업 유형 (OCR vs. 일반 VQA) 에 따라 달라야 함을 실험적으로 증명했습니다.
미래 방향: 고정된 가중치 ( $\alpha$ ) 대신, 입력 신호나 작업 특성에 따라 동적으로 적응하는 완전한 학습 불필요 (fully training-free) 전략으로의 확장을 제안합니다.

요약하자면, 이 논문은 PTP를 통해 고해상도 LVLM 의 비효율적인 토큰 처리 문제를 해결하고, 시각적 중요도와 텍스트 지시를 지능적으로 융합함으로써 정확도를 유지하거나 향상시키면서 추론 속도와 메모리 효율을 획기적으로 개선한 획기적인 연구입니다.