Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

이 논문은 시각 토큰 가지치기에서 프롬프트 정렬과 시각적 보존 간의 상충 관계를 정량화하고, 이를 해결하기 위해 다목적 균형 커버링 (MoB) 기법을 제안하여 다양한 멀티모달 모델에서 성능 저하 없이 효율성을 극대화하는 방법을 제시합니다.

Yangfu Li, Hongjian Zhan, Tianyi Chen, Qi Liu, Yue Lu

게시일 2026-03-05
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"시각적 토큰 가지치기 (Visual Token Pruning)"**라는 기술에 대해 다루고 있습니다. 어렵게 들리지만, 쉽게 비유하자면 **"멀티미디어 대본 (MLLM) 을 읽을 때, 불필요한 장면을 잘라내어 속도를 높이는 방법"**을 연구한 것입니다.

이 연구의 핵심은 **"1+1 이 항상 2 가 아니다"**라는 통찰에서 시작합니다. 기존 방법들은 '화면의 중요 정보'와 '질문 (프롬프트) 과의 관련성'이라는 두 가지 목표를 단순히 합치면 좋다고 생각했지만, 실제로는 상황에 따라 오히려 성능이 떨어지기도 했습니다.

이 논문은 이를 해결하기 위해 **MoB (Multi-Objective Balanced Covering)**라는 새로운 방법을 제안했습니다. 내용을 쉽게 풀어서 설명해 드릴게요.


1. 문제 상황: 왜 1+1 이 1 보다 작을 수 있을까?

멀티미디어 AI 는 이미지를 볼 때 수천 개의 작은 조각 (토큰) 으로 나눕니다. 하지만 모든 조각이 중요한 건 아닙니다.

  • 목표 A (화면 보존): 이미지의 전체적인 맥락과 디테일을 잘 남기는 것.
  • 목표 B (질문 맞춤): 사용자의 질문과 직접 관련된 부분만 남기는 것.

기존 연구들은 이 두 가지를 무조건 다 챙기려고 했습니다. 하지만 상황에 따라 중요도가 달라집니다.

  • 예시 1 (약한 연결): "이 사진에 고양이 눈이 몇 개인가요?"라고 물었을 때, 고양이가 사진 한 구석에 작게 있다면 전체 화면을 다 보는 것보다 질문 (고양이 눈) 에 딱 맞는 부분만 집중하는 게 중요합니다.
  • 예시 2 (강한 연결): "이 사진의 분위기는 어떤가요?"라고 물었을 때는 특정 부분보다 전체적인 풍경이 더 중요합니다.

기존 방법들은 이 차이를 무시하고 똑같은 방식으로 두 목표를 섞다 보니, 상황에 따라 오히려 성능이 떨어지는 '1+1<1' 현상이 발생했습니다.

2. 해결책: MoB (균형 잡힌 커버링)

저자들은 이 문제를 지리학적 비유로 해결했습니다.

  • 비유: 도시 지도와 등대
    • **질문 (프롬프트)**은 "우리가 가고 싶은 목적지"입니다.
    • **이미지 (비주얼)**는 "거대한 도시 지도"입니다.
    • 가지치기는 "이 도시에서 우리가 실제로 방문할 몇 개의 핵심 장소를 고르는 것"입니다.

MoB 의 핵심 전략은 "예산 (Budget) 나누기"입니다.
우리가 가진 시간 (예산) 이 한정되어 있을 때, 목적지 (질문) 에 얼마나 집중할지, 그리고 도시 전체 (이미지) 를 얼마나 넓게 볼지 상황에 따라 비율을 조절해야 합니다.

  • 질문과 이미지가 멀리 떨어진 경우 (약한 연결): 목적지 (질문) 를 찾기 위해 질문 관련 장소를 더 많이 뽑아야 합니다. (등대 70%, 지도 30%)
  • 질문과 이미지가 가까이 있는 경우 (강한 연결): 이미 전체가 질문과 관련이 있으므로 전체 지도를 더 넓게 보는 게 좋습니다. (등대 30%, 지도 70%)

MoB 는 이 비율을 자동으로 계산하여, **질문에 맞는 핵심 정보 (Prompt Alignment)**와 **전체적인 맥락 (Visual Preservation)**을 가장 효율적으로 섞어줍니다.

3. MoB 가 어떻게 작동하나요? (간단한 과정)

  1. 상황 진단: 먼저 질문과 이미지가 얼마나 밀접하게 연결되어 있는지 (거리) 를 측정합니다.
  2. 예산 배분:
    • 연결이 약하면 → 질문 관련 토큰을 더 많이 뽑습니다.
    • 연결이 강하면 → 이미지 전체를 더 넓게 뽑습니다.
  3. 선택 실행:
    • 질문 관련 토큰: 질문의 각 단어와 가장 잘 맞는 이미지 조각들을 찾아냅니다. (가장 가까운 이웃 찾기)
    • 이미지 관련 토큰: 나머지 이미지 조각 중에서 서로 너무 겹치지 않고 골고루 퍼진 것들을 선택합니다. (가장 먼 점 찾기)

4. 왜 이 방법이 특별한가요?

  • 학습 불필요 (Training-free): 새로운 모델을 따로 가르칠 필요 없이, 기존 모델에 바로 적용할 수 있습니다.
  • 압도적인 속도: 이미지의 토큰 수를 88.9% 줄여도 성능은 거의 떨어지지 않습니다. (예: 100 점짜리 시험을 11 점만 보고도 96 점 이상 맞음)
  • 빠른 처리: LLaVA-Next 같은 최신 모델의 속도를 1.3~1.5 배나 빠르게 만들었습니다.
  • 유연성: 이미지뿐만 아니라 비디오 (동영상) 분석에서도 뛰어난 성능을 보여줍니다.

5. 결론: "적게 보고 더 잘 이해하기"

이 논문은 **"무조건 많이 보는 게 좋은 게 아니다"**라고 말합니다. 상황에 따라 무엇을 얼마나 볼지 지혜롭게 선택하는 것이 AI 의 속도와 정확도를 동시에 높이는 비결입니다.

MoB 는 마치 현명한 가이드처럼, 사용자의 질문을 듣고 "이때는 이 부분만 자세히 보고, 저때는 전체를 훑어보는 게 좋겠군"이라고 판단하여 AI 가 불필요한 정보에 시간을 낭비하지 않도록 도와줍니다.

한 줄 요약:

"질문과 이미지의 관계를 분석해, '질문 관련 정보'와 '전체 이미지 정보'의 비율을 상황에 맞게 자동으로 조절함으로써, AI 를 더 빠르고 정확하게 만드는 새로운 방법입니다."