EvoPrune: Early-Stage Visual Token Pruning for Efficient MLLMs

이 논문은 고해상도 이미지 및 비디오와 같은 복잡한 시나리오에서 MLLM 의 추론 효율성을 제한하는 시각 토큰의 기하급수적 증가 문제를 해결하기 위해, 시각 인코딩 단계 자체에서 토큰 유사성, 다양성 및 어텐션 기반 중요도를 활용하여 정보성이 높은 토큰만 선별하는 초기 단계 시각 토큰 가지치기 방법인 EvoPrune 을 제안하고, 이를 통해 VideoMME 데이터셋에서 2 배의 추론 속도 향상과 1% 미만의 성능 저하를 달성했음을 입증합니다.

Yuhao Chen, Bin Shan, Xin Ye, Cheng Chen

게시일 2026-03-05
📖 2 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 비유: "거대한 도서관의 사서"

생각해 보세요. AI 는 거대한 도서관을 관리하는 사서와 같습니다.
사용자가 "이 사진에서 무슨 일이 일어나고 있어?"라고 물으면, 사서는 도서관에 있는 모든 책 (이미지 데이터) 을 하나하나 뒤져서 답을 찾아야 합니다.

1. 문제점: "책이 너무 많아서 시간이 걸려요!"

최근 AI 는 고화질 사진이나 긴 영상을 처리할 때, 책 (데이터) 의 양이 어마어마하게 늘어납니다.

  • 기존 방식: 사서가 모든 책을 처음부터 끝까지 꼼꼼히 읽은 뒤, "아, 이 책들은 내용이 비슷하네?"라고 생각해서 불필요한 책을 버리고 답을 찾습니다.
  • 문제: 책이 너무 많아서 **읽는 시간 (데이터를 처음 분석하는 시간)**이 이미 너무 길어졌습니다. 답을 찾기 전에 책장 넘기는 데만 10 분 걸리면, 사용자는 기다리다 지쳐버립니다.

2. EvoPrune 의 해결책: "책을 읽기 전에 바로 골라내세요!"

EvoPrune 은 **"책을 다 읽기 전에, 가장 중요한 책만 골라내는 새로운 사서"**입니다.

  • 기존 방식: 모든 책을 한 번에 훑어본 후 (Visual Encoding), 불필요한 책을 버림.
  • EvoPrune 방식: 책을 **첫 번째 장을 펼치는 순간 (Early-Stage)**부터, "이 책은 내용이 중복되니 버리고, 저 책은 핵심이니 남겨라"라고 바로 결정합니다.

3. 어떻게 골라낼까요? (3 가지 기준)

EvoPrune 은 책을 고를 때 세 가지 현명한 기준을 사용합니다.

  1. 비슷한 책 찾기 (Similarity):
    • 비유: "이 책과 저 책은 내용이 거의 똑같네? 하나만 남기고 나머지는 버리자."
    • 중복된 정보를 제거하여 공간을 확보합니다.
  2. 다양한 책 찾기 (Diversity):
    • 비유: "모두가 같은 종류의 요리책만 남으면 안 되지. 요리, 여행, 과학 등 다양한 분야의 책을 골고루 남겨야 해."
    • 중요한 정보가 빠지지 않도록 다양한 내용을 보존합니다.
  3. 중요한 책 찾기 (Attention):
    • 비유: "사실 이 책 (화면 속 주인공) 을 사람들이 가장 많이 보고 싶어 하네? 이 책은 절대 버리면 안 돼."
    • AI 가 가장 주목하는 핵심 부분을 절대 건드리지 않고 보호합니다.

4. 결과는 어떨까요?

이 방법을 쓰면 어떤 일이 일어날까요?

  • 속도 2 배 빨라짐: 책장 넘기는 시간이 절반으로 줄어듭니다. 특히 긴 영상을 볼 때 효과가 엄청납니다.
  • 정확도 거의 유지: 불필요한 책만 버리고 핵심은 다 남겼기 때문에, 답을 찾는 능력 (정확도) 은 거의 떨어지지 않습니다. (오차 1% 미만!)
  • 실시간 가능: 이제 AI 가 실시간으로 영상을 분석하고 대화하는 것도 가능해집니다.

💡 한 줄 요약

"EvoPrune 은 AI 가 이미지를 분석할 때, '모든 것을 다 본 후'가 아니라 '처음 보는 순간'부터 똑똑하게 불필요한 정보를 잘라내어, 속도는 2 배로 빨라지고 정확도는 그대로 유지하게 해주는 기술입니다."

이 기술 덕분에 앞으로 우리가 스마트폰이나 엣지 기기에서 더 빠르고 똑똑한 AI 와 대화할 수 있게 될 것입니다.