Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

이 논문은 기존 비전 - 언어 모델의 계산 비효율성을 해결하기 위해 훈련 없이 실행 가능한 'PruneSID'를 제안하며, 의미적 중요도와 다양성을 시너지적으로 고려한 두 단계 토큰 압축 기법을 통해 극단적인 토큰 감소율에서도 최첨단 성능과 빠른 처리 속도를 달성함을 보여줍니다.

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie Pei

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

📸 "PRUNESID": 사진 속 불필요한 정보를 잘라내어 AI 를 더 똑똑하고 빠르게 만드는 방법

이 논문은 **시각-언어 모델 **(VLM)이 어떻게 작동하는지, 그리고 왜 현재 너무 느리고 비효율적인지, 그리고 저자들이 제안한 PRUNESID라는 새로운 방법이 어떻게 이 문제를 해결하는지 설명합니다.

간단히 말해, "사진을 볼 때 AI 가 모든 픽셀을 다 보려고 하지 말고, 핵심만 잘라내어 빠르게 이해하게 하자"는 아이디어입니다.


🤔 문제: AI 는 사진을 볼 때 왜 이렇게 느릴까요?

지금의 AI(예: LLaVA) 는 사진을 볼 때 마치 거대한 퍼즐 조각 576 개를 하나하나 다 살펴보는 것과 같습니다.

  • 현실: 사진의 70% 는 배경이나 반복적인 패턴 (예: 하늘, 벽, 나무 잎사귀) 이라 AI 에게는 불필요한 정보입니다.
  • 문제: AI 는 이 불필요한 조각들까지 다 분석하려다 보니 시간이 오래 걸리고, 컴퓨터 성능을 너무 많이 잡아먹습니다.

기존 방법들은 두 가지 극단적인 문제를 겪고 있었습니다:

  1. **주목도 **(Attention) "가장 눈에 띄는 것 (사람, 자동차) 만 보고 나머지는 무시"합니다.
    • 비유: 파티에서 가장 유명한 사람만 보고 나머지 사람들과 대화하지 않는 것. 배경 정보가 사라져서 상황을 제대로 이해하지 못합니다.
  2. **중복 제거 **(Redundancy) "비슷한 것끼리 뭉쳐서 하나만 남깁니다".
    • 비유: 비슷한 옷을 입은 사람들도 모두 한 명만 남긴다면, 중요한 **의미 있는 정보 **(예: 표정, 세부 사항)까지 잃어버릴 수 있습니다.

💡 해결책: PRUNESID (프루니드)

저자들은 "중요한 것은 살리고, 중복된 것은 잘라내되, 다양한 정보도 놓치지 말자"는 두 마리 토끼를 잡는 방법을 고안했습니다. 이 방법은 **학습 **(Training)이 필요 없는 PRUNESID입니다.

이 방법은 두 단계로 이루어진 스마트 필터처럼 작동합니다.

1 단계: "주요 의미 그룹화" (PSCA) - 🧩 퍼즐을 주제별로 묶기

AI 가 본 사진의 모든 조각 (토큰) 을 무작위로 섞지 않고, 주제별로 그룹을 짓습니다.

  • 비유: 책상 위에 흩어진 레고 조각들을 "바닥, , 가구"처럼 의미가 비슷한 것끼리 묶는 것입니다.
  • 효과: 이제 AI 는 "이 그룹은 배경이야", "이 그룹은 사람 얼굴이야"라고 명확하게 구분할 수 있습니다.

2 단계: "그룹 내 중복 제거" (NMS) - 🗑️ 같은 그룹에서 대표자만 뽑기

각 그룹 안에서 가장 대표적인 조각 하나만 남기고, 나머지는 잘라냅니다.

  • 비유: "바닥" 그룹에 비슷한 타일 100 개가 있다면, 그중 가장 특징적인 타일 1 개만 남기고 나머지는 버립니다. 하지만 "사람 얼굴" 그룹에서는 눈, 코, 입이 모두 중요한 정보이므로, 서로 다른 특징을 가진 조각들은 모두 살려둡니다.
  • 핵심: 단순히 "비슷한 것"을 지우는 게 아니라, 그룹 내에서 가장 중요한 대표자를 골라내어 **다양성 **(Diversity)을 유지합니다.

🌟 추가 기능: "상황에 맞는 자동 조절" (동적 압축 비율)

모든 사진이 같은 복잡도를 가지지는 않습니다.

  • **복잡한 사진 **(예: 시끄러운 시장) → 더 많은 조각을 남겨서 정보를 충분히 담습니다.
  • **단순한 사진 **(예: 하얀 벽) → 과감하게 더 많이 잘라냅니다.
  • 비유: 무거운 짐은 트럭으로, 가벼운 짐은 자전거로 보내는 것처럼, 사진의 정보량에 따라 AI 가 처리할 조각 수를 자동으로 조절합니다.

🚀 결과: 얼마나 빨라지고 똑똑해졌나요?

이 방법을 적용한 결과, 놀라운 성과가 나왔습니다.

  1. 압도적인 속도:

    • AI 가 사진을 읽는 시간이 7.8 배 빨라졌습니다. (기존 218ms → 27.8ms)
    • 비유: 고속도로를 달리는 것이 아니라 초고속 열차를 탄 것과 같습니다.
  2. 뛰어난 정확도:

    • 원래 사진 조각의 **5.6% **(약 160 개)만 남겼는데도, AI 의 성능이 **92.8%**까지 유지되었습니다.
    • 기존 방법들보다 2.5% 더 높은 정확도를 보였습니다.
    • 비유: 책의 95% 를 찢어 버렸는데도, 줄거리와 핵심 내용을 95% 이상 완벽하게 기억하는 것과 같습니다.
  3. 범용성:

    • 사진뿐만 아니라 동영상 처리에서도 최고의 성능을 발휘했습니다.

📝 한 줄 요약

PRUNESID는 AI 가 사진을 볼 때 "모든 것을 다 보려다 지치는" 습관을 고쳐, **주제별로 묶고 **(PSCA) **중복된 것은 잘라내되 **(NMS) 핵심과 다양성은 모두 챙겨서, 훨씬 더 빠르고 똑똑하게 세상을 이해하게 해주는 스마트한 정리 도구입니다.

이 기술이 상용화되면, 스마트폰이나 로봇이 실시간으로 복잡한 영상을 분석할 때 배터리도 덜 소모하고 훨씬 더 빠르게 반응할 수 있게 될 것입니다! 🚀📱