EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models

이 논문은 시각 토큰의 정보 함량을 정량화하고 '엔트로피 붕괴 층 (ECL)'을 기반으로 불필요한 토큰을 제거하여 멀티모달 대형 언어 모델의 추론 비용을 획기적으로 줄이면서도 정확도를 유지하는 새로운 프루닝 프레임워크인 EntropyPrune 을 제안합니다.

Yahong Wang, Juncheng Wu, Zhangkai Ni, Chengmei Yang, Yihang Liu, Longzhen Yang, Yuyin Zhou, Ying Wen, Lianghua He

게시일 2026-02-20
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎒 비유: "AI 의 가방 정리하기"

생각해 보세요. AI 가 이미지를 볼 때, 마치 **수백 개의 작은 조각 (토큰)**을 한 바구니에 담아서 분석합니다. 예를 들어, 576 개의 조각이 있다면 AI 는 이 모든 조각을 하나하나 꼼꼼히 살펴봐야 하기에 시간이 오래 걸리고 배터리도 많이 소모됩니다.

기존의 방법들은 "어떤 조각이 중요할까?"를 대충 짐작하거나, "3 번째 층부터는 다 버려라"라고 임의의 규칙으로 정했습니다. 하지만 이 방법은 때로는 중요한 조각을 버리거나, 불필요한 조각을 남기기도 했습니다.

EntropyPrune은 이 문제를 해결하기 위해 **"정보의 양을 정확히 재는 저울"**을 도입했습니다.

🔍 핵심 아이디어 1: "정보 폭탄이 터지는 지점 찾기" (엔트로피 붕괴 층)

논문 연구자들은 AI 가 이미지를 처리하는 과정을 관찰하다가 놀라운 사실을 발견했습니다.

  • 초반 단계: AI 는 이미지의 모든 세부 사항을 열심히 받아들이고 있습니다. 정보량이 풍부합니다.
  • 어느 순간 (특정 층): 갑자기 정보의 양이 뚝 떨어집니다. 마치 "아, 이제 이 이미지의 핵심은 다 파악했구나. 나머지는 그냥 반복되는 소음이야"라고 AI 가 스스로 깨닫는 순간입니다.

이 연구자들은 이 순간을 **'엔트로피 붕괴 층 (Entropy Collapse Layer)'**이라고 불렀습니다. 마치 산 정상에서 갑자기 계곡으로 떨어지는 지점처럼, 그 지점 이후로는 불필요한 정보 (중복된 조각) 가 쏟아져 나옵니다.

👉 결론: 우리는 이 '뚝 떨어지는 지점' 바로 앞에서 불필요한 조각들을 과감하게 잘라내면 됩니다. 언제 잘라야 할지 임의로 정할 필요가 없는 것입니다.

⚖️ 핵심 아이디어 2: "조각의 가치를 측정하는 저울" (행렬 엔트로피)

그렇다면 어떤 조각을 남기고 어떤 조각을 버릴까요?

기존 방법들은 "주의를 많이 기울인 조각"을 남겼습니다. 하지만 EntropyPrune 은 **"정보의 다양성"**을 측정합니다.

  • 높은 엔트로피 (다양한 정보): 그 조각이 새로운 정보를 담고 있습니다. (예: "노란색 택시", "남자가 의자에 앉아 있음") → 유지!
  • 낮은 엔트로피 (중복된 정보): 그 조각은 이미 알고 있는 정보의 반복이거나, 의미 없는 소음입니다. (예: 배경의 똑같은 하늘색 부분) → 버리기!

이때 사용하는 계산 방식이 **'행렬 엔트로피'**인데, 이를 쉽게 말하면 **"그 조각이 얼마나 많은 새로운 이야기를 담고 있는가?"**를 수학적으로 계산하는 것입니다.

🚀 핵심 아이디어 3: "스피드업 마법" (64 배 빠른 계산)

문제는 이 '정보량 계산'이 너무 무겁다는 거였습니다. 모든 조각을 계산하려면 AI 가 멈춰서 생각해야 할 정도로 느려집니다.

연구자들은 여기서 **수학적 마법 (이중 그람 행렬의 대칭성)**을 사용했습니다.

  • 비유: 100 명의 학생의 성적을 일일이 계산하는 대신, 10 명의 대표 학생 성적만 보면 전체 평균을 100% 정확히 알 수 있는 방법을 찾은 것입니다.
  • 결과: 계산 속도가 이론적으로 64 배 빨라졌습니다. AI 가 멈추지 않고도 불필요한 조각을 빠르게 잘라낼 수 있게 된 것입니다.

🏆 실제 성과: "무게는 1/3, 성능은 그대로!"

이 기술을 적용한 결과, 놀라운 변화가 일어났습니다.

  • LLaVA-1.5-7B라는 모델을 예로 들면, 시각 토큰 (이미지 조각) 을 77.8% (약 450 개)나 잘라냈습니다.
  • 하지만 AI 의 성능은 96% 이상 유지되었습니다.
  • 오히려 불필요한 소음 (중복 정보) 을 제거했기 때문에, 환각 (Hallucination, 엉뚱한 말하기) 현상이 줄어들어 더 정확한 답변을 내놓았습니다.
    • 예시: 기존 모델은 "남자가 택시에서 옷을 널고 있다"라고 잘못 말했지만, EntropyPrune 은 "남자가 접이식 의자에 앉아 있고, 파란 셔츠를 들고 있다"라고 정확하게 파악했습니다.

💡 요약

이 논문은 AI 에게 **"무엇을 볼지, 언제 멈출지"**를 가르치는 지능적인 청소부 같은 기술입니다.

  1. 언제? 정보량이 뚝 떨어지는 '엔트로피 붕괴 층'을 찾아서.
  2. 무엇을? 정보량이 적은 (중복된) 조각을 골라서.
  3. 어떻게? 계산 속도를 64 배나 빠르게 하는 수학적 마법을 써서.

이 덕분에 AI 는 더 적은 에너지로 더 똑똑하게, 그리고 더 빠르게 이미지를 이해할 수 있게 되었습니다. 마치 불필요한 짐을 싹 비운 배가 더 빠르고 안정적으로 항해하는 것과 같습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →