MMTok: Multimodal Coverage Maximization for Efficient Inference of VLMs

이 논문은 비전 및 텍스트 토큰의 다중 모달 정보를 활용하여 최대 커버리지 기준을 통해 정보량이 풍부한 비전 토큰을 선택함으로써 VLM 의 추론 효율성을 극대화하는 'MMTok'을 제안합니다.

Sixun Dong, Juhua Hu, Mian Zhang, Ming Yin, Yanjie Fu, Qi Qian

게시일 2026-03-04
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

📸 "MMTok": AI 의 눈과 귀를 위한 '스마트 필터'

이 논문은 **시각-언어 모델 (VLM)**이라는 AI 가 이미지를 보고 질문에 답할 때, 너무 많은 정보를 한꺼번에 받아서 느려지는 문제를 해결하는 새로운 방법을 제안합니다.

마치 거대한 도서관에 들어갔는데, 책장마다 책이 너무 많아 원하는 정보를 찾는 데 시간이 걸리는 상황을 상상해 보세요. 이 논문은 그 도서관에서 **정말 필요한 책만 골라내는 '지능형 사서'**를 개발한 것입니다.


1. 문제: AI 가 너무 많은 '눈'을 가지고 있어요 🤯

현재의 AI 는 이미지를 이해할 때, 이미지를 아주 작은 조각 (패치) 으로 잘게 나누고, 그 조각 하나하나를 '토큰 (정보의 단위)'으로 변환합니다.

  • 상황: "이 사진에 뭐가 있나요?"라고 물으면, AI 는 텍스트로 10 개도 안 되는 단어를 쓰지만, 이미지에서는 **수천 개의 작은 조각 (토큰)**을 만들어냅니다.
  • 문제: AI 의 두뇌 (LLM) 는 이 모든 조각을 하나하나 살펴봐야 하므로, 계산량이 기하급수적으로 늘어나 매우 느려집니다. 마치 1000 개의 퍼즐 조각을 다 붙여보려고 노력하는 것과 비슷하죠.

2. 기존 방법의 한계: "눈만 보거나 귀만 듣기" 👁️👂

기존의 빠른 방법들은 주로 두 가지 중 하나만 보고 조각을 잘라냈습니다.

  1. 이미지만 보는 방법: "이 부분이 가장 중요해 보이니 이걸로만 하자!" (이미지 내부의 다양성만 고려)
  2. 질문만 보는 방법: "질문에 '고양이'라고 했으니 고양이 부분만 남기자!" (텍스트와 이미지의 연관성만 고려)

하지만 문제는 이 두 가지를 따로 보면 실수할 수 있다는 점입니다.

  • 질문이 "이 사진의 분위기를 설명해줘"라면, 특정 사물 (고양이) 보다는 전체적인 배경이 중요할 수 있습니다.
  • 반대로, 질문이 "고양이는 어디 있니?"라면 전체 배경은 필요 없고 고양이만 있으면 됩니다.
    기존 방법들은 이 **상호작용 (시각 + 언어)**을 충분히 활용하지 못했습니다.

3. 해결책: MMTok - "눈과 귀를 동시에 활용하는 스마트 필터" 🧠✨

이 논문이 제안한 MMTok두 가지 정보를 동시에 활용해서 가장 중요한 조각들만 골라냅니다.

🍕 비유: 피자를 먹기 전에 토핑을 고르는 상황

여러분이 피자를 시켰는데, 토핑이 너무 많아서 한 번에 다 먹을 수 없다면 어떻게 하겠어요?

  • 기존 방법 A (이미지만 봄): "치즈가 가장 많으니 치즈만 남기자!" (질문이 "맛있는 토핑은?"일 때는 좋지만, "소스 맛은?"일 때는 실패)
  • 기존 방법 B (질문만 봄): "질문에 '페퍼로니'가 있으니 페퍼로니만 남기자!" (하지만 피자의 전체적인 모양을 잃어버릴 수 있음)
  • MMTok 의 방법:
    1. 질문 (귀) 을 듣습니다: "페퍼로니가 중요하구나!"
    2. 피자 전체 (눈) 을 봅니다: "그런데 페퍼로니만 있으면 피자 모양이 망가져. 전체적인 균형도 중요해."
    3. 최종 결정: "페퍼로니는 꼭 챙기되, 피자의 모양을 유지할 수 있는 최소한의 토핑만 남기자."

이렇게 **질문 (텍스트)**과 **이미지 전체 (비전)**를 모두 고려하여, 가장 필요한 정보 (토큰) 를 최대화하는 방식으로 조각을 선택합니다.

4. 어떻게 작동할까요? (수학적 원리, 쉽게 설명) 📐

이 방법은 **'최대 커버리지 (Maximum Coverage)'**라는 개념을 사용합니다.

  • 목표: 선택한 몇 개의 조각으로, 질문의 의미와 이미지의 전체 정보를 가장 많이 덮어주는 것입니다.
  • 과정: AI 는 "이 조각을 고르면 질문의 30% 와 이미지의 20% 를 설명할 수 있네?"라고 계산하며, 가장 효율적인 조합을 찾아냅니다.
  • 결과: 원래 576 개의 조각이 필요했던 것을, 64 개 (약 11%) 만 남겨도 원래 성능의 98% 이상을 유지합니다.

5. 실제 성과: 얼마나 빨라졌나요? 🚀

실험 결과, 이 방법은 놀라운 성과를 보였습니다.

  • 속도: 같은 성능을 유지하면서 1.87 배 더 빨라졌습니다. (기존보다 훨씬 효율적)
  • 압축: 아주 극단적으로 4 개의 조각만 남겼을 때도, 원래 성능의 **87.7%**를 유지했습니다.
  • 범용성: 다양한 AI 모델 (LLaVA, Qwen 등) 과 다양한 질문 (사진 설명, 객체 찾기, 복잡한 추론) 에서 모두 좋은 결과를 냈습니다.

6. 결론: 왜 이 연구가 중요한가요? 🌟

이 연구는 AI 가 더 적은 정보로도 더 똑똑하게 일할 수 있게 해줍니다.

  • 스마트폰: 무거운 AI 모델을 스마트폰에서도 빠르게 실행할 수 있게 됩니다.
  • 실시간: 영상 통화나 자율 주행처럼 실시간으로 이미지를 분석해야 하는 상황에서 속도가 빨라집니다.
  • 에너지: 불필요한 계산을 줄여 전기를 아낄 수 있습니다.

한 줄 요약:

"MMTok 은 AI 가 이미지를 볼 때, 질문과 이미지를 동시에 잘 듣고, 가장 중요한 정보만 골라내어 AI 를 훨씬 빠르고 똑똑하게 만들어주는 '스마트 필터'입니다."

이제 AI 는 더 이상 모든 조각을 다 보느라 지치지 않고, 핵심만 쏙쏙 뽑아 빠르게 답을 줄 것입니다! 🎉