iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models

이 논문은 이미지 인코더와 LLM 을 공동으로 최적화하여 불필요한 시각 토큰을 줄이고 폐기된 정보를 재활용하는 새로운 토큰 병합 전략인 iLLaVA 를 제안함으로써, 기존 방법론의 한계를 극복하고 처리량과 효율성을 획기적으로 향상시켰음을 보여줍니다.

Lianyu Hu, Liqing Gao, Fanhua Shang, Liang Wan, Wei Feng

게시일 2026-03-10
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

📸 iLLaVA: "이미지 한 장이 토큰 1 개도 안 될 수도 있다?" - AI 가 더 똑똑하고 빠르게 보는 법

안녕하세요! 오늘 소개해 드릴 논문은 **"iLLaVA"**라는 새로운 기술을 다룹니다. 이 기술은 거대한 '시각 - 언어 모델 (LVLM)'이라는 AI 가 이미지를 볼 때, 불필요한 정보를 과감히 잘라내고 중요한 정보만 모아서 훨씬 빠르고 정확하게 작동하게 만든다는 내용입니다.

마치 고급 요리사가 방금 받은 신선한 재료를 다 쓰지 않고, 가장 맛있는 부분만 골라 요리하는 것과 비슷합니다.


1. 문제점: 왜 AI 는 느릴까요? (🐢 거북이 같은 AI)

지금까지의 AI(예: GPT-4o, Gemini 등) 는 이미지를 볼 때 다음과 같은 과정을 거칩니다.

  1. 사진을 잘게 쪼개기: 이미지를 작은 조각 (패치) 수천 개로 나눕니다.
  2. 모두 분석하기: 이 조각 하나하나를 AI 가 하나씩 읽어서 이해합니다.
  3. 답변 만들기: 이해한 내용을 바탕으로 텍스트로 답을 냅니다.

여기서 문제가 생깁니다.

  • 불필요한 정보 과다: 사진 속의 '하늘'이나 '빈 벽' 같은 부분은 AI 가 분석할 필요가 없는데, AI 는 무조건 다 읽습니다. 마치 책의 빈 페이지까지 모두 소리 내어 읽는 것과 비슷합니다.
  • 두 번의 계산: 기존 방법들은 AI 가 답변을 만들기 직전 (LLM 단계) 에만 불필요한 조각을 버렸습니다. 하지만 **사진을 처음 보는 단계 (인코더)**에서도 이미지가 너무 많아서 계산량이 폭발합니다.
  • 결과: AI 가 느리고, 메모리를 많이 잡아먹으며, 고사양 컴퓨터가 아니면 돌릴 수 없습니다.

2. 해결책: iLLaVA 의 두 가지 마법 (✨ 마법사 iLLaVA)

이 논문은 **"이미지 인코더 단계에서도 불필요한 정보를 버리자!"**라고 제안합니다. 하지만 단순히 잘라내면 정보가 사라져서 AI 가 멍청해질 수 있습니다. 그래서 iLLaVA 는 두 가지 똑똑한 전략을 사용합니다.

🎯 전략 1: 두 단계에 걸친 '선택적 삭제' (Two-Stage Reduction)

  • 기존 방식: AI 가 답변을 준비할 때만 불필요한 조각을 버림.
  • iLLaVA 방식:
    1. 사진을 처음 볼 때 (인코더): 이미지의 핵심 부분만 골라내고 나머지는 줄입니다. (예: 새가 있는 부분만 남기고 하늘은 줄임)
    2. 답변을 만들 때 (LLM): 다시 한번 불필요한 정보를 정리합니다.
  • 비유: 우편물 분류소에서 편지를 다 읽기 전에, 중요한 편지만 골라내어 운송 트럭에 싣는 것과 같습니다. 트럭이 가벼워지니 배송 속도가 2 배 빨라집니다.

♻️ 전략 2: 버려진 정보도 '재활용'하는 '토큰 병합' (Token Merging)

  • 핵심 아이디어: "아직 쓸모가 있을지도 모를 정보를 그냥 버리지 말고, 핵심 정보에 합쳐서 저장하자."
  • 작동 원리:
    • AI 가 "이 부분은 중요하지 않아"라고 판단한 조각들이 있습니다.
    • 하지만 이 조각들에도 약간의 정보가 숨어있을 수 있습니다.
    • iLLaVA 는 이 '버려질 조각들'의 정보를 **가장 중요한 조각들 (리사이클 토큰)**에 합쳐서 (병합) 전달합니다.
  • 비유: 요리사가 채소를 다듬을 때, 껍질을 그냥 쓰레기통에 버리는 게 아니라, **국물 (스톡)**에 넣어 맛을 내는 것과 같습니다. 버린 것 같지만, 사실은 더 깊은 맛을 만들어냅니다.

3. 놀라운 결과: 작은 AI 보다 큰 AI 가 더 빠르고 똑똑해! (🚀 로켓 발사)

이 기술을 적용하면 어떤 일이 일어날까요?

  1. 속도 폭발:

    • AI 가 이미지를 처리하는 속도가 2 배 빨라졌습니다.
    • 처음 답변을 시작하기까지 걸리는 시간 (프리필링) 은 4 배나 단축되었습니다.
    • 비유: 지하철이 혼잡할 때, 불필요한 승객을 내리게 하고 중요한 승객만 태우니 열차가 훨씬 빠르게 도착합니다.
  2. 성능 유지:

    • 정보를 88.9% 나 줄였는데도, AI 의 정확도는 95% 이상 유지되었습니다. (기존 방법들은 정확도가 뚝 떨어졌습니다.)
  3. 가장 놀라운 사실: 큰 모델이 작은 모델보다 더 낫다!

    • 보통은 모델이 크면 무겁고 느립니다. 하지만 iLLaVA 를 쓴 **큰 모델 (26B)**은 iLLaVA 를 쓰지 않은 **작은 모델 (8B)**보다 더 빠르고 더 똑똑해졌습니다.
    • 비유: 거인이 신발에 바퀴를 달고 (iLLaVA) 달리면, 작은 아이가 맨발로 달리는 것보다 훨씬 빠르고 멀리 갈 수 있습니다.

4. 요약: 왜 이 기술이 중요할까요?

  • 현실적인 문제 해결: 고가의 GPU 가 없어도, 일반 컴퓨터나 스마트폰에서도 고화질 이미지나 긴 동영상을 실시간으로 분석할 수 있게 됩니다.
  • 환경 친화적: 불필요한 계산을 줄여 전기를 아껴줍니다.
  • 미래 지향적: 이제 AI 는 "모든 것을 다 보려고" 하지 않고, "무엇이 중요한지 알고" 보는 법을 배웠습니다.

한 줄 요약:

"iLLaVA 는 AI 가 이미지를 볼 때, '불필요한 잡음'은 줄이고 '핵심 정보'는 모아주는 똑똑한 필터를 달아주어, AI 를 더 빠르고 똑똑하게 만든 기술입니다."

이제 AI 는 더 이상 무거운 짐을 지고 느리게 걷지 않습니다. 가벼운 배낭을 메고 빠르게 달릴 준비가 되었습니다! 🏃‍♂️💨