Each language version is independently generated for its own context, not a direct translation.

📸 iLLaVA: "이미지 한 장이 토큰 1 개도 안 될 수도 있다?" - AI 가 더 똑똑하고 빠르게 보는 법

안녕하세요! 오늘 소개해 드릴 논문은 **"iLLaVA"**라는 새로운 기술을 다룹니다. 이 기술은 거대한 '시각 - 언어 모델 (LVLM)'이라는 AI 가 이미지를 볼 때, 불필요한 정보를 과감히 잘라내고 중요한 정보만 모아서 훨씬 빠르고 정확하게 작동하게 만든다는 내용입니다.

마치 고급 요리사가 방금 받은 신선한 재료를 다 쓰지 않고, 가장 맛있는 부분만 골라 요리하는 것과 비슷합니다.

1. 문제점: 왜 AI 는 느릴까요? (🐢 거북이 같은 AI)

지금까지의 AI(예: GPT-4o, Gemini 등) 는 이미지를 볼 때 다음과 같은 과정을 거칩니다.

사진을 잘게 쪼개기: 이미지를 작은 조각 (패치) 수천 개로 나눕니다.
모두 분석하기: 이 조각 하나하나를 AI 가 하나씩 읽어서 이해합니다.
답변 만들기: 이해한 내용을 바탕으로 텍스트로 답을 냅니다.

여기서 문제가 생깁니다.

불필요한 정보 과다: 사진 속의 '하늘'이나 '빈 벽' 같은 부분은 AI 가 분석할 필요가 없는데, AI 는 무조건 다 읽습니다. 마치 책의 빈 페이지까지 모두 소리 내어 읽는 것과 비슷합니다.
두 번의 계산: 기존 방법들은 AI 가 답변을 만들기 직전 (LLM 단계) 에만 불필요한 조각을 버렸습니다. 하지만 **사진을 처음 보는 단계 (인코더)**에서도 이미지가 너무 많아서 계산량이 폭발합니다.
결과: AI 가 느리고, 메모리를 많이 잡아먹으며, 고사양 컴퓨터가 아니면 돌릴 수 없습니다.

2. 해결책: iLLaVA 의 두 가지 마법 (✨ 마법사 iLLaVA)

이 논문은 **"이미지 인코더 단계에서도 불필요한 정보를 버리자!"**라고 제안합니다. 하지만 단순히 잘라내면 정보가 사라져서 AI 가 멍청해질 수 있습니다. 그래서 iLLaVA 는 두 가지 똑똑한 전략을 사용합니다.

🎯 전략 1: 두 단계에 걸친 '선택적 삭제' (Two-Stage Reduction)

기존 방식: AI 가 답변을 준비할 때만 불필요한 조각을 버림.
iLLaVA 방식:
1. 사진을 처음 볼 때 (인코더): 이미지의 핵심 부분만 골라내고 나머지는 줄입니다. (예: 새가 있는 부분만 남기고 하늘은 줄임)
2. 답변을 만들 때 (LLM): 다시 한번 불필요한 정보를 정리합니다.
비유: 우편물 분류소에서 편지를 다 읽기 전에, 중요한 편지만 골라내어 운송 트럭에 싣는 것과 같습니다. 트럭이 가벼워지니 배송 속도가 2 배 빨라집니다.

♻️ 전략 2: 버려진 정보도 '재활용'하는 '토큰 병합' (Token Merging)

핵심 아이디어: "아직 쓸모가 있을지도 모를 정보를 그냥 버리지 말고, 핵심 정보에 합쳐서 저장하자."
작동 원리:
- AI 가 "이 부분은 중요하지 않아"라고 판단한 조각들이 있습니다.
- 하지만 이 조각들에도 약간의 정보가 숨어있을 수 있습니다.
- iLLaVA 는 이 '버려질 조각들'의 정보를 **가장 중요한 조각들 (리사이클 토큰)**에 합쳐서 (병합) 전달합니다.
비유: 요리사가 채소를 다듬을 때, 껍질을 그냥 쓰레기통에 버리는 게 아니라, **국물 (스톡)**에 넣어 맛을 내는 것과 같습니다. 버린 것 같지만, 사실은 더 깊은 맛을 만들어냅니다.

3. 놀라운 결과: 작은 AI 보다 큰 AI 가 더 빠르고 똑똑해! (🚀 로켓 발사)

이 기술을 적용하면 어떤 일이 일어날까요?

속도 폭발:
- AI 가 이미지를 처리하는 속도가 2 배 빨라졌습니다.
- 처음 답변을 시작하기까지 걸리는 시간 (프리필링) 은 4 배나 단축되었습니다.
- 비유: 지하철이 혼잡할 때, 불필요한 승객을 내리게 하고 중요한 승객만 태우니 열차가 훨씬 빠르게 도착합니다.
성능 유지:
- 정보를 88.9% 나 줄였는데도, AI 의 정확도는 95% 이상 유지되었습니다. (기존 방법들은 정확도가 뚝 떨어졌습니다.)
가장 놀라운 사실: 큰 모델이 작은 모델보다 더 낫다!
- 보통은 모델이 크면 무겁고 느립니다. 하지만 iLLaVA 를 쓴 **큰 모델 (26B)**은 iLLaVA 를 쓰지 않은 **작은 모델 (8B)**보다 더 빠르고 더 똑똑해졌습니다.
- 비유: 거인이 신발에 바퀴를 달고 (iLLaVA) 달리면, 작은 아이가 맨발로 달리는 것보다 훨씬 빠르고 멀리 갈 수 있습니다.

4. 요약: 왜 이 기술이 중요할까요?

현실적인 문제 해결: 고가의 GPU 가 없어도, 일반 컴퓨터나 스마트폰에서도 고화질 이미지나 긴 동영상을 실시간으로 분석할 수 있게 됩니다.
환경 친화적: 불필요한 계산을 줄여 전기를 아껴줍니다.
미래 지향적: 이제 AI 는 "모든 것을 다 보려고" 하지 않고, "무엇이 중요한지 알고" 보는 법을 배웠습니다.

한 줄 요약:

"iLLaVA 는 AI 가 이미지를 볼 때, '불필요한 잡음'은 줄이고 '핵심 정보'는 모아주는 똑똑한 필터를 달아주어, AI 를 더 빠르고 똑똑하게 만든 기술입니다."

이제 AI 는 더 이상 무거운 짐을 지고 느리게 걷지 않습니다. 가벼운 배낭을 메고 빠르게 달릴 준비가 되었습니다! 🏃‍♂️💨

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

대규모 시각 - 언어 모델 (LVLMs) 은 다양한 다운스트림 작업에서 뛰어난 성능을 보이지만, 계산 복잡도와 리소스 요구 사항 측면에서 심각한 한계에 직면해 있습니다.

기존 접근법의 한계: 최근 LVLM 가속화 연구들은 주로 LLM(대형 언어 모델) 단계 이전 또는 내부에서 이미지 토큰을 줄이는 데 집중했습니다. 이는 LLM 의 계산 부하를 줄이는 데 효과적이지만, 이미지 인코더 (Image Encoder) 자체의 계산 비용을 간과했습니다.
비효율성: 이미지 인코더는 전체 추론 시간의 상당 부분 (단일 이미지 기준 약 17%~45% 이상) 을 차지하며, LLM 에 입력되는 토큰의 대부분을 생성합니다. 인코더 단계에서의 중복성을 제거하지 않으면 진정한 엔드 - 투 - 엔드 (End-to-End) 가속화가 불가능합니다.
성능 저하 위험: 단순히 토큰을 과도하게 제거 (Pruning) 하면 중요한 시각 정보가 손실되어 모델의 정확도가 급격히 떨어지는 문제가 발생합니다.

2. 방법론 (Methodology)

저자들은 iLLaVA를 제안하여 이미지 인코더와 LLM 을 공동으로 최적화하는 새로운 프레임워크를 제시합니다. 핵심 아이디어는 다음과 같습니다.

A. 2 단계 토큰 병합 (Two-Stage Token Merging)

기존 방법들이 LLM 내에서만 토큰을 줄인 것과 달리, iLLaVA 는 두 단계에서 모두 토큰을 축소합니다.

이미지 인코더 단계: 인코더의 어텐션 모듈과 피드 - 포워드 네트워크 (FFN) 사이에서 토큰 병합을 수행하여 초기 단계부터 시각 토큰 수를 대폭 줄입니다.
LLM 단계: LLM 의 특정 블록 사이에서도 토큰 병합을 수행하여 추가적인 계산 부하를 경감합니다.

효과: 인코더 단계에서 토큰을 줄이면 인코더 자체의 속도가 빨라질 뿐만 아니라, LLM 으로 들어가는 입력 토큰 수가 감소하여 LLM 의 계산 비용이 기하급수적으로 줄어듭니다.

B. 토큰 병합 전략 (Token Merging Strategy)

토큰 제거로 인한 정보 손실을 방지하기 위해, 버려질 토큰에서 유용한 정보를 **재활용 (Recycle)**하는 전략을 도입했습니다.

정보 토큰 (Informative Tokens): 어텐션 점수 (Attention Scores) 가 높은 토큰을 선택하여 입력의 핵심 정보를 보존합니다.
재활용 토큰 (Recycled Tokens): 중요도가 낮아 제거될 토큰들 중에서도 어텐션 점수가 상대적으로 높은 토큰을 '클러스터'로 선정합니다.
병합 과정: 버려지는 토큰들과 재활용 토큰 간의 어텐션 관계를 계산하여, 버려지는 토큰의 정보를 재활용 토큰에 가중치 합 (Weighted Sum) 으로 통합합니다. 이를 통해 중요한 정보를 잃지 않으면서 토큰 수를 줄입니다.

C. 효율성 분석

Flash-Attention 호환성: 전체 어텐션 행렬을 계산하지 않고도 어텐션 점수를 유도할 수 있도록 설계되어, Flash-Attention 과 호환되며 추가 계산 오버헤드를 최소화합니다.
계산 복잡도: 추가적인 병합 연산의 복잡도는 $O(R_v \times B_v + R_t \times B_t)$ 로 매우 낮아 전체 성능에 미치는 영향이 미미합니다.

3. 주요 기여 (Key Contributions)

포괄적인 가속화: 기존 연구가 간과했던 이미지 인코더 단계의 토큰 축소와 LLM 단계의 축소를 통합하여 진정한 엔드 - 투 - 엔드 가속화를 달성했습니다.
정보 재활용 메커니즘: 단순 제거가 아닌, 버려지는 토큰의 정보를 재활용하는 새로운 토큰 병합 전략을 제안하여 고도화된 토큰 축소 비율에서도 성능 저하를 억제했습니다.
모델 효율성 혁신: 더 큰 모델 (예: InternVL-2.5 26B) 이 iLLaVA 를 적용하면, 더 작은 모델 (예: InternVL-2.5 8B) 보다 **더 높은 정확도와 더 빠른 처리 속도 (Throughput)**를 동시에 달성할 수 있음을 증명했습니다.

4. 실험 결과 (Results)

10 개 이상의 이미지 및 비디오 이해 벤치마크에서 SOTA(최신) 방법 (SparseVLM, FasterVLM, PyramidDrop, VisionZip 등) 과 비교 평가되었습니다.

이미지 이해 (Image Understanding):
- 시각 토큰을 88.9% 까지 축소하더라도 원본 모델 대비 95.2% 의 성능을 유지했습니다.
- 다른 방법들보다 일관되게 높은 정확도를 기록했습니다.
비디오 이해 (Video Understanding):
- 비디오 토큰을 95% 까지 축소했을 때, 기존 최상위 방법 (VisionZip) 보다 1.7% 높은 성능을 달성했습니다.
효율성 지표:
- 처리량 (Throughput): 최대 2 배 (2×) 향상.
- 프리필링 시간 (Prefilling Time): 최대 4 배 (4×) 단축.
- 메모리 사용량: 1.59 배 감소.
모델 크기 비교: iLLaVA 를 적용한 26B 모델이 8B 모델보다 정확도와 처리량 모두에서 우위를 점했습니다.

5. 의의 및 결론 (Significance)

패러다임 전환: LVLM 가속화 연구의 초점을 'LLM 내부'에서 '전체 모델 (인코더 포함)'로 확장하여, 인코더의 계산 비용이 전체 병목 현상의 핵심임을 입증했습니다.
실용성: 고해상도 이미지나 긴 비디오를 처리할 때 발생하는 막대한 계산 자원 요구를 해결하여, 제한된 하드웨어 환경에서도 대규모 멀티모달 모델의 실시간 배포를 가능하게 합니다.
지속 가능성: 토큰 수를 1/3 미만으로 줄이면서도 성능을 유지함으로써, 에너지 효율적인 AI 모델 개발에 기여합니다.

결론적으로, iLLaVA 는 이미지 인코더와 LLM 의 시너지를 활용하고 지능적인 토큰 병합을 통해, 기존 방법들의 한계를 극복하고 효율성과 정확성 모두를 극대화한 획기적인 솔루션입니다.

iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models