HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit

이 논문은 MLLM 의 계층적 특성을 반영하여 시각 토큰을 90% 까지 압축하면서도 성능을 유지하고 학습 속도를 1.72 배 가속화하는 새로운 효율성 프레임워크 'HiDrop'을 제안합니다.

Hao Wu, Yingqi Fan, Jinyang Dai, Junlong Tong, Yunpu Ma, Xiaoyu Shen

게시일 2026-03-02
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

📖 배경: AI 가 겪는 '이미지 과부하' 문제

지금의 AI(예: LLaVA) 는 이미지를 볼 때, 이미지를 아주 작은 조각 (패치) 으로 잘게 쪼개서 '토큰 (정보 조각)'이라는 형태로 처리합니다.

  • 문제점: 텍스트는 한 문장이 10 개의 토큰이면 되지만, 고화질 이미지는 수백 개의 토큰이 필요합니다.
  • 비유: AI 가 책을 읽을 때는 한 장 한 장 천천히 읽지만, 이미지를 볼 때는 100 장의 사진을 한 번에 다 펼쳐놓고 모든 페이지를 꼼꼼히 읽으려다 보니 머리가 터질 듯하고 시간이 너무 오래 걸립니다.

기존 방법들은 "중요하지 않은 페이지를 조금씩 잘라내자"라고 했지만, 잘못된 타이밍에 자르거나 너무 경직된 규칙을 써서 오히려 AI 가 멍청해지거나 효율이 떨어지는 문제가 있었습니다.


🚀 HiDrop 의 세 가지 혁신 전략

HiDrop 은 AI 의 뇌가 어떻게 이미지를 처리하는지 관찰한 뒤, 세 가지 똑똑한 전략을 도입했습니다.

1. 늦은 주입 (Late Injection): "일단 기다렸다가 투입하자"

  • 기존의 오해: AI 의 첫 번째 층 (얕은 층) 에서부터 이미지를 바로 처리해야 한다고 생각했습니다.
  • HiDrop 의 발견: 사실 AI 의 첫 번째 층은 이미지를 처리하기보다, 단순히 정보를 전달하는 '통로' 역할만 합니다. 여기서 이미지를 처리하는 건 시간 낭비입니다.
  • 비유: 택배 센터를 생각해보세요. 택배 (이미지) 가 도착하자마자 바로 분류하는 게 아니라, 가장 먼저 도착하는 '문서 (텍스트)'만 먼저 처리하고, 그 다음에야 택배가 들어올 준비가 된 **적절한 시점 (중간 층)**에 택배를 투입합니다.
  • 효과: 불필요한 초기 작업을 생략해서 에너지를 아낍니다.

2. 오목한 피라미드 가지치기 (Concave Pyramid Pruning): "초반에 과감하게, 후반에 조심스럽게"

  • 기존의 오해: 모든 층에서 똑같은 비율로 (예: 10% 씩) 이미지를 잘라냈습니다.
  • HiDrop 의 발견:
    • 중간 층: 이미지와 텍스트가 만나는 '융합'이 일어나는 곳입니다. 여기서 중요하지 않은 정보 (冗余) 가 가장 많이 발견됩니다.
    • 전략: 융합이 시작되는 초반에는 과감하게 쓸모없는 조각을 대거 버리고, 나중에는 조심스럽게 중요한 것만 남깁니다.
  • 비유: 수프를 끓일 때 생각해보세요. 처음에 재료 (이미지 조각) 를 다 넣으면 너무 많지만, 끓이다 보면 불필요한 건 가라앉고 핵심 맛만 남습니다. HiDrop 은 이 '핵심 맛'만 남기 위해 처음에 아주 과감하게 건더기를 제거하고, 나중에 아주 조금씩만 다듬는 방식입니다.

3. 조기 퇴장 (Early Exit): "이미지 작업은 여기서 끝내자"

  • HiDrop 의 발견: 중간 층에서 이미지와 텍스트가 충분히 섞여 '이해'가 완성되면, 나머지 깊은 층에서는 더 이상 이미지가 필요 없습니다. AI 는 이제 텍스트만 보고 추론을 하면 됩니다.
  • 비유: 요리사가 레시피 (텍스트) 를 보고 요리법을 설명할 때, 이미 재료를 다 섞고 요리가 끝난 상태라면 더 이상 식자재 (이미지) 를 테이블 위에 올려둘 필요가 없습니다. 식자재를 치우고 요리사만 남으면 됩니다.
  • 효과: AI 가 깊게 생각할 때 이미지는 이미 사라져 있어, 계산량이 급격히 줄어듭니다.

🛠️ 기술적 뒷받침 (실제 작동 원리)

이론만 좋으면 안 되죠? 실제 구현을 위해 HiDrop 은 세 가지 기술을 썼습니다.

  1. 영구적인 위치 표시 (Persistent Position Encoding):
    • 이미지를 잘라내면 순서가 꼬일 수 있습니다. HiDrop 은 각 조각에 고유한 번호 (ID) 를 미리 부여해 둡니다. 잘라내도 번호는 그대로 유지되어, AI 가 "아, 이 조각은 원래 5 번째였구나"라고 기억할 수 있게 합니다.
  2. 유연한 선택 (Differentiable Top-K):
    • "어떤 조각을 버릴까?"를 결정할 때, AI 가 스스로 학습하며 가장 좋은 선택을 하도록 부드러운 학습 방식을 썼습니다. (딱딱한 규칙 대신 AI 가 스스로 판단하게 함)
  3. 병렬 처리:
    • 이미지 처리와 텍스트 처리를 동시에 진행할 수 있게 해서, 기다리는 시간을 없앴습니다.

🏆 결과: 얼마나 좋아졌나요?

  • 압축률: 시각 정보 (이미지 조각) 를 약 90% 이상 줄였습니다. (예: 576 개에서 64 개로)
  • 성능: 이렇게 많이 줄였는데도, 원래 AI 의 정확도는 거의 떨어지지 않았습니다. (98% 이상 유지)
  • 속도: 학습 속도는 약 1.7 배 빨라졌고, 추론 (답변 생성) 속도도 훨씬 빨라졌습니다.

💡 요약

HiDrop 은 **"AI 가 이미지를 볼 때, 처음부터 끝까지 모든 조각을 다 보지 않아도 된다"**는 사실을 발견했습니다.

  1. 처음엔 이미지가 필요 없으니 보류하고,
  2. 중간엔 쓸모없는 건 대거 버리고,
  3. 나중엔 이미지가 필요 없으니 아예 치워버립니다.

이처럼 AI 의 뇌 구조에 맞춰 작업을 재배치함으로써, 더 빠르고 효율적인 AI 를 만드는 길을 열었습니다.