Rethinking Visual Token Reduction in LVLMs Under Cross-Modal Misalignment

이 논문은 텍스트 신호에 의존하는 기존 시각 토큰 축소 방식의 한계를 지적하고, 시각적 주의 메커니즘만을 활용하여 학습 없이도 계산 효율성을 크게 높이면서도 성능을 유지하는 'VisionDrop' 프레임워크를 제안합니다.

Rui Xu, Yunke Wang, Yong Luo, Bo Du

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎒 비유: "여행 가방을 어떻게 챙길까?"

생각해 보세요. AI 가 이미지를 분석할 때는 마치 거대한 여행 가방을 들고 여행을 떠나는 것과 같습니다.

  • 기존 방식 (LVLM): AI 는 이미지를 아주 작은 조각 (패치) 수백 개로 잘게 쪼개서 가방에 넣습니다. 마치 "이 사진 속의 나뭇잎 하나하나, 구름 한 조각까지 다 챙겨야겠다!"라고 생각하며 가방을 가득 채우는 거죠.
  • 문제점: 가방이 너무 무거워집니다. AI 가 이 무거운 가방을 들고 질문을 답할 때 (예: "이 사진에서 개가 뭐 하고 있니?"), 계산이 너무 느려지고 에너지도 많이 소모됩니다.

🚫 기존 방법의 실수: "질문지로만 가방 정리하기"

이전 연구자들은 가방을 가볍게 하기 위해 **"질문 (텍스트)"**을 보고 중요하지 않은 물건을 버리는 방식을 썼습니다.

  • 상황: "개는 뭐 하고 있니?"라고 물었을 때, AI 는 "개"라는 단어에 맞춰 가방을 정리합니다.
  • 문제 (이 논문의 핵심): 하지만 질문과 이미지는 항상 완벽하게 맞지 않습니다.
    • 질문이 "개"에 집중되어 있어도, 실제로는 배경의 나무하늘이 중요한 정보가 될 수 있습니다.
    • AI 가 질문을 읽는 과정에서 이미지의 정보가 흐트러져서, 질문과 이미지가 서로 "오해"를 하기도 합니다 (이를 크로스-모달 불일치라고 합니다).
    • 그래서 질문만 보고 가방을 정리하면, 정작 중요한 나무하늘 같은 정보는 버리고, 불필요한 잔디만 남기는 어이없는 일이 벌어집니다.

✨ 이 논문의 해결책: "VisionDrop (비전 드롭)"

이 논문은 **"질문 (텍스트) 에 의존하지 말고, 이미지 자체의 눈 (시각적 신호) 을 믿어라"**라고 말합니다.

1. 이미지끼리 대화하게 하기 (Visual-Only Attention)

  • 비유: 질문지를 버리고, 가방 속 물건들끼리 서로 "너는 중요해, 너는 덜 중요해"라고 이야기하게 만드는 것입니다.
  • AI 가 이미지 조각들끼리 서로 주시하며 (Attention), "이 나뭇잎은 다른 나뭇잎들과 많이 연결되어 있으니 중요해!"라고 스스로 판단하게 합니다. 질문의 영향을 받지 않기 때문에, 질문이 비어있거나 엉뚱하더라도 이미지의 핵심은 정확히 잡아냅니다.

2. 단계별로 정리하기 (Progressive Pruning)

  • 비유: 여행 가방을 한 번에 다 비우는 게 아니라, **출발 전 (이미지 인코더)**과 **도착지 (LLM)**에서 여러 번에 걸쳐서 조금씩 정리하는 것입니다.
  • 처음엔 중요한 것만 골라내고, 그다음엔 덜 중요한 것끼리 뭉쳐서 (Merging) 공간을 절약합니다. 이렇게 하면 아주 적은 공간 (가방) 으로도 핵심 내용만 완벽하게 전달할 수 있습니다.

🏆 결과: 얼마나 빨라졌나요?

이 방법 (VisionDrop) 을 적용한 결과는 놀랍습니다.

  • 가방 크기: 원래 100% 였던 가방을 **5.6%**만 남길 정도로 줄였습니다. (거의 20 분의 1!)
  • 성능: 가방이 이렇게 가벼워졌는데도, 원래 성능의 95% 이상을 유지했습니다.
  • 속도: AI 가 답을 내는 속도가 2.7 배 빨라졌고, 계산량 (FLOPs) 은 6 배나 줄었습니다.

💡 요약

이 논문은 **"AI 가 이미지를 볼 때, 질문 (텍스트) 에 휘둘리지 말고 이미지 자체의 흐름을 믿고 정리하라"**는 교훈을 줍니다.

기존에는 "질문지가 중요하니까 질문과 관련된 것만 챙겨라"라고 했지만, 이 연구는 **"질문지가 엉뚱할 수도 있으니, 이미지 안의 물건들이 서로 중요하다고 말하는 것을 믿어라"**라고 제안합니다. 그 결과, AI 는 훨씬 가볍고 빠르게, 하지만 똑똑하게 이미지를 이해할 수 있게 되었습니다.

이 기술은 고해상도 의료 영상이나 위성 사진처럼 텍스트 설명이 부족하거나 복잡한 이미지를 다룰 때 특히 유용할 것으로 기대됩니다.