Seeing the Forest and the Trees: Query-Aware Tokenizer for Long-Video Multimodal Language Models

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"긴 영상을 볼 때, AI 가 모든 장면을 다 기억하려다 뇌가 터지는 것을 막아주는 똑똑한 비서"**를 소개합니다.

제목인 **"숲과 나무를 모두 보는 법 (Seeing the Forest and the Trees)"**은 이 기술의 핵심을 잘 나타냅니다. AI 가 긴 영상을 볼 때, 나뭇잎 하나하나 (모든 프레임) 를 다 세려고 하면 시간이 너무 오래 걸리고 메모리가 부족해집니다. 대신, 질문과 관련된 중요한 나뭇잎 (나무) 만 골라내고, 전체적인 숲의 흐름도 놓치지 않게 도와주는 기술입니다.

이 기술을 QTSplus라고 부르는데, 일상생활에 비유해서 설명해 드릴게요.

1. 문제: "모든 걸 다 보려는 AI 의 고통"

지금까지의 영상 AI 는 유튜브나 틱톡 같은 긴 영상을 볼 때, 초당 수십 장의 사진을 모두 찍어서 기억하려고 했습니다.

비유: 마치 3 시간짜리 영화를 볼 때, 스크린에 비친 모든 픽셀을 하나하나 외우려고 노력하는 학생과 같습니다.
결과: 머리가 너무 무거워져서 (메모리 부족), 답을 내기까지 시간이 너무 오래 걸리고, 중요한 장면 (예: "그때 누가 문을 열었지?") 을 놓치기 쉽습니다.

2. 해결책: QTSplus (질문 기반 토큰 선택기)

이 논문이 제안한 QTSplus는 AI 의 눈과 뇌 사이에 들어가는 "스마트 필터" 역할을 합니다.

🎯 역할 1: "질문하는 사람의 의도를 읽는 비서"

사용자가 "영상을 요약해 줘"라고 하면, 비서는 전체 장면을 골고루 봅니다. 하지만 사용자가 "영화를 본 남자가 언제 컵을 들었는지 알려줘"라고 하면, 비서는 남자가 컵을 든 그 순간만 집중해서 찾아냅니다.

기존 방식: 질문과 상관없이 모든 장면을 다 가져옴 (비효율적).
QTSplus 방식: 질문을 보고 "아, 이 질문에는 이 장면 10 개만 있으면 되겠네"라고 적절한 양을 정해서 가져옵니다.

🧠 역할 2: "중요도 점수 매기기"

비서는 영상의 모든 장면을 스캔하면서, 질문과 얼마나 관련이 있는지 점수를 매깁니다.

관련 없는 장면 (예: 남자가 컵을 들기 전, 10 분 동안 아무 일도 안 일어난 배경) → 점수 낮음 (버림)
관련 있는 장면 (예: 남자가 컵을 들고 입에 대는 순간) → 점수 높음 (보관)
이 과정을 통해 영상 데이터의 약 89% 를 잘라내도 정답을 맞출 수 있게 됩니다.

⏱️ 역할 3: "시간 순서 지키기"

중요한 장면만 골라내면, "어? 이 장면이 언제 일어났지?"라고 시간 감각을 잃을 수 있습니다. QTSplus 는 잘라낸 장면들에 **시간 스탬프 (시간표)**를 다시 붙여줍니다.

비유: 책갈피를 꽂아두고, "이건 10 분 30 초에 일어난 일, 저건 11 분에 일어난 일"이라고 메모를 남기는 것과 같습니다. 덕분에 AI 는 시간의 흐름을 잊지 않고 논리적으로 답할 수 있습니다.

3. 실제 효과: "빠르고 똑똑해진 AI"

이 기술을 적용한 결과, 놀라운 변화가 일어났습니다.

속도: 영상을 처리하는 속도가 약 28% 빨라졌습니다. (기다리는 시간이 줄어듦)
메모리: 필요한 메모리 양이 약 89% 줄어듭니다. (휴대폰이나 일반 컴퓨터에서도 긴 영상을 잘 처리 가능)
정확도: 중요한 장면만 골라냈는데도, 정답을 맞추는 정확도는 기존 AI 와 비슷하거나 오히려 더 좋아졌습니다. 특히 "누가 먼저 했는지", "방향은 어땠는지" 같은 시간 순서와 관련된 질문에서는 훨씬 잘 답했습니다.

4. 결론: "숲과 나무를 동시에 보는 지혜"

이 기술은 **"모든 것을 다 보는 것"**이 아니라, **"질문에 필요한 것만 정확히 보는 것"**이 더 중요하다는 것을 보여줍니다.

과거: 모든 나뭇잎을 다 줍고 숲을 찾으려 함 (지나치게 무거움).
QTSplus: 질문을 듣고 필요한 나뭇잎 (나무) 만 줍고, 전체 숲의 흐름도 기억함 (가볍고 정확함).

이 기술이 상용화되면, 우리는 스마트폰으로 몇 시간짜리 긴 영상도 순식간에 분석하고 요약해 달라고 요청할 수 있게 될 것입니다. AI 가 더 이상 "무거운 짐"을 지고 다니지 않고, 질문하는 사람의 눈높이에 맞춰 가볍고 똑똑하게 움직이게 되는 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

최근 멀티모달 대규모 언어 모델 (MLLM) 은 이미지 및 짧은 영상 이해 능력에서 괄목할 만한 성과를 거두었으나, 긴 영상 (Long Video) 이해는 여전히 큰 과제로 남아 있습니다.

주요 병목 현상: 영상의 길이가 길어질수록 비전 토큰 (Vision Tokens) 의 수가 선형적으로 증가합니다. 이는 어텐션 (Attention) 비용, 메모리 사용량, 그리고 지연 시간 (Latency) 의 폭발적인 증가를 초래합니다.
기존 방법의 한계:
- 많은 기존 모델은 짧은 클립 인식을 전제로 하여, 입력 프레임을 과도하게 다운샘플링하거나 잘라냅니다. 이로 인해 "세 번째 나사가 조여진 순간"이나 "케이크가 처음 부풀어 오르는 시점"과 같은 **미세한 시간적 단서 (Fine-grained temporal cues)**가 손실됩니다.
- 기존 토큰 압축 방법 (토큰 가지치기, 병합 등) 은 대부분 정적 (Static) 인 압축 비율을 사용합니다. 이는 질문의 복잡도나 증거의 시간적 분포에 관계없이 동일하게 적용되므로, 특정 순간을 찾는 질문에는 불필요한 토큰을 남기거나, 전체 요약을 필요로 하는 질문에는 중요한 맥락을 누락시키는 문제가 발생합니다.

2. 제안 방법론: QTSplus (Methodology)

저자들은 **QTSplus (Query-aware Token Selector)**라는 새로운 모듈을 제안했습니다. 이는 비전 인코더와 언어 모델 (LLM) 사이에 위치하여, 주어진 텍스트 질문 (Query) 에 따라 가장 중요한 시각적 증거를 동적으로 선택하는 정보 게이트 역할을 합니다.

핵심 구성 요소

교차 어텐션 기반 점수 매기기 (Cross-Attention Scoring):
- 텍스트 토큰과 비전 토큰 간의 교차 어텐션을 계산하여 각 비전 토큰의 질문 관련성 (Relevance) 점수를 산출합니다. 질문의 단어들이 특정 프레임에 얼마나 집중하는지에 따라 점수가 결정됩니다.
적응형 예산 예측 (Adaptive Budget Prediction):
- 고정된 토큰 수 대신, 질문의 복잡도와 영상 통계를 기반으로 **유동적인 유지 비율 ( $\rho$ )**을 예측합니다.
- 입력 특징:
  - sq: 질문의 평균 임베딩 (의미적 난이도 및 의도 파악).
  - log M: 가용 비전 토큰 수의 로그 (영상 길이).
  - max_i r_i: 최대 어텐션 관련성 (답변이 특정 영역에 집중되는지 여부).
  - H(p): 관련성 분포의 엔트로피 (증거가 분산되어 있는지 집중되어 있는지).
- 이 요소들을 통해 질문이 "특정 시점 찾기"인지 "전체 요약"인지에 따라 유지할 토큰 수를 동적으로 조절합니다.
Top-n 게이트 및 학습/추론 전략:
- 학습 시: 미분 가능한 게이트 (Gumbel-Softmax with straight-through estimator) 를 사용하여 목표 예산을 준수하면서도 그래디언트가 흐르도록 합니다.
- 추론 시: 예측된 예산에 따라 관련성 점수가 높은 Top-n 토큰을 하드 게이트 (Hard gate) 로 선택합니다.
경량 재인코딩 (Lightweight Re-encoding):
- 선택된 토큰들이 원래의 시간적 순서를 유지하도록 절대 시간 정보를 포함하여 재인코딩합니다. 이는 선택 과정에서 손실될 수 있는 시간적 일관성을 회복하고, LLM 이 장기 의존성을 파악할 수 있게 합니다.

3. 주요 기여 (Key Contributions)

QTSplus 모듈 제안: 기존 비디오 - 언어 MLLM 에 플러그인 (Plug-in) 방식으로 적용 가능한, 질문 인지형 멀티모달 토큰 선택기를 개발했습니다.
동적 토큰 필터링: 텍스트 질문과 절대 시간 인코딩에 조건부 (Conditioned) 로 시각적 토큰을 필터링하여, KV 캐시 크기를 획기적으로 줄이면서도 작업에 필수적인 증거를 보존합니다.
데이터 파이프라인 및 평가: 제어된 생성 파이프라인을 통해 긴 영상 QA 및 단일 선택 질문 데이터를 구축하고, 수정된 lmms-eval 프레임워크를 사용하여 Qwen2.5-VL 기반 모델의 성능을 검증했습니다.

4. 실험 결과 (Results)

Qwen2.5-VL 모델에 QTSplus 를 통합하여 다양한 긴 영상 벤치마크 (Video-MME, LVBench, MLVU, TempCompass 등) 에서 평가했습니다.

효율성 향상:
- 비전 스트림을 최대 89% 까지 압축했습니다.
- 긴 영상 처리 시 엔드 - 투 - 엔드 지연 시간 (Latency) 을 28% 단축했습니다.
- 600 프레임의 영상에서 비전 임베딩 수가 약 18 만 개에서 2 만 개 (약 89% 감소) 로 줄어들었습니다.
성능 유지 및 향상:
- 전반적 정확도: 원래 Qwen 모델과 비교하여 전반적인 정확도는 거의 동등한 수준 (Near-parity) 을 유지했습니다.
- 시간적 이해 능력 향상:
  - TempCompass 방향성 (Direction) 정확도: +20.5 포인트 향상.
  - TempCompass 순서 (Order) 정확도: +5.6 포인트 향상.
  - 이는 모델이 특정 시간적 순간이나 사건 순서를 파악하는 능력이 토큰 선택을 통해 오히려 강화되었음을 의미합니다.
- LLaVA 및 InternVL 적용: 다른 아키텍처 (LLaVA-Video, InternVL2.5) 에도 적용 가능하여 모델 독립적 (Model-agnostic) 인 유효성을 입증했습니다.

5. 의의 및 결론 (Significance)

실용적 확장성: QTSplus 는 제한된 컴퓨팅 자원 (상용 GPU) 에서도 수 시간 분량의 영상을 처리할 수 있게 하여, MLLM 을 실제 세계의 긴 영상 시나리오로 확장하는 실용적인 경로를 제시합니다.
질문 중심의 효율성: "무조건 많은 토큰"이 아니라 "질문에 필요한 토큰"을 선택함으로써, 계산 비용을 줄이면서도 오히려 시간적 추론 능력을 향상시킬 수 있음을 입증했습니다.
미래 작업: 더 넓은 범위의 커버리가 필요한 작업을 위한 커리큘럼 학습, 스트리밍 추론, 다중 쿼리/다중 카메라 입력 확장 등을 향후 과제로 제시했습니다.

요약하자면, 이 논문은 긴 영상 이해의 핵심 병목인 토큰 수의 폭발을 해결하기 위해, 질문의 의도에 맞춰 중요한 시각적 정보만 선별하고 시간적 맥락을 보존하는 지능형 토큰 선택 메커니즘을 제안함으로써, 효율성과 성능을 동시에 달성하는 새로운 패러다임을 제시했습니다.