Seeing the Forest and the Trees: Query-Aware Tokenizer for Long-Video Multimodal Language Models

이 논문은 텍스트 쿼리에 따라 중요한 시각 토큰을 동적으로 선택하여 긴 비디오 처리 시 계산 비용을 대폭 줄이면서도 정확도를 유지하거나 향상시키는 경량 모듈인 'QTSplus'를 제안합니다.

Siyou Li, Huanan Wu, Juexi Shao, Yinghao Ma, Yujian Gan, Yihao Luo, Yuwei Wang, Dong Nie, Lu Wang, Wenqing Wu, Le Zhang, Massimo Poesio, Juntao Yu

게시일 2026-02-26
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"긴 영상을 볼 때, AI 가 모든 장면을 다 기억하려다 뇌가 터지는 것을 막아주는 똑똑한 비서"**를 소개합니다.

제목인 **"숲과 나무를 모두 보는 법 (Seeing the Forest and the Trees)"**은 이 기술의 핵심을 잘 나타냅니다. AI 가 긴 영상을 볼 때, 나뭇잎 하나하나 (모든 프레임) 를 다 세려고 하면 시간이 너무 오래 걸리고 메모리가 부족해집니다. 대신, 질문과 관련된 중요한 나뭇잎 (나무) 만 골라내고, 전체적인 숲의 흐름도 놓치지 않게 도와주는 기술입니다.

이 기술을 QTSplus라고 부르는데, 일상생활에 비유해서 설명해 드릴게요.


1. 문제: "모든 걸 다 보려는 AI 의 고통"

지금까지의 영상 AI 는 유튜브나 틱톡 같은 긴 영상을 볼 때, 초당 수십 장의 사진을 모두 찍어서 기억하려고 했습니다.

  • 비유: 마치 3 시간짜리 영화를 볼 때, 스크린에 비친 모든 픽셀을 하나하나 외우려고 노력하는 학생과 같습니다.
  • 결과: 머리가 너무 무거워져서 (메모리 부족), 답을 내기까지 시간이 너무 오래 걸리고, 중요한 장면 (예: "그때 누가 문을 열었지?") 을 놓치기 쉽습니다.

2. 해결책: QTSplus (질문 기반 토큰 선택기)

이 논문이 제안한 QTSplus는 AI 의 눈과 뇌 사이에 들어가는 "스마트 필터" 역할을 합니다.

🎯 역할 1: "질문하는 사람의 의도를 읽는 비서"

사용자가 "영상을 요약해 줘"라고 하면, 비서는 전체 장면을 골고루 봅니다. 하지만 사용자가 "영화를 본 남자가 언제 컵을 들었는지 알려줘"라고 하면, 비서는 남자가 컵을 든 그 순간만 집중해서 찾아냅니다.

  • 기존 방식: 질문과 상관없이 모든 장면을 다 가져옴 (비효율적).
  • QTSplus 방식: 질문을 보고 "아, 이 질문에는 이 장면 10 개만 있으면 되겠네"라고 적절한 양을 정해서 가져옵니다.

🧠 역할 2: "중요도 점수 매기기"

비서는 영상의 모든 장면을 스캔하면서, 질문과 얼마나 관련이 있는지 점수를 매깁니다.

  • 관련 없는 장면 (예: 남자가 컵을 들기 전, 10 분 동안 아무 일도 안 일어난 배경) → 점수 낮음 (버림)
  • 관련 있는 장면 (예: 남자가 컵을 들고 입에 대는 순간) → 점수 높음 (보관)
  • 이 과정을 통해 영상 데이터의 약 89% 를 잘라내도 정답을 맞출 수 있게 됩니다.

⏱️ 역할 3: "시간 순서 지키기"

중요한 장면만 골라내면, "어? 이 장면이 언제 일어났지?"라고 시간 감각을 잃을 수 있습니다. QTSplus 는 잘라낸 장면들에 **시간 스탬프 (시간표)**를 다시 붙여줍니다.

  • 비유: 책갈피를 꽂아두고, "이건 10 분 30 초에 일어난 일, 저건 11 분에 일어난 일"이라고 메모를 남기는 것과 같습니다. 덕분에 AI 는 시간의 흐름을 잊지 않고 논리적으로 답할 수 있습니다.

3. 실제 효과: "빠르고 똑똑해진 AI"

이 기술을 적용한 결과, 놀라운 변화가 일어났습니다.

  • 속도: 영상을 처리하는 속도가 약 28% 빨라졌습니다. (기다리는 시간이 줄어듦)
  • 메모리: 필요한 메모리 양이 약 89% 줄어듭니다. (휴대폰이나 일반 컴퓨터에서도 긴 영상을 잘 처리 가능)
  • 정확도: 중요한 장면만 골라냈는데도, 정답을 맞추는 정확도는 기존 AI 와 비슷하거나 오히려 더 좋아졌습니다. 특히 "누가 먼저 했는지", "방향은 어땠는지" 같은 시간 순서와 관련된 질문에서는 훨씬 잘 답했습니다.

4. 결론: "숲과 나무를 동시에 보는 지혜"

이 기술은 **"모든 것을 다 보는 것"**이 아니라, **"질문에 필요한 것만 정확히 보는 것"**이 더 중요하다는 것을 보여줍니다.

  • 과거: 모든 나뭇잎을 다 줍고 숲을 찾으려 함 (지나치게 무거움).
  • QTSplus: 질문을 듣고 필요한 나뭇잎 (나무) 만 줍고, 전체 숲의 흐름도 기억함 (가볍고 정확함).

이 기술이 상용화되면, 우리는 스마트폰으로 몇 시간짜리 긴 영상도 순식간에 분석하고 요약해 달라고 요청할 수 있게 될 것입니다. AI 가 더 이상 "무거운 짐"을 지고 다니지 않고, 질문하는 사람의 눈높이에 맞춰 가볍고 똑똑하게 움직이게 되는 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →