Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models

이 논문은 비디오 대형 언어 모델의 비효율적인 토큰 문제를 해결하기 위해 국소 및 전역 컨텍스트를 최적 수송 (Optimal Transport) 기반으로 통합하는 'AOT'라는 새로운 토큰 축소 기법을 제안하여, 학습 없이도 계산 효율성을 크게 높이면서도 시공간적 충실도를 유지하는 것을 목표로 합니다.

Jinlong Li, Liyuan Jiang, Haonan Zhang, Nicu Sebe

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"비디오를 보는 AI 가 너무 많은 정보를 한꺼번에 받아서 지치고, 느려지는 문제를 해결하는 방법"**을 소개합니다.

마치 거대한 도서관에서 책장을 뒤적이며 필요한 정보만 찾아내는 일과 비슷합니다. 기존의 AI 는 책장 전체를 다 뒤져서 중요한 책만 골라내려다 시간이 너무 오래 걸렸는데, 이 논문은 **"어떤 책이 진짜 중요한지 미리 정하고, 그 책 옆에 있는 관련 정보들을 하나로 합쳐서 효율적으로 정리하는 새로운 방식"**을 제안합니다.

이제 이 방식을 쉽게 설명해 드릴게요.


1. 문제점: AI 가 "정보 과부하"에 시달립니다

비디오 AI(Video LLM) 는 영상을 볼 때 수천 개의 작은 조각 (토큰) 으로 영상을 나눕니다. 예를 들어 10 초짜리 영상이라도 AI 는 수만 개의 조각을 한 번에 처리해야 합니다.

  • 기존 방식의 문제: AI 는 이 조각들 중 90% 가 실제로는 중요하지 않은 배경이나 반복되는 장면이라는 것을 알면서도, 일단 다 처리하려고 노력합니다. 그래서 컴퓨터가 너무 느려지고, 메모리가 터집니다.
  • 기존 해결책의 한계: 기존 방법들은 "중요해 보이는 것만 남기고 나머지는 그냥 버리거나 (Pruning)" 혹은 "비슷한 것끼리 뭉개버리는 (Merging)" 방식을 썼습니다. 하지만 이 과정에서 중요한 맥락이나 미세한 정보가 사라져버려 AI 가 엉뚱한 답을 하기도 했습니다.

2. 해결책: AOT (로컬 & 글로벌 최적 수송)

이 논문은 **"버리는 게 아니라, 정보를 '이동'시켜서 모으자"**는 아이디어를 제시합니다. 이를 AOT라고 부릅니다.

🏗️ 비유: "현장 지휘관 (앵커) 과 정보 전달자"

이 과정을 공사 현장에 비유해 볼까요?

  1. 현장 지휘관 (Token Anchors) 세우기:

    • 먼저, 영상 프레임 (화면) 마다 가장 중요한 '지휘관'들을 뽑아냅니다.
    • 글로벌 (전체) 지휘관: 영상 전체를 한눈에 봐야 할 큰 그림을 담당하는 사람.
    • 로컬 (세부) 지휘관: 화면의 구석구석 세부 사항을 놓치지 않도록 하는 사람.
    • 이 두 가지를 합쳐서 각 프레임의 '핵심 대표'들을 선정합니다.
  2. 정보의 이동 (Optimal Transport - 최적 수송):

    • 이제 버려질 것 같은 나머지 정보들이 있습니다. 기존 방식은 이들을 그냥 쓰레기통에 버렸지만, 이 논문은 **"이 정보들이 지휘관들에게 필요한 정보를 전달해야 한다"**고 생각합니다.
    • **최적 수송 (Optimal Transport)**이라는 수학적 도구를 써서, **"누가 누구에게 어떤 정보를 얼마나 전달해야 가장 효율적인가?"**를 계산합니다.
    • 마치 물건을 가장 효율적으로 운반하는 경로를 찾는 것처럼, 중요한 정보는 지휘관에게 정확히 전달되고, 중복된 정보는 자연스럽게 흡수됩니다.
  3. 시간의 흐름까지 고려 (Inter-Frame):

    • 영상은 정지된 그림이 아니라 시간이 흐르는 것입니다.
    • 이 방식은 연속된 프레임들 사이에서도 비슷한 정보는 하나로 합치고, **갑작스럽게 변하는 중요한 장면 (예: 사람이 갑자기 뛰는 것)**은 따로 보관합니다.
    • 마치 영화 편집자가 같은 장면을 반복해서 보여주지 않고, 중요한 순간만 남기며 스토리를 이어가는 것과 같습니다.

3. 왜 이 방식이 특별한가요?

  • 단순 삭제가 아닌 '정보의 재배치':
    • 기존 방식: "이건 필요 없으니 삭제!" (정보 손실 발생)
    • 이 방식: "이건 필요 없는데, 저 지휘관에게 필요한 정보를 담고 있네? 그 정보를 지휘관에게 옮겨줘!" (정보 보존)
  • 학습 없이도 작동 (Training-free):
    • AI 를 다시 가르칠 필요 없이, 기존에 만들어진 AI 모델에 이 '정보 정리 시스템'만 얹으면 바로 작동합니다.
  • 압도적인 효율성:
    • 실험 결과, 비디오 토큰을 90% 이상 줄이면서도 원래 모델의 성능을 97% 이상 유지했습니다.
    • 계산 비용은 원래의 8.3% 수준으로 줄어든 것입니다. (약 12 배 빨라진 셈!)

4. 요약: 한 줄로 정리하면?

**"AI 가 영상을 볼 때, 모든 정보를 다 보는 게 아니라 '핵심 지휘관'을 세우고, 버려질 정보 속의 보물들을 지휘관에게 효율적으로 옮겨주어, 빠르고 똑똑하게 영상을 이해하게 만든 기술"**입니다.

이 기술이 상용화되면, 스마트폰에서도 고화질 장편 영화를 실시간으로 분석하거나, 복잡한 CCTV 영상을 순식간에 요약해 주는 일이 가능해질 것입니다.