Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"비디오를 보는 AI 가 너무 많은 정보를 한꺼번에 받아서 지치고, 느려지는 문제를 해결하는 방법"**을 소개합니다.

마치 거대한 도서관에서 책장을 뒤적이며 필요한 정보만 찾아내는 일과 비슷합니다. 기존의 AI 는 책장 전체를 다 뒤져서 중요한 책만 골라내려다 시간이 너무 오래 걸렸는데, 이 논문은 **"어떤 책이 진짜 중요한지 미리 정하고, 그 책 옆에 있는 관련 정보들을 하나로 합쳐서 효율적으로 정리하는 새로운 방식"**을 제안합니다.

이제 이 방식을 쉽게 설명해 드릴게요.

1. 문제점: AI 가 "정보 과부하"에 시달립니다

비디오 AI(Video LLM) 는 영상을 볼 때 수천 개의 작은 조각 (토큰) 으로 영상을 나눕니다. 예를 들어 10 초짜리 영상이라도 AI 는 수만 개의 조각을 한 번에 처리해야 합니다.

기존 방식의 문제: AI 는 이 조각들 중 90% 가 실제로는 중요하지 않은 배경이나 반복되는 장면이라는 것을 알면서도, 일단 다 처리하려고 노력합니다. 그래서 컴퓨터가 너무 느려지고, 메모리가 터집니다.
기존 해결책의 한계: 기존 방법들은 "중요해 보이는 것만 남기고 나머지는 그냥 버리거나 (Pruning)" 혹은 "비슷한 것끼리 뭉개버리는 (Merging)" 방식을 썼습니다. 하지만 이 과정에서 중요한 맥락이나 미세한 정보가 사라져버려 AI 가 엉뚱한 답을 하기도 했습니다.

2. 해결책: AOT (로컬 & 글로벌 최적 수송)

이 논문은 **"버리는 게 아니라, 정보를 '이동'시켜서 모으자"**는 아이디어를 제시합니다. 이를 AOT라고 부릅니다.

🏗️ 비유: "현장 지휘관 (앵커) 과 정보 전달자"

이 과정을 공사 현장에 비유해 볼까요?

현장 지휘관 (Token Anchors) 세우기:
- 먼저, 영상 프레임 (화면) 마다 가장 중요한 '지휘관'들을 뽑아냅니다.
- 글로벌 (전체) 지휘관: 영상 전체를 한눈에 봐야 할 큰 그림을 담당하는 사람.
- 로컬 (세부) 지휘관: 화면의 구석구석 세부 사항을 놓치지 않도록 하는 사람.
- 이 두 가지를 합쳐서 각 프레임의 '핵심 대표'들을 선정합니다.
정보의 이동 (Optimal Transport - 최적 수송):
- 이제 버려질 것 같은 나머지 정보들이 있습니다. 기존 방식은 이들을 그냥 쓰레기통에 버렸지만, 이 논문은 **"이 정보들이 지휘관들에게 필요한 정보를 전달해야 한다"**고 생각합니다.
- **최적 수송 (Optimal Transport)**이라는 수학적 도구를 써서, **"누가 누구에게 어떤 정보를 얼마나 전달해야 가장 효율적인가?"**를 계산합니다.
- 마치 물건을 가장 효율적으로 운반하는 경로를 찾는 것처럼, 중요한 정보는 지휘관에게 정확히 전달되고, 중복된 정보는 자연스럽게 흡수됩니다.
시간의 흐름까지 고려 (Inter-Frame):
- 영상은 정지된 그림이 아니라 시간이 흐르는 것입니다.
- 이 방식은 연속된 프레임들 사이에서도 비슷한 정보는 하나로 합치고, **갑작스럽게 변하는 중요한 장면 (예: 사람이 갑자기 뛰는 것)**은 따로 보관합니다.
- 마치 영화 편집자가 같은 장면을 반복해서 보여주지 않고, 중요한 순간만 남기며 스토리를 이어가는 것과 같습니다.

3. 왜 이 방식이 특별한가요?

단순 삭제가 아닌 '정보의 재배치':
- 기존 방식: "이건 필요 없으니 삭제!" (정보 손실 발생)
- 이 방식: "이건 필요 없는데, 저 지휘관에게 필요한 정보를 담고 있네? 그 정보를 지휘관에게 옮겨줘!" (정보 보존)
학습 없이도 작동 (Training-free):
- AI 를 다시 가르칠 필요 없이, 기존에 만들어진 AI 모델에 이 '정보 정리 시스템'만 얹으면 바로 작동합니다.
압도적인 효율성:
- 실험 결과, 비디오 토큰을 90% 이상 줄이면서도 원래 모델의 성능을 97% 이상 유지했습니다.
- 계산 비용은 원래의 8.3% 수준으로 줄어든 것입니다. (약 12 배 빨라진 셈!)

4. 요약: 한 줄로 정리하면?

**"AI 가 영상을 볼 때, 모든 정보를 다 보는 게 아니라 '핵심 지휘관'을 세우고, 버려질 정보 속의 보물들을 지휘관에게 효율적으로 옮겨주어, 빠르고 똑똑하게 영상을 이해하게 만든 기술"**입니다.

이 기술이 상용화되면, 스마트폰에서도 고화질 장편 영화를 실시간으로 분석하거나, 복잡한 CCTV 영상을 순식간에 요약해 주는 일이 가능해질 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

비디오 대형 언어 모델 (VLLM) 은 복잡한 비디오 콘텐츠를 이해하는 데 탁월한 성능을 보이지만, 방대한 시각 토큰 (Visual Tokens) 으로 인한 비효율성이라는 심각한 과제를 안고 있습니다.

중복성: 비디오는 프레임 간 (Inter-frame) 과 프레임 내 (Intra-frame) 에서 심한 공간적 및 시간적 중복성을 가집니다.
기존 방법의 한계:
- 기존 토큰 가지치기 (Pruning) 또는 병합 (Merging) 방법들은 주로 단일 프레임 내의 공간적 중복성만 제거하거나, LLM 의 얕은 계층에서 단순하게 토큰을 삭제/병합합니다.
- 이러한 접근 방식은 미묘하지만 중요한 문맥 정보 (Subtle yet informative context) 를 삭제된 토큰과 함께 버려버리는 경향이 있습니다.
- 또한, 시간적 의존성 (Temporal dependencies) 을 충분히 활용하지 못하거나, 추가적인 파인튜닝 (Fine-tuning) 이 필요하여 비용이 많이 듭니다.

2. 제안 방법론: AOT (Methodology)

저자들은 국소 - 전역 최적 수송 (Local-Global Optimal Transport, AOT) 을 기반으로 한 새로운 토큰 축소 프레임워크를 제안합니다. 이 방법은 학습이 필요 없는 (Training-free) 방식으로 작동하며, 삭제되거나 병합될 토큰의 정보를 남은 '앵커 (Anchor)' 토큰으로 효율적으로 집계합니다.

핵심 단계

로컬 - 전역 토큰 앵커 설정 (Local-Global Token Anchors Establishment):
- 각 프레임 내에서 중요한 토큰을 선별하여 '앵커'로 정의합니다.
- 전역 앵커 (Global Anchors): [CLS] 토큰의 어텐션 점수를 기반으로 전역적으로 중요한 토큰을 선택합니다.
- 로컬 앵커 (Local Anchors): 이미지를 그리드 (Grid) 로 나누어 각 영역에서 국소적으로 중요한 디테일을 보존하기 위해 토큰을 선택합니다.
- 이 두 가지를 결합하여 공간적으로 다양하고 의미적으로 중요한 토큰 후보를 확보합니다.
프레임 내 최적 수송 (Intra-Frame OT):
- 선택된 앵커 토큰과 삭제될 토큰 (Unselected tokens) 을 두 개의 이산 확률 분포로 간주합니다.
- 최적 수송 (Optimal Transport, OT) 알고리즘을 사용하여, 삭제될 토큰이 가진 중요한 문맥 정보를 앵커 토큰으로 얼마나, 어떻게 이동시킬지 최적의 운송 계획 (Transport Plan) 을 수립합니다.
- 비용 행렬 (Cost Matrix) 로 토큰 간의 역 코사인 유사도 (Inverse Cosine Similarity) 를 사용하며, Sinkhorn-Knopp 반복 알고리즘을 통해 효율적으로 계산합니다.
- 결과적으로 삭제될 토큰의 정보가 앵커 토큰에 가중치 있게 집계되어 시각적 충실도가 유지됩니다.
프레임 간 최적 수송 (Inter-Frame OT):
- 비디오 클립 (Frame Clip) 단위로 시간적 중복성을 처리합니다.
- 클립의 첫 번째 프레임을 '키 프레임 앵커'로 설정하고, 후속 프레임의 토큰과 비교합니다.
- 시간적 동역학 보존: 토큰 간의 유사도가 높으면 앵커에 집계 (병합) 하되, 급격한 변화가 감지되면 (Threshold $\tau$ 미만) 해당 토큰을 유지하여 시간적 동역학을 보존합니다.
- 이를 통해 긴 비디오에서도 불필요한 시간적 중복을 제거하면서도 핵심적인 움직임 정보를 유지합니다.

3. 주요 기여 (Key Contributions)

새로운 관점: 단순히 토큰을 삭제하거나 병합하는 것이 아니라, 삭제/병합될 토큰의 미묘한 의미와 문맥을 남은 토큰으로 집계하는 방식을 최초로 제안했습니다.
로컬 - 전역 앵커 전략: 의미적으로 중요하고 공간적으로 다양한 토큰 후보를 확보하기 위해 로컬 및 전역 우선순위를 고려한 앵커 설정 방식을 도입했습니다.
최적 수송 (OT) 기반 집계: 프레임 내 및 프레임 간 차원에서 최적 수송을 활용하여 시공간적 문맥을 효율적으로 집계하고, 학습 없이 (Training-free) 시간적/시각적 충실도를 보존하는 파이프라인을 구축했습니다.
광범위한 검증: 다양한 비디오 벤치마크에서 기존 방법들보다 우수한 성능을 입증했습니다.

4. 실험 결과 (Results)

저자들은 LLaVA-OneVision-7B 및 LLaVA-Video-7B 모델을 사용하여 MVBench, LongVideoBench, EgoSchema, VideoMME 등 주요 벤치마크에서 평가를 수행했습니다.

성능 유지: 원본 모델의 90% 토큰을 제거 (10% 유지) 했음에도 불구하고, 평균적으로 원본 성능의 97.6% 를 유지했습니다.
계산 효율성: 전체 FLOPs (부동소수점 연산 횟수) 를 약 8.3% 수준으로 획기적으로 줄였습니다.
비교 우위: FastV, VisionZip, PruneVid, DyCoke 등 기존 최첨단 (SOTA) 학습 불필요 방법들보다 모든 벤치마크에서 더 높은 정확도와 효율성을 보였습니다.
장기 비디오 처리: 128 프레임과 같은 긴 입력에서도 컨텍스트 길이 제한 없이 안정적으로 작동하며, 기존 모델이 처리하기 어려운 긴 비디오 질문 답변에서 우위를 점했습니다.
추가 오버헤드: Sinkhorn-Knopp 반복을 통한 OT 계산은 전체 추론 시간의 1% 미만으로 매우 가볍습니다.

5. 의의 및 중요성 (Significance)

이 논문은 비디오 대형 언어 모델의 실용화를 위한 중요한 전환점을 제시합니다.

효율성과 성능의 균형: 기존에는 긴 비디오 처리 시 메모리 부족이나 추론 지연이 불가피했으나, AOT 는 이를 해결하면서도 성능 저하를 최소화했습니다.
정보의 보존: 단순히 '삭제'하는 것이 아니라 '집계 (Aggregation)'를 통해 토큰이 가진 정보의 가치를 극대화한다는 점에서, 차세대 비디오 압축 및 처리 기술의 방향성을 제시합니다.
실용성: 추가적인 학습 (Fine-tuning) 이 필요 없어 기존 VLLM 모델에 즉시 적용 가능하여, 리소스가 제한된 환경에서도 고품질 비디오 이해를 가능하게 합니다.

결론적으로, AOT 는 국소 및 전역 문맥 최적화를 통해 비디오 토큰의 중복성을 지능적으로 제거하고 정보를 보존함으로써, 효율적인 비디오 LLM 추론을 위한 강력한 솔루션을 제공합니다.

Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models

1. 문제점: AI 가 "정보 과부하"에 시달립니다

2. 해결책: AOT (로컬 & 글로벌 최적 수송)

🏗️ 비유: "현장 지휘관 (앵커) 과 정보 전달자"

3. 왜 이 방식이 특별한가요?

4. 요약: 한 줄로 정리하면?

1. 문제 정의 (Problem Statement)

2. 제안 방법론: AOT (Methodology)

핵심 단계

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 중요성 (Significance)

유사한 논문

Unified Multimodal Models as Auto-Encoders

CL4SE: A Context Learning Benchmark For Software Engineering Tasks

CRAFT: Cost-aware Expert Replica Allocation with Fine-Grained Layerwise Estimations

Spark-LLM-Eval: A Distributed Framework for Statistically Rigorous Large Language Model Evaluation

ZEUS: An Efficient GPU Optimization Method Integrating PSO, BFGS, and Automatic Differentiation