Each language version is independently generated for its own context, not a direct translation.

🎬 EVATok: 비디오를 위한 '똑똑한 압축 기술'

이 논문은 EVATok이라는 새로운 기술을 소개합니다. 쉽게 말해, **"비디오를 디지털로 저장할 때, 중요한 부분은 자세히, 중요하지 않은 부분은 대충 저장하는 지능형 압축 기술"**이라고 생각하시면 됩니다.

기존 기술은 비디오의 모든 장면을 똑같은 크기의 '상자'에 담으려 했지만, EVATok은 장면의 복잡함에 따라 상자의 크기를 유동적으로 조절합니다.

1. 왜 이런 기술이 필요한가요? (기존의 문제점)

비디오를 AI 가 이해하거나 생성하려면, 픽셀 (화소) 들을 작은 '토큰 (Token)'이라는 조각으로 잘게 나누어야 합니다. 이를 **토큰화 (Tokenization)**라고 합니다.

기존 방식 (균일한 압축):
imagine imagine imagine
비유하자면, 모든 비디오 장면을 똑같은 크기의 '택배 상자'에 넣는 것과 같습니다.
- 정지된 화면 (예: 배경만 있는 풍경): 상자가 너무 커서 공간이 낭비됩니다. (비효율)
- 빠른 동작 (예: 폭발 장면): 상자가 너무 작아 물건이 넘칩니다. (화질 저하)
- 결과: 저장 공간과 계산 비용이 낭비되거나, 화질이 떨어집니다.

2. EVATok 의 핵심 아이디어: "상황에 맞는 상자 크기"

EVATok 은 **"이 장면은 얼마나 복잡한가?"**를 실시간으로 판단하여, 필요한 만큼만 토큰을 할당합니다.

복잡한 장면 (빠른 움직임, 복잡한 배경): 더 많은 토큰을 할당하여 디테일을 살립니다.
단순한 장면 (정지 화면, 반복되는 움직임): 적은 토큰만 할당하여 공간을 아낍니다.

이를 통해 화질은 유지하면서, 데이터 양 (토큰 수) 은 24% 이상 줄이는 놀라운 성과를 냈습니다.

3. 어떻게 작동할까요? (4 단계 요리 과정)

EVATok 은 4 단계의 과정을 거쳐 '지능형 압축 기술'을 완성합니다.

🍳 1 단계: 시식용 요리사 (Proxy Tokenizer) 훈련

먼저, 모든 가능한 상자 크기 조합을 테스트해 볼 수 있는 **'시식용 요리사'**를 훈련시킵니다. 이 요리사는 "이 장면을 이 크기로 담으면 화질이 어떨까?"를 실험해 봅니다.

📝 2 단계: 레시피 책 만들기 (데이터 수집)

시식용 요리사의 실험 결과를 바탕으로, **"어떤 장면에는 어떤 크기의 상자가 가장 적합한가?"**에 대한 정답 (최적의 조합) 이 적힌 레시피 책을 만듭니다.

예: "폭발 장면 = 큰 상자", "잔잔한 바다 = 작은 상자"

🧠 3 단계: 빠른 결정자 (Router) 훈련

이제 이 레시피 책을 보고, 새로운 비디오가 들어오면 순간적으로 "이건 작은 상자로, 저건 큰 상자로!"라고 결정할 수 있는 **스마트한 비서 (Router)**를 훈련시킵니다.

이 비서는 매번 실험을 다시 할 필요 없이, 한 번에 최적의 크기를 골라냅니다.

🎬 4 단계: 최종 요리사 (Adaptive Tokenizer) 훈련

마지막으로, 이 '스마트 비서'의 지시를 받아 실제 비디오를 압축하는 최종 요리사를 훈련시킵니다. 이제부터는 비디오를 볼 때마다 비서가 적절한 상자 크기를 지시하고, 요리사는 그 지시에 따라 효율적으로 비디오를 저장합니다.

4. 왜 이것이 중요한가요? (기대 효과)

이 기술은 단순히 저장 공간을 아끼는 것을 넘어, AI 가 비디오를 생성하는 능력까지 향상시킵니다.

🚀 더 빠른 속도: 불필요한 데이터 처리를 줄여서 AI 가 비디오를 만드는 속도가 빨라집니다.
🎨 더 좋은 화질: 중요한 부분에 자원을 집중하므로, 같은 비용으로 더 선명한 비디오를 만들 수 있습니다.
💰 비용 절감: 클라우드 서버 비용이나 전력 소모를 크게 줄일 수 있습니다.

🌟 한 줄 요약

EVATok은 비디오의 모든 장면을 똑같은 크기로 처리하던 구식 방식을 버리고, "장면의 중요도에 따라 지능적으로 자원을 배분하는" 새로운 방식을 제시했습니다. 마치 **비디오를 위한 '스마트한 압축 알고리즘'**이 등장하여, 화질은 그대로 두고 데이터량은 대폭 줄인 셈입니다.

이 기술은 앞으로 우리가 보는 AI 생성 영상 (예: 영화, 애니메이션) 이 더 빠르고 더 선명해지도록 돕는 핵심 열쇠가 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

자기회귀 (Autoregressive, AR) 기반 비디오 생성 모델은 비디오를 이산적인 토큰 시퀀스로 압축하는 비디오 토크나이저 (Video Tokenizer) 에 의존합니다. 기존 토크나이저들은 입력 콘텐츠의 복잡도와 무관하게 모든 비디오에 대해 고정된 길이 (Fixed-length) 의 토큰 시퀀스를 할당하는 경향이 있습니다.

이러한 균일한 할당 방식은 다음과 같은 비효율성을 초래합니다:

과잉 할당: 정적이거나 반복적인 단순한 장면에는 불필요하게 많은 토큰이 사용됨.
부족 할당: 역동적이거나 복잡한 구조를 가진 장면에는 토큰이 부족하여 재구성 품질이 저하됨.
비용 증가: 불필요한 토큰 사용은 하류 (Downstream) AR 생성 모델의 계산 비용과 메모리 사용을 증가시킵니다.

따라서, 각 비디오의 고유한 복잡도에 맞춰 품질 (Reconstruction Quality) 과 비용 (Token Length) 사이의 최적 균형을 찾는 적응형 토큰 할당 전략이 필요합니다.

2. 방법론 (Methodology)

EVATok 은 비디오의 콘텐츠에 따라 토큰 길이를 동적으로 조정하는 4 단계 프레임워크를 제안합니다. 핵심 아이디어는 각 비디오에 대한 '최적의 토큰 할당 (Optimal Assignment)'을 예측하는 경량화된 라우터 (Router) 를 학습시키는 것입니다.

단계 1: 프록시 토크나이저 학습 (Proxy Tokenizer Training)

무작위로 샘플링된 다양한 토큰 할당 조건에서 비디오를 재구성할 수 있는 프록시 토크나이저를 학습합니다.
이 토크나이저는 이후 최적의 할당을 찾기 위한 '평가 도구'로 사용됩니다.
아키텍처: Q-Former 스타일의 1D 토크나이저를 사용하며, 시공간 패치화 (Spatio-temporal patchification) 를 거쳐 3D 임베딩을 생성한 후, 할당된 토큰 수에 따라 1D 쿼리를 초기화하여 가변 길이 토큰을 생성합니다.
학습 레시피: 비디오 시맨틱 인코더 (V-JEPA2-L) 와의 표현 정렬 (Representation Alignment) 을 통해 재구성 품질을 향상시킵니다.

단계 2: 라우터 학습용 데이터 큐레이션 (Dataset Curation)

프록시 토크나이저를 사용하여 각 비디오에 대해 가능한 모든 토큰 할당 조합을 탐색합니다.
프록시 보상 (Proxy Reward) 을 계산하여 최적의 할당을 찾습니다.
- $R_{proxy} = w_q \cdot Q(\text{품질}) - w_l \cdot L(\text{토큰 길이})$
- 여기서 $Q$ 는 재구성 품질 (LPIPS 등), $L$ 은 토큰 길이 비용입니다.
각 비디오에 대해 최대 프록시 보상을 주는 할당을 'Ground Truth'로 하여 (비디오, 최적 할당) 쌍으로 구성된 데이터셋을 구축합니다.

단계 3: 라우터 학습 (Router Training)

단계 2 에서 구축된 데이터셋을 사용하여 경량화된 라우터 (Router) 를 학습합니다.
라우터는 입력 비디오를 분석하여 최적의 토큰 할당 (클래스 분류 문제) 을 한 번의 패스 (One-pass) 로 예측합니다.
이 라우터는 추론 시 토크나이저에 필요한 할당 정보를 빠르게 제공합니다.

단계 4: 최종 적응형 토크나이저 학습 (Final Tokenizer Training)

라우터가 예측한 할당을 조건으로 하여 최종 적응형 비디오 토크나이저를 처음부터 학습합니다.
핵심 차별점: 기존 방법들은 프록시 토크나이저를 그대로 사용하거나, 훈련 시 모든 할당을 다루고 추론 시 일부만 사용하는 '훈련 - 추론 간극 (Training-Inference Gap)' 문제가 있었습니다. EVATok 은 라우터가 예측한 특정 할당만으로 최종 토크나이저를 학습시켜 이 간극을 해소하고 성능을 극대화합니다.
VideoMAE 기반의 시맨틱 판별자 (Discriminator) 를 추가로 활용하여 재구성 및 생성 품질을 더욱 향상시킵니다.

3. 주요 기여 (Key Contributions)

효율적인 비디오 적응형 토크나이징 프레임워크: 훈련 및 추론 과정에서 최적의 예산 할당을 제공하는 라우터를 포함한 4 단계 프레임워크를 제안했습니다.
프록시 보상 (Proxy Reward) 지표: 재구성 품질과 토큰 비용을 동시에 고려하여 각 비디오별 최적 할당을 식별하는 새로운 지표를 도입했습니다.
성능 입증: 고정 길이 (Fixed-length) 베이스라인 및 기존 적응형 방법 (LARP, AdapTok 등) 대비 재구성 품질과 하류 AR 생성 성능을 유지하거나 향상시키면서, 평균 토큰 사용량을 24.4% 이상 절감하는 결과를 입증했습니다.

4. 실험 결과 (Results)

데이터셋: UCF-101, K600, WebVid-10M 등을 활용하여 평가 수행.
재구성 품질: 고정된 균일 할당 (Uniform Assignment) 대비 동등하거나 더 높은 품질 (LPIPS, rFVD) 을 달성하면서 토큰 수를 약 24.4% 절감했습니다.
하류 생성 (AR Generation):
- UCF-101 Class-to-Video: 기존 SOTA 인 LARP 대비 gFVD 48로 더 나은 생성 품질을 보이며, 생성 토큰 수는 26.2% 절감했습니다.
- K600 Frame Prediction: 생성 토큰 수를 15.8% 절감하면서도 가장 낮은 gFVD 를 기록하여 효율성과 품질을 동시에 달성했습니다.
라우터 일반화: 라우터는 훈련 시 보지 못한 데이터셋 (예: WebVid 에서 학습하여 UCF-101 에서 테스트) 에 대해서도 우수한 성능을 보여주며, 최적 할당 예측의 정확도보다 '보상 퍼센타일 (Reward Percentile)'이 높게 유지되어 실용성을 입증했습니다.

5. 의의 및 결론 (Significance)

EVATok 은 비디오 생성 분야에서 콘텐츠 적응형 (Content-Adaptive) 토크나이징의 잠재력을 성공적으로 입증했습니다.

효율성 극대화: 비디오의 시간적 복잡도에 따라 토큰을 유연하게 분배함으로써, 불필요한 계산 자원을 절감하면서도 중요한 정보에는 집중할 수 있게 합니다.
AR 생성 모델 최적화: 가변 길이 토큰 시퀀스를 효율적으로 처리하는 AR 생성 모델을 가능하게 하여, 장기 비디오 생성 및 실시간 애플리케이션에 필요한 계산 비용을 획기적으로 줄일 수 있는 길을 열었습니다.
학습 - 추론 간극 해소: 라우터를 통한 최적 할당 예측과 이를 기반으로 한 최종 토크나이저 학습은, 기존 적응형 방법들의 한계를 극복하고 더 안정적인 성능을 보장하는 새로운 패러다임을 제시합니다.

결론적으로, EVATok 은 비디오 생성의 품질과 효율성 간의 트레이드오프를 최적화하는 강력한 솔루션으로, 차세대 멀티모달 생성 모델의 핵심 구성 요소가 될 것으로 기대됩니다.

EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation