TrajTok: Learning Trajectory Tokens enables better Video Understanding

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"TrajTok"**이라는 새로운 기술을 소개합니다. 이 기술을 쉽게 이해하기 위해 **'비디오를 보는 방식'**을 **'우리가 영화를 보는 방식'**에 비유해 설명해 드릴게요.

🎬 기존 방식: "모든 픽셀을 하나하나 세는 비효율적인 방법"

지금까지 컴퓨터가 비디오를 이해할 때는, 영화를 매우 작은 타일 (패치) 로 잘게 쪼개서 하나하나 분석했습니다.

비유: 영화를 볼 때, 화면에 있는 모든 픽셀 (점) 을 하나하나 세어보며 "이 점은 빨간색, 저 점은 파란색"이라고 외우는 것과 같습니다.
문제점: 영화가 길어지거나 화질이 좋아질수록 세야 할 점의 수가 기하급수적으로 늘어납니다. 이는 컴퓨터에게 엄청난 부담을 주고, 중요한 내용 (예: 사람이 춤추는 동작) 보다는 배경의 불필요한 정보까지 모두 처리하게 만들어 비효율적입니다.

🚀 새로운 방식 (TrajTok): "움직이는 주체 (객체) 의 궤적을 따라가는 방법"

이 논문은 **"비디오는 정적인 그림이 아니라, 움직이는 이야기"**라고 말합니다. 그래서 컴퓨터가 모든 점을 세는 대신, **사물이 움직인 '궤적 (Trajectory)'**을 따라가며 정보를 모으는 방식을 제안합니다.

비유: 영화를 볼 때, "배경의 나무가 흔들리는 점"은 무시하고, **"주인공이 춤추는 손이 그려낸 궤적"**과 **"발이 밟는 발자국"**에만 집중하는 것입니다. 마치 카메라가 주인공을 따라가며 촬영하는 것처럼요.
핵심 아이디어:
1. 자동으로 그룹화: 컴퓨터가 스스로 "이 점들은 모두 같은 사람 (또는 사물) 이야"라고 판단해서 묶어줍니다.
2. 학습 가능한 기술: 과거에는 이 '궤적'을 찾아내는 데 별도의 느린 프로그램 (외부 도구) 을 썼는데, TrajTok 은 비디오를 이해하는 AI 모델 자체와 함께 학습합니다. 즉, "무엇을 봐야 중요한지"를 스스로 배웁니다.
3. 유연한 크기: 사물이 복잡하게 움직이면 더 많은 정보 (토큰) 를 주고, 단순하면 적게 줍니다. (마치 중요한 장면은 클로즈업, 배경은 와이드 샷으로 처리하는 것과 같습니다.)

💡 이 기술이 가져온 3 가지 혁신

이 논문은 이 기술을 세 가지 다른 상황에 적용해 보았는데, 모두 놀라운 결과를 냈습니다.

새로운 비디오 학습기 (TrajViT2):
- 처음부터 비디오를 배우는 AI 를 만들었습니다.
- 결과: 기존 방식보다 훨씬 적은 데이터로도 더 정확하게 동작을 이해하고, 검색도 잘합니다. "더 적은 정보로 더 똑똑한 판단"을 내리는 셈입니다.
기존 AI 의 업그레이드 도구 (TrajAdapter):
- 이미 훈련된 거대 AI 에 이 기술을 '플러그인'처럼 꽂았습니다.
- 결과: AI 를 처음부터 다시 훈련시키지 않아도, 비디오를 분석하는 능력 (예: 어떤 춤을 추는지 분류) 이 크게 향상되었습니다.
오래된 비디오를 이해하는 대화형 AI (TrajVLM):
- 비디오를 보고 질문에 답하는 AI (VLM) 에 적용했습니다.
- 결과: 특히 긴 영상을 볼 때 기존 방식은 내용을 놓치거나 헷갈렸지만, TrajTok 을 쓴 AI 는 "누가 언제 무엇을 했는지"를 궤적으로 따라가며 훨씬 정확하게 답변했습니다.

🌟 한 줄 요약

"TrajTok 은 비디오를 '수많은 점'으로 보지 않고, '움직이는 이야기 (궤적)'로 봅니다. 컴퓨터가 불필요한 정보를 버리고 중요한 사물의 움직임만 쫓아가게 함으로써, 더 빠르고 똑똑하며 긴 영상도 잘 이해할 수 있게 해줍니다."

이 기술은 마치 영화 감상을 할 때, 화면 전체를 훑어보는 것이 아니라 주인공의 행동과 흐름에 집중하여 영화를 더 깊이 있게 이해하는 것과 같습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

기존 비디오 이해 모델 (Video Understanding Models) 은 비효율적인 토큰화 (Tokenization) 방식에 직면해 있습니다.

과도한 토큰 수: 현재 사실상의 표준인 패치 기반 토큰화 (Patchification) 는 비디오를 시공간 패치 (Space-time patches) 로 분할합니다. 이는 비디오의 해상도나 길이가 증가함에 따라 토큰 수가 기하급수적으로 증가하여 메모리 병목 현상과 계산 비용의 심각한 증가를 초래합니다.
기존 트래젝토리 기반 방법의 한계: 최근 '트래젝토리 (Trajectory)'를 기반으로 토큰을 생성하는 방법 (예: TrajViT) 은 비디오 길이와 토큰 수를 분리하여 효율성을 높였으나, 외부 세그멘테이션 및 추적 파이프라인 (예: SAM, SAM2 등) 에 의존한다는 치명적인 단점이 있습니다.
- 이러한 외부 파이프라인은 느리고 (비효율적), 미분 가능하지 않아 (End-to-End 학습 불가), 하위 작업 (Downstream task) 에 최적화되지 않은 고정된 세그먼트를 생성합니다.
- 예를 들어, 댄스 동작의 세부적인 신체 부위를 인식해야 하는 작업과 그룹 포메이션을 인식해야 하는 작업은 서로 다른 수준의 세그먼트 granularity 가 필요하지만, 외부 모델은 이를 구분하지 못합니다.

2. 방법론 (Methodology)

저자들은 TrajTok이라는 새로운 엔드 - 투 - 엔드 (End-to-End) 차분 가능한 비디오 토크나이저를 제안합니다. 이는 비디오의 픽셀을 직접 입력받아 의미론적 객체 트래젝토리로 구성된 토큰을 생성합니다.

핵심 아키텍처

TrajTok 은 두 개의 가변적 (Differentiable) 구성 요소로 이루어져 있습니다:

범용 세그멘터 (Universal Segmenter):
- 역할: 입력 비디오의 픽셀을 시공간 (Space-time) 에서 클러스터링하여 객체 트래젝토리를 제안합니다.
- 구현: 경량화된 패치 인코더 (ConvNeXt) 로부터 고해상도 특징을 추출한 후, 학습 가능한 잠재 쿼리 (Learnable Latent Queries) 와 Perceiver 레이어를 사용하여 특징과 쿼리 간의 유사도를 기반으로 '소프트 세그멘테이션 맵'을 생성합니다.
- 특징: 픽셀 단위의 완벽한 정확도 (Pixel-perfect accuracy) 보다는 하위 작업의 적응성을 우선시합니다. Dice Loss 와 Focal Loss 를 결합하여 모든 객체 영역을 발견하는 데 중점을 둡니다.
- 동적 토큰 수: 학습 가능한 쿼리 수는 고정되어 있지만, 빈 마스크를 생성하는 쿼리는 제거되므로 최종 토큰 수 ( $N$ ) 는 장면의 복잡도에 따라 동적으로 변합니다.
트래젝토리 인코더 (Trajectory Encoder):
- 역할: 세그멘터가 제안한 마스크를 기반으로 패치 특징을 집계하여 컴팩트한 잠재 토큰 (Latent Tokens) 으로 변환합니다.
- 소프트/하드 집계: 초기 제안 (Proposal) 은 소프트 마스크를 사용하여 미분 가능성을 보장하고, 이후 Perceiver 모듈을 통해 하드 마스크 (Argmax) 를 적용하여 각 트래젝토리의 세부적인 운동 및 질감 정보를 정제합니다.
- 적응형 토큰 수 (Adaptive Token Number): Matryoshka 표현에 영감을 받아, 각 트래젝토리당 토큰 수를 1 개, 2 개, 4 개 등으로 유연하게 조정할 수 있습니다. 이는 복잡한 운동이나 긴 지속 시간을 가진 객체에 대한 표현력을 높여줍니다.

학습 전략

TrajViT2: CLIP 목적 함수와 세그멘테이션 손실을 동시에 사용하여 비디오 인코더를 처음부터 (From scratch) 학습합니다.
TrajAdapter: 사전 학습된 비전 인코더 (ViT) 의 특징 맵을 트래젝토리 토큰으로 재구성하는 플러그인 어댑터로 사용됩니다.
TrajVLM: 비전 - 언어 모델 (VLM) 에서 ViT 와 LLM 사이의 연결 모듈 (Connector) 로 작동하여 장기간 비디오 추론 능력을 향상시킵니다.

3. 주요 기여 (Key Contributions)

엔드 - 투 - 엔드 차분 가능한 트래젝토리 토크나이저: 외부 파이프라인 없이 비디오 모델과 함께 학습되며, 하위 작업의 목적에 따라 토큰의 세분화 (Granularity) 를 동적으로 적응합니다.
효율성과 성능의 동시 달성: 기존 패치 기반 방법보다 토큰 수를 획기적으로 줄이면서도 (재현성 및 분류 성능 향상), 추론 시 FLOPs 는 기존 최적화 방법 (Token merging 등) 과 유사한 수준을 유지합니다.
다양한 적용 가능성: 토크나이저 그 자체뿐만 아니라, 사전 학습된 특징을 위한 어댑터 (TrajAdapter) 나 VLM 의 연결 모듈 (TrajVLM) 로도 활용 가능함을 입증했습니다. 특히 장기 비디오 (Long-video) 추론에서 뛰어난 성능을 보입니다.

4. 실험 결과 (Results)

TrajViT2 (Pretraining):
- 분류 및 검색: Kinetics-400 에서 +4.8%, SSv2 에서 +4.1% 의 정확도 향상을 보이며, 기존 ViT 기반 모델 및 TokenLearnt, RLT 등 모든 베이스라인을 압도했습니다.
- 확장성 (Scaling): 데이터셋 크기가 커질수록 (1M -> 8M) TrajViT2 는 성능이 지속적으로 향상되는 반면, 기존 TrajViT 는 성능 향상이 둔화되는 것을 확인했습니다.
- 효율성: ViT-Large 백본 대비 토크나이저 파라미터 수가 약 1/6 수준 (46M vs 304M) 으로 경량화되었으며, 프레임 수가 증가해도 계산 비용이 선형적으로만 증가하는 등 효율적입니다.
TrajAdapter (Probing):
- VideoMAE-v2 및 V-JEPA2 와 같은 사전 학습된 백본에 적용 시, 기존 선형 프로빙 (Linear Probing) 보다 Kinetics-400 및 SSv2 에서 일관되게 높은 정확도를 기록했습니다.
TrajVLM (Vision-Language Model):
- LLaVA 스타일의 VLM 에 적용했을 때, 특히 LongVideoBench와 같은 장기 비디오 벤치마크에서 패치 풀링 (Patch pooling) 기반 베이스라인 대비 +8.8% 의 큰 성능 향상을 보였습니다. 이는 트래젝토리 토큰이 장거리 의존성 (Long-range reasoning) 을 더 잘 포착함을 의미합니다.

5. 의의 및 결론 (Significance)

이 논문은 비디오 이해를 위한 토큰화 패러다임을 '패치 중심'에서 '객체 트래젝토리 중심'으로 전환하는 중요한 이정표입니다.

효율성: 불필요한 중복 토큰을 제거하여 대규모 비디오 처리의 병목 현상을 해결합니다.
적응성: 외부 모델에 의존하지 않고 하위 작업의 목적에 맞춰 토큰의 의미론적 세분화를 학습함으로써, 다양한 비디오 태스크 (분류, 검색, 추론) 에 유연하게 대응합니다.
미래 지향성: 단순한 토크나이저를 넘어, 비전 - 언어 모델의 핵심 구성 요소로서 장기 비디오 이해 능력을 획기적으로 개선할 수 있음을 입증했습니다.

요약하자면, TrajTok은 비디오의 시공간적 중복성을 줄이면서도 의미론적 구조를 보존하는 효율적이고 강력한 토큰화 솔루션을 제시하며, 차세대 비디오 이해 모델의 표준 아키텍처로 자리 잡을 잠재력을 가지고 있습니다.

TrajTok: Learning Trajectory Tokens enables better Video Understanding

🎬 기존 방식: "모든 픽셀을 하나하나 세는 비효율적인 방법"

🚀 새로운 방식 (TrajTok): "움직이는 주체 (객체) 의 궤적을 따라가는 방법"

💡 이 기술이 가져온 3 가지 혁신

🌟 한 줄 요약

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

핵심 아키텍처

학습 전략

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation