TrajTok: Learning Trajectory Tokens enables better Video Understanding

이 논문은 비디오 이해의 효율성과 성능을 동시에 향상시키기 위해 외부 분할 파이프라인 없이 비디오 모델과 통합되어 학습되며, 비디오의 길이에 구애받지 않고 의미적 복잡도에 따라 동적으로 토큰 세분화를 조절하는 종단간 비디오 토크나이저 'TrajTok'을 제안합니다.

Chenhao Zheng, Jieyu Zhang, Jianing Zhang, Weikai Huang, Ashutosh Kumar, Quan Kong, Oncel Tuzel, Chun-Liang Li, Ranjay Krishna

게시일 2026-02-27
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"TrajTok"**이라는 새로운 기술을 소개합니다. 이 기술을 쉽게 이해하기 위해 **'비디오를 보는 방식'**을 **'우리가 영화를 보는 방식'**에 비유해 설명해 드릴게요.

🎬 기존 방식: "모든 픽셀을 하나하나 세는 비효율적인 방법"

지금까지 컴퓨터가 비디오를 이해할 때는, 영화를 매우 작은 타일 (패치) 로 잘게 쪼개서 하나하나 분석했습니다.

  • 비유: 영화를 볼 때, 화면에 있는 모든 픽셀 (점) 을 하나하나 세어보며 "이 점은 빨간색, 저 점은 파란색"이라고 외우는 것과 같습니다.
  • 문제점: 영화가 길어지거나 화질이 좋아질수록 세야 할 점의 수가 기하급수적으로 늘어납니다. 이는 컴퓨터에게 엄청난 부담을 주고, 중요한 내용 (예: 사람이 춤추는 동작) 보다는 배경의 불필요한 정보까지 모두 처리하게 만들어 비효율적입니다.

🚀 새로운 방식 (TrajTok): "움직이는 주체 (객체) 의 궤적을 따라가는 방법"

이 논문은 **"비디오는 정적인 그림이 아니라, 움직이는 이야기"**라고 말합니다. 그래서 컴퓨터가 모든 점을 세는 대신, **사물이 움직인 '궤적 (Trajectory)'**을 따라가며 정보를 모으는 방식을 제안합니다.

  • 비유: 영화를 볼 때, "배경의 나무가 흔들리는 점"은 무시하고, **"주인공이 춤추는 손이 그려낸 궤적"**과 **"발이 밟는 발자국"**에만 집중하는 것입니다. 마치 카메라가 주인공을 따라가며 촬영하는 것처럼요.
  • 핵심 아이디어:
    1. 자동으로 그룹화: 컴퓨터가 스스로 "이 점들은 모두 같은 사람 (또는 사물) 이야"라고 판단해서 묶어줍니다.
    2. 학습 가능한 기술: 과거에는 이 '궤적'을 찾아내는 데 별도의 느린 프로그램 (외부 도구) 을 썼는데, TrajTok 은 비디오를 이해하는 AI 모델 자체와 함께 학습합니다. 즉, "무엇을 봐야 중요한지"를 스스로 배웁니다.
    3. 유연한 크기: 사물이 복잡하게 움직이면 더 많은 정보 (토큰) 를 주고, 단순하면 적게 줍니다. (마치 중요한 장면은 클로즈업, 배경은 와이드 샷으로 처리하는 것과 같습니다.)

💡 이 기술이 가져온 3 가지 혁신

이 논문은 이 기술을 세 가지 다른 상황에 적용해 보았는데, 모두 놀라운 결과를 냈습니다.

  1. 새로운 비디오 학습기 (TrajViT2):

    • 처음부터 비디오를 배우는 AI 를 만들었습니다.
    • 결과: 기존 방식보다 훨씬 적은 데이터로도 더 정확하게 동작을 이해하고, 검색도 잘합니다. "더 적은 정보로 더 똑똑한 판단"을 내리는 셈입니다.
  2. 기존 AI 의 업그레이드 도구 (TrajAdapter):

    • 이미 훈련된 거대 AI 에 이 기술을 '플러그인'처럼 꽂았습니다.
    • 결과: AI 를 처음부터 다시 훈련시키지 않아도, 비디오를 분석하는 능력 (예: 어떤 춤을 추는지 분류) 이 크게 향상되었습니다.
  3. 오래된 비디오를 이해하는 대화형 AI (TrajVLM):

    • 비디오를 보고 질문에 답하는 AI (VLM) 에 적용했습니다.
    • 결과: 특히 긴 영상을 볼 때 기존 방식은 내용을 놓치거나 헷갈렸지만, TrajTok 을 쓴 AI 는 "누가 언제 무엇을 했는지"를 궤적으로 따라가며 훨씬 정확하게 답변했습니다.

🌟 한 줄 요약

"TrajTok 은 비디오를 '수많은 점'으로 보지 않고, '움직이는 이야기 (궤적)'로 봅니다. 컴퓨터가 불필요한 정보를 버리고 중요한 사물의 움직임만 쫓아가게 함으로써, 더 빠르고 똑똑하며 긴 영상도 잘 이해할 수 있게 해줍니다."

이 기술은 마치 영화 감상을 할 때, 화면 전체를 훑어보는 것이 아니라 주인공의 행동과 흐름에 집중하여 영화를 더 깊이 있게 이해하는 것과 같습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →