Measure Twice, Cut Once: A Semantic-Oriented Approach to Video Temporal Localization with Video LLMs

이 논문은 비디오 LLM 의 사전 학습된 의미 이해 능력을 활용하기 위해 구조적 토큰 생성, 쿼리 중심 캡셔닝, 구조적 토큰 그라운딩을 결합한 의미 중심의 프레임워크 'MeCo'를 제안하여, 기존 시간戳 생성 방식보다 뛰어난 비디오 이벤트 시간적 국소화 성능을 달성함을 보여줍니다.

Zongshang Pang, Mayu Otani, Yuta Nakashima

게시일 2026-02-17
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 기존 방식: "숫자만 외우는 비효율적인 편집자"

기존의 비디오 AI(인공지능) 들은 사용자의 질문 (예: "요리하는 장면 찾아줘") 을 받으면, 직접 숫자를 말하며 컷을 자르는 방식을 썼습니다.

  • 방식: "시작은 1 분 20 초, 끝은 1 분 45 초야!"라고 숫자를 뱉어냅니다.
  • 문제점: AI 는 숫자를 맞추는 데만 급급해서, **실제로 그 시간대에 무슨 일이 일어나는지 (의미)**를 깊이 이해하지 못했습니다. 마치 요리사가 레시피를 읽지 않고 그냥 "1 분 30 초 뒤"라고만 외운 채 요리를 하는 것과 같습니다. 숫자를 맞추는 것은 어렵고, AI 가 가진 '이해력'을 제대로 쓰지 못하게 됩니다.

✨ 새로운 방식 (MeCo): "이해하고 설명한 뒤 자르는 똑똑한 편집자"

이 논문에서 제안한 MeCo는 숫자를 직접 말하기보다, 먼저 비디오의 흐름을 이해하고 설명한 뒤 장면을 찾아냅니다. "두 번 재고 (이해하고), 한 번 자른다"는 뜻입니다.

이 과정은 크게 3 단계로 나뉩니다:

1. 구조 토큰 생성: "비디오를 '이벤트'와 '중간'으로 분류하기"

AI 는 비디오를 처음부터 끝까지 훑으며, **"이건 중요한 장면 (이벤트)"**과 **"그냥 지나가는 장면 (전환)"**으로 나눕니다.

  • 비유: 요리사가 재료를 준비할 때, "이건 요리할 핵심 재료 (이벤트)"와 "세척이나 준비 과정 (전환)"을 구분하는 것과 같습니다.
  • AI 는 <ent>(이벤트)<tst>(전환)라는 특별한 태그를 붙여가며 비디오의 구조를 파악합니다.

2. 질문 집중 캡션 (QFC): "핵심 장면을 자세히 설명하기"

중요한 장면 (<ent>) 을 발견하면, AI 는 그 장면을 사용자의 질문과 연결해서 자세히 설명합니다.

  • 비유: "요리하는 장면"을 찾을 때, 단순히 "요리 중"이라고만 하지 않고, **"사용자가 묻는 대로, '계란을 깨서 팬에 넣는 구체적인 모습'을 설명"**하는 것입니다.
  • 이는 마치 요리사가 "이 재료가 왜 중요한지, 어떻게 쓰이는지"를 설명하며 요리하는 것과 같습니다. 이렇게 하면 AI 가 장면을 더 정확하게 이해하게 됩니다.

3. 구조 토큰 고정: "설명과 장면을 정확히 매칭하기"

마지막으로, AI 가 만든 설명 (의미) 과 비디오의 실제 시간대를 정확하게 연결합니다.

  • 비유: "이 설명이 1 분 20 초부터 1 분 45 초까지의 영상과 딱 맞아떨어진다"는 것을 수학적으로 증명하여, 그 구간을 정확히 잘라냅니다.

🌟 왜 이 방식이 더 좋을까요?

  1. 이해력이 더 좋습니다: 숫자를 맞추는 기계가 아니라, 무슨 일이 일어나는지 이해하는 AI가 되므로, 새로운 상황에서도 잘 작동합니다 (Zero-shot 성능).
  2. 오류가 적습니다: 숫자만 외우면 1 초 차이에도 엉뚱한 장면을 잘라낼 수 있지만, 내용을 이해하고 자르므로 훨씬 정확합니다.
  3. 다양한 일에 쓸 수 있습니다: 단순히 장면을 찾는 것뿐만 아니라, 요약, 질문 답변, 하이라이트 추출 등 다양한 작업을 하나의 방식으로 해결할 수 있습니다.

📝 한 줄 요약

기존의 AI 가 **"숫자만 보고 자르는 가위"**였다면, 이 새로운 MeCo는 **"비디오의 내용을 먼저 이해하고 설명한 뒤, 정확한 장면을 찾아내는 똑똑한 편집자"**입니다.

이 기술은 비디오를 분석할 때 AI 가 가진 '지식'과 '이해력'을 최대한 활용하여, 더 정확하고 똑똑한 비디오 검색을 가능하게 해줍니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →