VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos

이 논문은 긴 비디오 이해에서 기존 균일 샘플링의 한계를 극복하고, 국소화 및 답변을 통합적으로 모델링하는 새로운 에이전트 사고 프레임워크인 'VideoTemp-o3'를 제안하여, 정밀한 시간적 국소화와 고품질 데이터 구축을 통해 성능을 획기적으로 향상시킨다고 요약할 수 있습니다.

Wenqi Liu, Yunxiao Wang, Shijie Ma, Meng Liu, Qile Su, Tianke Zhang, Haonan Fan, Changyi Liu, Kaiyu Jiang, Jiankang Chen, Kaiyu Tang, Bin Wen, Fan Yang, Tingting Gao, Han Li, Yinwei Wei, Xuemeng Song

게시일 2026-03-04
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

비디오를 보고 생각하며 답하는 'VideoTemp-o3' 설명

이 논문은 **"긴 영상을 볼 때, AI 가 어떻게 똑똑하게 핵심 부분만 찾아서 정답을 낼 수 있을까?"**라는 문제를 해결한 새로운 방법, VideoTemp-o3를 소개합니다.

기존의 AI 는 긴 영상을 볼 때 마치 모든 장면을 똑같은 간격으로 빠르게 훑어보는 (Uniform Sampling) 사람과 같았습니다. 문제는 중요한 순간이 그 '훑어보기' 사이에서 놓쳐버릴 수 있다는 점입니다. 마치 책 전체를 빠르게 넘기다가 정답이 있는 페이지를 건너뛰는 것과 비슷하죠.

이 문제를 해결하기 위해 등장한 VideoTemp-o3 는 마치 현명한 탐정처럼 행동합니다.


1. 기존 방식 vs 새로운 방식: "모두 훑기" vs "탐정처럼 찾기"

  • 기존 방식 (비효율적인 훑어보기):
    긴 영상을 볼 때 AI 는 컴퓨터 성능을 아끼려고 영상을 100 장 중 10 장만 골라 봅니다. 하지만 정답이 있는 11 번째 장면을 놓치면, AI 는 엉뚱한 답을 말하거나 "모르겠다"고 합니다.

  • VideoTemp-o3 의 방식 (지능형 탐정):
    이 AI 는 영상을 처음부터 끝까지 다 보지 않습니다. 대신 질문을 듣고 **"어? 이 부분에서 답이 나올 것 같은데?"**라고 추측합니다.

    1. 예상 구간 찾기: 영상 전체를 빠르게 훑어보며 "아마도 3 분 10 초부터 3 분 20 초 사이일 거야"라고 대략적인 범위를 잡습니다.
    2. 클립 자르기 (Crop): 그 구간만 잘라내어 확대해 봅니다.
    3. 생각하며 답하기 (Thinking): 잘라낸 부분을 자세히 보고 답을 찾습니다. 만약 답이 안 나오면, **"아, 내가 잘못 찾았네. 다시 5 분 구간을 찾아보자"**라고 스스로 반성하고 다시 찾습니다.

이 과정을 **"탐정처럼 생각하며 영상 보기 (Thinking-with-Videos)"**라고 부릅니다.


2. VideoTemp-o3 의 핵심 능력 3 가지

이 모델은 세 가지 특별한 능력을 갖추고 있습니다.

① 필요할 때만 자르기 (On-demand Clipping)

  • 비유: 요리할 때 모든 재료를 다 썰지 않고, 레시피에 필요한 것만 썰는 것과 같습니다.
  • 설명: 영상이 짧고 답이 명확하면 바로 답을 냅니다. 하지만 영상이 길고 복잡하면, AI 가 스스로 "이제 잘라봐야겠다"라고 판단하여 필요한 부분만 잘라냅니다. 불필요한 계산을 아껴줍니다.

② 실수하면 다시 찾기 (Reflection Mechanism)

  • 비유: 길을 찾다가 헤매면 지도를 다시 보고 "아, 내가 잘못 들어갔네. 다시 출발하자"라고 말하는 것과 같습니다.
  • 설명: 처음에 찾은 구간이 틀렸을 때, AI 는 "이건 답이 아니야"라고 스스로 깨닫고 다시 더 정확한 구간을 찾아냅니다. 여러 번 시도하며 정답에 가까워집니다.

③ 한 몸으로 두 가지 일 하기 (Unified Framework)

  • 비유: 한 명의 요리사가 '재료 찾기'와 '요리하기'를 동시에 잘하는 것과 같습니다.
  • 설명: 보통은 '장면 찾기'를 하는 AI 와 '질문 답하기'를 하는 AI 가 따로 있었습니다. 하지만 VideoTemp-o3 는 이 두 가지를 하나로 합쳐서, 장면을 찾을 때부터 답을 생각하며 훈련합니다. 그래서 더 자연스럽게 행동합니다.

3. 어떻게 가르쳤을까? (훈련 방법)

AI 를 똑똑하게 만들기 위해 두 가지 특별한 훈련을 시켰습니다.

  • 스승의 눈으로 가르침 (SFT - 지도 학습):
    AI 가 처음에는 엉뚱한 장면을 찾을 수도 있습니다. 이때는 처음의 추측은 무시하고, 마지막에 정답을 낸 부분만 칭찬합니다. (마치 학생이 시험을 풀다가 중간에 실수해도, 최종 정답이 맞으면 점수를 주는 것과 비슷합니다.) 이렇게 하면 AI 가 "중간 과정은 헛수고일 수 있지만, 최종 목표는 정답이다"라고 배우게 됩니다.

  • 보상 게임 (RL - 강화 학습):
    AI 가 정답을 맞출 때만 점수를 주고, 엉뚱한 구간을 자르거나 형식을 틀리게 하면 벌점을 줍니다. 특히 **"점수만 따기 위해 아무 구간이나 자르는 것 (Reward Hacking)"**을 막기 위해, 구간이 정확하지 않으면 점수를 깎는 규칙을 만들었습니다.


4. 데이터: 좋은 재료가 좋은 요리를 만든다

AI 가 잘하려면 좋은 학습 데이터가 필요합니다. 연구팀은 긴 영상에서 정확한 시간과 정답이 매칭된 데이터를 직접 만들었습니다.

  • 비유: 요리사가 최고의 재료를 직접 선별하여 준비한 것과 같습니다.
  • 결과: 이 데이터를 통해 AI 는 긴 영상에서도 핵심을 빠르게 찾아내고 정확한 답을 낼 수 있게 되었습니다.

5. 결론: 왜 이것이 중요한가요?

VideoTemp-o3 는 긴 영상을 볼 때 인간처럼 '생각'하고 '행동'하는 AI의 첫걸음입니다.

  • 기존: "영상 전체를 다 봐야지!" (시간과 비용 낭비)
  • VideoTemp-o3: "여기서 답이 나올 것 같아. 여기만 자세히 보자. 아, 아니네? 저기로 가자. 오, 여기다! 정답은 B!"

이 기술은 앞으로 긴 교육 영상 분석, 뉴스 검색, 혹은 복잡한 사건을 추적하는 등 긴 영상을 다뤄야 하는 모든 분야에서 AI 의 능력을 획기적으로 높여줄 것으로 기대됩니다.