Beyond Caption-Based Queries for Video Moment Retrieval

이 논문은 캡션 기반 쿼리로 훈련된 기존 비디오 모멘트 검색 모델이 검색 쿼리 환경에서 성능이 저하되는 원인을 분석하고, '액티브 디코더 쿼리 붕괴' 문제를 해결하기 위해 아키텍처를 개선하여 검색 쿼리, 특히 다중 모멘트 검색에서 성능을 크게 향상시켰음을 보여줍니다.

David Pujol-Perich, Albert Clapés, Dima Damen, Sergio Escalera, Michael Wray

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: "완벽한 레시피"만 가르친 요리사

지금까지 개발된 비디오 검색 기술들은 **'캡션 (자막)'**이라는 데이터를 기반으로 훈련되었습니다.

  • 현재 방식: 사람이 비디오를 다 본 뒤, "노란색 유니폼을 입은 남자가 골키퍼를 제치고 강력한 발사로 골을 넣는 장면"처럼 매우 상세하고 구체적인 설명을 적어줍니다.
  • 실제 사용자: 하지만 실제 사용자가 검색창에 입력하는 말은 훨씬 더 단순하고 모호합니다. 예를 들어, **"골이 들어간 순간은 언제야?"**라고 묻습니다.

비유하자면:

한 요리사 (AI) 가 "빨간 토마토 2 개, 다진 마늘 3 쪽, 올리브 오일 1 큰술을 넣고 5 분간 볶아주세요"라는 정확한 레시피만 보고 요리를 배웠습니다.
그런데 손님이 와서 **"음식 좀 만들어줘"**라고만 말하면, 요리사는 당황해서 무엇을 만들어야 할지 모릅니다. 손님의 요청은 너무 포괄적이기 때문입니다.

이 논문은 기존 기술이 **"너무 구체적인 설명 (캡션)"**에만 익숙해져서, **"모호한 검색어"**를 처리할 때 성능이 급격히 떨어진다는 것을 발견했습니다.

2. 발견: 두 가지 큰 장벽

연구진은 기존 기술이 실패하는 두 가지 주요 원인을 찾아냈습니다.

  1. 언어 간극 (Language Gap):
    • 설명이 너무 구체적일 때와 너무 일반적일 때의 언어 차이가 너무 큽니다. AI 는 "노란 유니폼"이라는 단어를 찾아야 하는데, 사용자는 그냥 "축구"라고만 말하기 때문입니다.
  2. 다중 장면 간극 (Multi-moment Gap) - 가장 큰 문제:
    • 현재 데이터: 하나의 질문에는 하나라도 정답이 딱 하나 있습니다. (예: "골 넣은 장면" = 1 개)
    • 실제 상황: 하나의 질문에는 정답이 여러 개일 수 있습니다. (예: "골 넣은 장면" = 경기 내내 5 번이나 일어남)
    • 비유: 요리사가 "오븐을 켜는 장면"을 찾아야 하는데, 비디오 안에 오븐을 켜는 장면이 5 개나 있는데, AI 는 **"정답은 딱 하나뿐이야"**라고 배워서 5 개 중 1 개만 찾으려다 실패하는 것입니다.

3. 원인: "잠자는 탐정"들 (Query Collapse)

이 기술의 핵심인 'DETR'이라는 AI 구조는 비디오를 분석할 때 여러 개의 **'탐정 (Decoder Queries)'**을 보내서 장면을 찾습니다.

  • 문제: 현재 AI 는 "정답은 하나뿐"이라고 배워서, 대부분의 탐정들이 "나는 필요 없어"라고 자진해서 잠들어버립니다. (Active decoder-query collapse)
  • 결과: 정답이 5 개인데, 잠든 탐정들이 4 명이나 있어서 1 명만 찾아낼 수 있습니다. 나머지 4 개는 놓쳐버리는 것이죠.

4. 해결책: 잠자는 탐정들을 깨우는 방법

저자들은 새로운 데이터를 만들지 않고, AI 의 구조를 조금만 고쳐서 이 문제를 해결했습니다.

  1. 서로 말하지 않게 하기 (Self-Attention 제거):
    • 기존에는 탐정들이 서로 "너가 찾으러 가, 나는 안 할게"라고 상의하며 역할을 나누었습니다. 하지만 정답이 여러 개인 상황에서는 이 상의가 방해가 됩니다. 그래서 탐정들이 각자 독립적으로 행동하도록 했습니다.
  2. 랜덤하게 깨우기 (Query Dropout):
    • 훈련할 때 일부 탐정들을 강제로 잠들게 하거나 깨우게 하여, **"누가 정답을 찾을지 모른다"**는 상황을 만들어 AI 가 모든 탐정을 골고루 쓰도록 훈련시켰습니다.

비유하자면:

"정답은 하나야"라고 생각하며 5 명 중 1 명만 일하게 하던 팀을, **"정답이 여러 개일 수도 있으니, 모두 깨어나서 열심히 찾아봐!"**라고 지시한 것입니다.

5. 결과: 실전 성능의 비약적 상승

이 간단한 구조 변경만으로도, AI 는 모호한 검색어 ("골이 들어간 순간") 에 대해 정답을 5 개 모두 찾아내는 능력이 크게 향상되었습니다.

  • 기존 방식보다 검색 정확도가 최대 21% 이상 향상되었습니다.
  • 더 이상 "완벽한 설명"이 없어도, 사용자가 **"무언가 찾아줘"**라고만 해도 제대로 된 장면을 찾아냅니다.

요약

이 논문은 **"AI 가 학교 (데이터) 에서 배운 것 (정교한 설명) 과 실제 사회 (사용자의 검색) 가 너무 달라서 실패한다"**는 문제를 지적했습니다. 그리고 새로운 데이터를 만드는 비싼 비용 없이, AI 의 '사고방식 (구조)'을 조금만 바꿔주면 AI 가 훨씬 더 똑똑하고 유연하게 변할 수 있음을 증명했습니다.

이제 비디오 검색 기술도 **"너무 구체적인 설명"**이 없어도, **"대충의 느낌"**만으로도 원하는 장면을 찾아낼 수 있게 된 것입니다.