Rethinking Two-Stage Referring-by-Tracking in Referring Multi-Object Tracking: Make it Strong Again

이 논문은 기존 2 단계 참조 기반 객체 추적 (RBT) 프레임워크의 한계를 극복하기 위해 샘플링 기반 특징 구성과 능동적 대응 모델링을 도입한 'FlexHook'을 제안하여, 단일 단계 방법들을 포괄적으로 능가하는 새로운 성능 기준을 제시합니다.

Weize Li, Yunhao Du, Qixiang Yin, Zhicheng Zhao, Fei Su

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 배경: "누가 누구를 쫓고 있을까?"

비디오 속에는 수많은 사람과 차가 움직입니다. 우리는 **"왼쪽에서 빨간 옷을 입은 사람"**이나 **"우회전하는 차"**처럼 언어로 특정 대상을 지시할 수 있습니다. 컴퓨터가 이 지시를 듣고, 그 대상이 비디오 전체에서 어떻게 움직이는지 계속 따라가야 하는 것이 RMOT입니다.

지금까지 두 가지 방식이 있었어요:

  1. 한 번에 해결하는 방식 (One-stage): 탐지, 추적, 언어 이해를 한 번에 다 하는 거예요. 성능은 좋지만, 훈련하는 데 돈과 시간이 너무 많이 들고, 나중에 새로운 기능을 추가하기가 어렵습니다.
  2. 두 단계로 나누는 방식 (Two-stage): 먼저 "누가 어디에 있는지"를 찾는 추적기를 따로 쓰고, 그 결과만 받아와서 "언어와 매칭"을 시키는 방식입니다. 훈련 비용이 싸고, 기존 추적기에 쉽게 붙여 쓸 수 있다는 장점이 있지만, 성능이 너무 낮아 사람들이 점점 외면하고 있었습니다.

이 논문은 **"두 단계 방식도 다시 강력하게 만들 수 있다!"**라고 외치며 FlexHook을 제안합니다.


🪝 FlexHook 의 핵심 아이디어: "후크 (Hook) 를 꽂다"

컴퓨터 프로그래밍에서 '후크 (Hook)'는 기존 시스템의 흐름을 멈추지 않고, 특정 지점에 데이터를 가져오거나 추가하는 기능을 말합니다. FlexHook 은 마치 기존 추적기의 흐름을 방해하지 않으면서, 필요한 정보만 '후크'로 낚아채는 기술입니다.

1. 문제점 1: "너무 단순한 특징 찾기" (Overly Heuristic Feature Construction)

  • 기존 방식: 추적된 대상 (예: 빨간 차) 을 잘라내어 다시 이미지 전체와 함께 분석하는 식이었습니다. 마치 이미지 전체를 한 번 보고, 또다시 잘린 조각을 따로 보는 것처럼 비효율적이고, 언어 (예: "빨간 차") 에 따라 집중해야 할 부분이 달라지는 것을 고려하지 못했습니다.
  • FlexHook 의 해결책 (C-Hook):
    • 비유: 기존 방식이 "사진을 복사해서 잘라내어 다시 분석하는" 거라면, FlexHook 은 원본 사진 (비디오) 에서 필요한 부분만 실시간으로 '샘플링'해 오는 것입니다.
    • 언어 조건부 후크: "빨간 차"라고 하면 빨간색에 집중하고, "왼쪽 차"라고 하면 왼쪽에 집중하도록, 언어 정보에 따라 시선을 자동으로 조절하는 '조건부 후크'를 도입했습니다.

2. 문제점 2: "약한 연결 고리" (Fragile Correspondence Modeling)

  • 기존 방식: 언어와 영상을 비교할 때, 미리 학습된 거대 모델 (CLIP) 의 '유사도 점수'만 믿었습니다. 마치 사전의 정의만 믿고 두 단어가 같은지 판단하는 것과 비슷합니다. 하지만 비디오의 복잡한 상황 (예: "왼쪽으로 도는 차") 은 사전 정의만으로는 해결하기 어렵습니다.
  • FlexHook 의 해결책 (PCD):
    • 비유: 단순히 "이게 저것과 비슷한가?"라고 묻는 대신, **직접 "이 언어와 이 영상은 정말 짝이 맞나?"라고 쌍으로 심사 (Pairwise Correspondence)**하는 새로운 심사위원을 세웠습니다.
    • 결과: 사전 (CLIP) 에 의존하지 않아도 되므로, 훨씬 더 유연하고 정확한 판단이 가능해졌습니다.

🚀 FlexHook 이 가져온 변화

이 새로운 방식은 기존에 "두 단계 방식은 성능이 낮다"는 편견을 깨뜨렸습니다.

  1. 성능 대폭 향상: 기존에 가장 성능이 좋다고 알려진 한 번에 해결하는 방식 (One-stage) 들을 능가하거나, 최소한 그 수준에 도달했습니다. 특히 Refer-KITTI 같은 자율주행 데이터셋에서 기존 두 단계 방식보다 HOTA 점수 (추적 정확도) 가 10.32 에서 42.53 으로 4 배 이상 급상승했습니다.
  2. 비용 절감: 복잡한 훈련 과정이 필요 없어 훈련 시간이 훨씬 짧고, 기존에 만든 추적기에 쉽게 추가할 수 있어 실제 적용 (인프라 확장) 이 매우 빠릅니다.
  3. 유연성: 어떤 카메라, 어떤 추적기를 쓰든 FlexHook 을 '후크'처럼 끼워만 넣으면 바로 작동합니다.

💡 한 줄 요약

"기존의 값비싼 '한 번에 해결' 방식 대신, 저렴하고 빠른 '두 단계' 방식을 똑똑하게 업그레이드해서, 언어로 지시한 대상을 더 빠르고 정확하게 쫓아내게 만든 기술입니다."

이 기술은 앞으로 자율주행차나 보안 카메라 등에서 **"저기 있는 빨간 차 멈춰!"**라고 말하면, 그 차를 정확히 찾아서 계속 따라가는 시스템을 만드는 데 큰 역할을 할 것으로 기대됩니다.