OmniTracker: Unifying Object Tracking by Tracking-with-Detection

이 논문은 검출과 추적을 상호 보완적으로 결합한 '추적-검출 (Tracking-with-Detection)' 패러다임을 제안하여, 기존에 분리되어 있던 인스턴스 및 카테고리 추적 작업을 단일 공유 네트워크 아키텍처로 통합하고 성능을 향상시킨 OmniTracker 를 소개합니다.

Junke Wang, Zuxuan Wu, Dongdong Chen, Chong Luo, Xiyang Dai, Lu Yuan, Yu-Gang Jiang

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎥 올니트래커 (OmniTracker): "한 번에 모든 걸 따라잡는 만능 추적기"

이 논문은 컴퓨터 비전 분야에서 비디오 속의 물체를 추적하는 기술을 혁신적으로 바꾼 새로운 방법론을 소개합니다. 기존에는 추적할 물체의 종류나 상황에 따라 서로 다른 '전문가'들이 필요했지만, 이 연구는 **한 명의 '만능 추적기'**로 모든 상황을 해결할 수 있음을 증명했습니다.

이 복잡한 기술을 쉽게 이해할 수 있도록 비유를 섞어 설명해 드릴게요.


1. 문제 상황: "왜 전문가가 여럿이 필요한가요?"

기존의 추적 기술은 크게 두 부류로 나뉘어 있었습니다. 마치 스튜디오경찰서가 서로 다른 일을 하는 것과 같습니다.

  • 인스턴스 추적 (SOT, VOS): "저기 있는 특정 사람을 계속 따라가줘."

    • 예시: 첫 번째 프레임에서 '강아지'를 지정하면, 그 강아지만 계속 찾아야 합니다.
    • 기존 방식 (추적-as-탐지): 추적기가 "아마 저기 있을 거야"라고 검색 영역을 좁혀서 탐지기에게 "여기서 강아지 찾아줘!"라고 시켰습니다.
    • 단점: 강아지가 갑자기 멀리 도망가거나 가려지면, 검색 영역이 틀려서 강아지를 놓쳐버립니다.
  • 카테고리 추적 (MOT, VIS): "이 비디오에 있는 모든 사람과 차를 다 찾아서 번호를 매겨줘."

    • 기존 방식 (탐지-as-추적): 탐지기가 "사람, 사람, 차, 사람..."이라고 모든 것을 일일이 찾아낸 뒤, 추적기가 "아, 이 사람과 저 사람은 같은 사람이네?"라고 연결했습니다.
    • 단점: 탐지기가 실수하면 (예: 가려져서 못 찾으면), 추적기는 그 사람을 영원히 잃어버립니다.

핵심 문제: 두 방식이 서로 다른 '전문가'를 필요로 하므로, 컴퓨터는 두 개의 두뇌를 동시에 훈련시켜야 했고, 이는 시간과 비용의 낭비였습니다.


2. 해결책: "상호작용하는 만능 추적기 (OmniTracker)"

이 논문은 "추적 (Tracking)"과 "탐지 (Detection)"가 서로 돕는 새로운 방식을 제안합니다. 이를 **'추적-with-탐지 (Tracking-with-Detection)'**라고 부릅니다.

🧩 비유: "명탐정과 수사관"

기존 방식은 명탐정이 수사관에게 "여기서 범인 찾아줘"라고 지시하거나, 수사관이 범인을 다 찾아서 명탐정에게 "이게 범인일까요?"라고 물어보는 식이었습니다.

하지만 **올니트래커 (OmniTracker)**는 다음과 같이 작동합니다:

  1. 명탐정 (추적기) 이 과거의 기억을 제공합니다: "어제 범인이 입었던 옷과 이동 경로를 기억해. 이 정보를 탐지기에게 줘."
  2. 수사관 (탐지기) 이 전체 장면을 훑습니다: "알겠어! 과거의 기억 (옷차림, 이동 패턴) 을 바탕으로 화면 전체를 다시 한번 꼼꼼히 살펴볼게."
  3. 협력: 탐지기가 찾은 후보들을 명탐정이 "아, 이 옷차림이 맞네!"라고 확인하고 연결합니다.

이처럼 과거의 정보 (추적) 가 현재의 발견 (탐지) 을 돕고, 현재의 발견이 과거의 정보를 업데이트하는 선순환 구조를 만든 것입니다.


3. 핵심 기술: "RFE 모듈" (기억을 보강하는 안경)

이 시스템의 핵심은 RFE (Reference-guided Feature Enhancement) 모듈입니다.

  • 비유: 마치 안경을 끼는 것과 같습니다.
    • 기존 탐지기는 안경 없이 어두운 방을 비추는 손전등처럼, 가려진 물체나 빠르게 움직이는 물체를 놓치기 쉽습니다.
    • RFE 모듈은 "과거에 본 물체의 모습 (참조 프레임)"을 안경 렌즈처럼 탐지기에 씌워줍니다.
    • 이제 탐지기는 "아, 저게 가려져서 잘 안 보이지만, 과거에 본 모습과 비슷하니까 저게 맞구나!"라고 추론할 수 있게 됩니다.

이 덕분에 한 번의 모델로 '특정 물체 추적'과 '모든 물체 추적'을 모두 완벽하게 수행할 수 있게 되었습니다.


4. 성과: "한 번에 모든 걸 해내다"

연구팀은 이 모델을 7 개의 주요 추적 데이터셋 (LaSOT, MOT17, YTVIS 등) 에서 테스트했습니다.

  • 결과: 기존에 각 작업별로 따로 훈련된 최고 성능의 모델들과 비교해도 동급이거나 더 좋은 결과를 냈습니다.
  • 장점:
    • 효율성: 여러 개의 모델을 따로 훈련할 필요가 없어졌습니다. (비용 절감)
    • 유연성: 갑자기 가려지거나 (Occlusion), 빠르게 움직여도 (Fast Motion) 과거 정보를 활용해 물체를 잘 찾아냅니다.
    • 정확도: 특히 물체가 가려지거나 빠르게 움직일 때, 기존 방식보다 훨씬 견고하게 추적합니다.

5. 결론: "AI 의 미래는 통합이다"

이 논문은 **"인간은 하나의 뇌로 다양한 상황을 처리하는데, 왜 AI 는 여러 개의 전문 모델을 써야 하는가?"**라는 질문에서 시작했습니다.

올니트래커는 추적과 탐지가 서로 협력하는 새로운 패러다임을 제시함으로써, 더 똑똑하고 효율적인 AI 를 만들 수 있음을 증명했습니다. 앞으로는 자율주행차나 보안 시스템 등에서, 복잡한 상황에서도 물체를 놓치지 않는 완벽한 추적 시스템을 구현하는 데 큰 기여를 할 것으로 기대됩니다.

한 줄 요약:
"과거의 기억으로 현재의 눈을 밝게 하고, 현재의 발견으로 과거의 기억을 업데이트하는 만능 추적기를 만들어, 모든 비디오 추적 문제를 하나로 해결했습니다!"