Motion-Aware Transformer for Multi-Object Tracking

이 논문은 단일 트랜스포머 디코더 레이어 내에서의 쿼리 충돌 문제를 해결하기 위해 프레임 간 객체 운동을 명시적으로 예측하여 트랙 쿼리를 사전에 업데이트하는 '모션 인식 트랜스포머 (MATR)'를 제안함으로써, 추가 데이터 없이도 DanceTrack, SportsMOT, BDD100k 등 다양한 벤치마크에서 최첨단 성능을 달성한 다중 객체 추적 모델을 소개합니다.

Xu Yang, Gady Agam

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎥 영상 속 여러 물체를 쫓는 '지능형 추적자' 이야기: MATR

이 논문은 비디오 속 여러 물체 (사람, 자동차, 공 등) 를 실시간으로 찾아내고, 누가 누구인지 계속 기억해내는 '다중 객체 추적 (Multi-Object Tracking)' 기술을 다루고 있습니다. 기존 기술들의 한계를 깨고, 훨씬 더 똑똑하고 정확한 새로운 방법인 **MATR(Motion-Aware Transformer)**을 소개합니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 기존 기술의 문제: "혼란스러운 교실" 🏫

기존의 최신 추적 기술 (MOTR 등) 은 마치 한 반에 앉아 있는 학생들과 비슷합니다.

  • 상황: 선생님이 (신경망) 교실 전체를 한 번에 스캔하면서, "누가 누구인지"와 "무엇을 하고 있는지"를 동시에 파악하려고 합니다.
  • 문제: 교실에는 '새로 들어온 학생 (새로운 물체)'과 '이미 자리 잡고 있는 학생 (이전 프레임의 물체)'이 섞여 있습니다.
    • 기존 방식은 이들을 **같은 책상 (레이어)**에서 동시에 처리하려다 보니, **혼란 (Query Collision)**이 생깁니다.
    • 예시: A 학생이 자리에서 일어나 B 학생 옆으로 이동했다고 칩시다. 기존 시스템은 "아, 저건 B 학생이겠지?"라고 잘못 판단해서, A 학생의 이름을 B 학생에게 붙여버립니다 (신원 도용).
    • 그 결과, 물체가 빠르게 움직이거나 가려질 때 (예: 춤추는 사람, 스포츠 경기), 시스템은 "누가 누구지?"라며 길을 잃고 추적 실패를 겪습니다.

2. MATR 의 해결책: "미래를 내다보는 예지력" 🔮

이 논문이 제안한 MATR은 이 문제를 해결하기 위해 **"움직임을 미리 예측하는 능력"**을 추가했습니다.

  • 핵심 아이디어: "지금 여기 있는 물체가 다음 순간 어디로 갈지 미리 계산해서, 추적 대상 (쿼리) 을 미리 그 위치로 이동시켜라!"
  • 비유:
    • 기존 방식: 공이 날아오면 눈으로 보고 "아, 공이 여기 있네!"라고 확인한 뒤 이름을 붙입니다. 공이 너무 빨리 움직이면 눈이 따라가지 못해 이름을 잃어버립니다.
    • MATR 방식: 공이 날아갈 궤적을 미리 계산합니다. "공은 0.5 초 뒤 저기 저 나무 뒤에 있을 거야!"라고 예측하고, 추적 담당자를 미리 그 나무 옆으로 보냅니다.
    • 그래서 공이 실제로 그 위치에 도착했을 때, 추적 담당자는 이미 준비되어 있어 "오, 공이 왔네!"라고 바로 이름을 붙일 수 있습니다.

3. MATR 이 어떻게 작동할까? 🛠️

이 기술은 **MAT(Motion-Aware Transformer)**라는 특별한 모듈을 사용합니다.

  1. 기억력 활용: 이전 프레임에서 물체가 어디 있었는지 기억합니다.
  2. 미래 예측: 현재 영상의 특징을 보고, "다음 프레임에서는 물체가 이쪽으로 움직일 거야"라고 위치와 모양을 미리 수정합니다.
  3. 부드러운 연결: 이렇게 미리 조정된 상태로 신경망의 다음 단계로 넘어가므로, 물체가 빠르게 움직여도 "누가 누구인지"가 끊기지 않습니다.

기존 방식은 물체가 움직인 뒤 "아, 저기 있네!"라고 뒤늦게 찾는 반면, MATR 은 "다음에 저기로 갈 거야"라고 미리 기다려주는 것입니다.

4. 실제 성과: 춤, 스포츠, 도로에서 🕺⚽🚗

이 기술은 매우 어려운 세 가지 환경에서 시험되었습니다.

  • 댄스트랙 (DanceTrack): 사람들이 춤을 추며 서로 겹치고 빠르게 움직이는 상황.
    • 결과: 기존 최고 기술보다 9 점 이상 더 높은 점수를 받았습니다. 마치 춤추는 사람들 사이를 헤매지 않고, 각자의 파트너를 정확히 따라가는 댄스 파트너가 된 셈입니다.
  • 스포츠 MOT (SportsMOT): 축구나 농구 경기처럼 공과 선수들이 빠르게 오가는 상황.
    • 결과: 외부 데이터를 쓰지 않아도 **최고 기록 (SOTA)**을 경신했습니다.
  • BDD100k (도로 영상): 차, 사람, 자전거 등 다양한 물체가 섞인 복잡한 도로.
    • 결과: 여러 종류의 물체를 동시에 추적할 때도 가장 좋은 성능을 보여주었습니다.

5. 결론: 왜 이 기술이 중요한가? 🌟

이 논문은 "물체를 찾는 것 (검출)"만큼이나 "누가 누구인지 기억하는 것 (추적)"이 중요하다는 점을 증명했습니다.

기존에는 물체를 잘 찾는 데만 집중하다가, 추적 과정에서 혼란이 생기는 것을 간과했습니다. 하지만 MATR은 "움직임을 미리 예측한다"는 간단한 아이디어로 이 혼란을 해결했습니다.

한 줄 요약:

"물체가 어디로 갈지 미리 예측해서, 추적자가 길을 잃지 않도록 미리 안내해 주는 똑똑한 시스템"

이 기술은 앞으로 자율주행차, 보안 카메라, 스포츠 분석 등 다양한 분야에서 더 정확하고 안정적인 영상 분석을 가능하게 할 것입니다.