Occlusion-Aware SORT: Observing Occlusion for Robust Multi-Object Tracking

이 논문은 부분 가려짐으로 인한 위치 비용 혼란을 해결하기 위해 가려짐 상태 분석, 오프셋 보정, 그리고 편향 감지 모멘텀을 결합한 'Occlusion-Aware SORT(OA-SORT)'라는 새로운 플러그인 및 학습 불필요 프레임워크를 제안하고, 다양한 데이터셋에서 기존 추적기들의 성능을 향상시키는 것을 입증합니다.

Chunjiang Li, Jianbo Ma, Li Shen, Yanru Chen, Liangyin Chen

게시일 2026-03-09
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 배경: 비디오 속의 혼란스러운 숨바꼭질

비디오에서 여러 사람을 추적하는 작업 (Multi-Object Tracking) 은 마치 복잡한 무도회장에서 여러 커플을 한 명도 놓치지 않고 따라가는 일과 같습니다.

하지만 문제는 **서로가 서로를 가리는 상황 (Occlusion)**입니다.

  • A 가 B 뒤에 숨으면, 카메라는 A 를 제대로 못 봅니다.
  • 이때 기존 추적 프로그램들은 "아, A 가 사라졌구나"라고 생각하거나, "저건 B 가 아니었나?"라고 헷갈려서 **실수 (ID Switch)**를 합니다.
  • 마치 가려진 사람을 찾으려다 다른 사람과 이름을 바꿔치기 하는 것과 같습니다.

💡 해결책: "OA-SORT" (가려짐을 아는 추적 시스템)

이 논문은 OA-SORT라는 새로운 시스템을 제안합니다. 이 시스템은 단순히 "사람이 어디 있나?"만 보는 게 아니라, **"누가 누구를 가리고 있나?"**를 먼저 파악하고 대응합니다.

이 시스템은 크게 세 가지 핵심 도구로 이루어져 있습니다.

1. OAM (가려짐 감지기): "누가 누구를 가리고 있나?"

  • 역할: 카메라 화면을 보며, "저기 A 가 B 뒤에 숨었구나. A 의 30% 는 가려져 있네"라고 정확히 계산합니다.
  • 재미있는 비유: 마치 투명한 유리에 그려진 그림을 상상해 보세요. 보통은 유리에 그려진 그림 (배경) 까지 다 포함해서 가려진 정도를 재지만, 이 시스템은 유리 중앙의 그림 (사람) 에만 집중하고 가장자리의 배경 잡음은 무시합니다. 이를 통해 "진짜 가려진 정도"를 정확히 파악합니다.

2. OAO (가려짐 보정기): "가려졌을 때는 믿지 말자"

  • 역할: 가려진 상태에서는 카메라가 찍은 위치가 틀릴 확률이 높습니다. 이 시스템은 "아, 지금 가려졌으니 카메라가 찍은 위치는 믿을 수 없구나. 과거의 움직임을 더 믿자"라고 판단합니다.
  • 재미있는 비유: 안개 낀 날 운전을 한다고 상상해 보세요. 앞이 잘 안 보이면 (가려짐), 갑자기 핸들을 꺾지 않고 이전까지의 진행 방향을 더 신뢰하며 부드럽게 운전합니다. 이렇게 하면 갑자기 차가 튀거나 다른 차와 부딪히는 (ID 가 바뀌는) 일을 막을 수 있습니다.

3. BAM (오차 방지기): "잘못된 정보에 흔들리지 않기"

  • 역할: 가려진 상태에서 카메라가 엉뚱한 위치를 찍어올 때 (예: 가려진 사람의 발만 찍힘), 시스템이 그 엉뚱한 정보에 너무 큰 영향을 받지 않도록 조절합니다.
  • 재미있는 비유: 무거운 배를 생각하세요. 작은 파도 (잘못된 정보) 가 와도 배가 쉽게 흔들리지 않죠. 이 시스템은 가려진 상황에서도 추적기의 움직임이 너무 급격하게 변하지 않도록 무게추 (관성) 역할을 하여 안정성을 줍니다.

🏆 결과: 왜 이것이 중요한가?

이 시스템을 적용한 결과, DanceTrack이라는 춤추는 사람들이 많이 나오는 복잡한 비디오 데이터에서 기존 방식보다 훨씬 뛰어난 성능을 보였습니다.

  • 기존 방식: 사람들이 서로 뒤섞이면 "누가 누구지?"라고 헷갈려서 ID 를 자주 바꿉니다.
  • OA-SORT: "아, 지금 가려진 상태구나. 가려진 상태에서는 과거의 움직임을 더 믿고, 가려진 정도를 계산해서 위치를 보정하자"라고 생각하므로, 사람의 이름을 (ID) 잘 지켜냅니다.

🚀 요약: 이 기술의 핵심 가치

  1. 학습 불필요 (Training-free): 이 시스템은 별도의 복잡한 학습 과정 없이, 기존 추적 프로그램에 바로 끼워 넣을 수 있는 (Plug-and-play) 도구입니다.
  2. 범용성: 춤추는 사람들, 스포츠 경기, 길거리 보행자 등 어떤 상황에서도 서로 가려지는 문제를 해결해 줍니다.
  3. 현실적인 접근: "가려짐"이라는 문제를 무시하거나 복잡하게 모델링하는 대신, "누가 누구를 가리고 있는지"를 직관적으로 파악하여 해결책을 제시했습니다.

한 줄 요약:

"비디오 속의 숨바꼭질에서, 가려진 사람을 찾으려다 이름을 헷갈리지 않도록 '누가 누구를 가리고 있는지'를 먼저 파악하는 똑똑한 감시관 시스템을 만들었습니다."