ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking

이 논문은 기존 MOT 의 시야각 제한을 극복하고 장기 언어 설명 이해 능력을 향상시키기 위해 전방향 영상을 기반으로 한 새로운 작업인 '전방향 참조 다중 객체 추적 (ORMOT)'을 제안하고, 이를 위한 ORSet 데이터셋과 대규모 시계 언어 모델 (LVLM) 기반의 ORTrack 프레임워크를 소개합니다.

Sijia Chen, Zihan Zhou, Yanqiu Yu, En Yu, Wenbing Tao

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 1. 문제 상황: "좁은 창문 밖만 보는 경비원"

기존의 영상 추적 기술 (MOT) 은 마치 좁은 창문을 통해 밖을 내다보는 경비원 같아요.

  • 기존 방식 (RMOT): "저기 계단으로 올라가는 사람"이라고 말하면, 경비원은 창문 안에 보이는 사람만 쫓아갑니다.
  • 한계: 만약 사람이 문을 열고 계단으로 올라가는 긴 과정을 추적해야 한다면? 사람이 창문 밖으로 나가면 경비원은 "아, 저 사람이 사라졌네?"라고 생각해서 추적을 포기하거나, 문이 보이지 않아서 "누가 문을 열었는지" 모르고 그냥 계단으로 올라가는 모든 사람을 다 추적해버립니다.
  • 결과: 중요한 맥락 (문 열기) 을 놓치고, 엉뚱한 사람을 쫓게 되는 실수가 생깁니다.

🌍 2. 새로운 해결책: "360 도 회전하는 망원경"

이 논문은 이 문제를 해결하기 위해 **360 도 파노라마 카메라 (오므니디렉셔널)**를 도입했습니다.

  • 비유: 좁은 창문 대신 **구형의 유리 공 (360 도 카메라)**을 들고 주변을 빙글빙글 돌며 모든 방향을 한눈에 보는 것입니다.
  • 효과: 사람이 문을 열고 계단을 올라가도, 그 사람이 시야에서 사라지지 않습니다. "문을 열고 계단으로 올라가는 사람"이라는 긴 지시를 들었을 때, 문을 여는 순간부터 계단을 오르는 순간까지 모든 과정을 놓치지 않고 추적할 수 있게 됩니다.

📦 3. 새로운 도구 두 가지: "전용 지도"와 "똑똑한 비서"

저자들은 이 새로운 기술을 위해 두 가지 중요한 것을 만들었습니다.

① ORSet: "360 도 세상을 위한 전용 지도"

기존 데이터는 좁은 창문용이었지만, 이 새로운 데이터셋 (ORSet) 은 360 도 카메라로 찍은 27 개의 다양한 장면과 848 개의 언어 지시를 담고 있습니다.

  • 특별한 특징: 일반적인 데이터셋에는 없는 **'360 도 특화 설명'**이 포함되어 있습니다.
    • 예시: "왼쪽 끝에서 사라졌다가 오른쪽 끝에서 다시 나타났다" (원형 화면의 특성), "시계 3 시 방향으로 걸어가는 사람" (360 도 좌표계) 같은 설명들입니다.
    • 이는 AI 가 360 도 영상의 왜곡 (구부러진 도로 등) 을 이해하고, 사람과 공간의 관계를 정확히 파악하도록 도와줍니다.

② ORTrack: "언어를 이해하는 초지능 비서"

이제 이 지도를 읽을 **AI 모델 (ORTrack)**을 만들었습니다.

  • 기존 방식: "사람", "차"처럼 미리 정해진 이름만 알아보는 단순한 감시카메라.
  • ORTrack 방식: **거대 언어 모델 (LVLM)**을 기반으로 합니다. 마치 매우 똑똑한 비서처럼, "검은색 모자를 쓴 사람이 문을 열고 계단으로 올라가세요"라고 말하면, 그 복잡한 문장을 이해하고 영상 속 해당 인물을 찾아냅니다.
  • 특징: 미리 정해진 이름이 없어도, 자연어로 뭐든 지시하면 찾아냅니다. 또한, 360 도 영상의 왜곡을 보정하고, 사람이 화면 끝에서 다시 나타날 때 "아, 이 사람이 다시 돌아왔구나!"라고 알아맞힙니다.

🏆 4. 실험 결과: "완벽한 추적의 주인공"

이 새로운 방법 (ORTrack) 을 테스트해 보니, 기존 방법들보다 훨씬 잘 작동했습니다.

  • 정확도: "누가 문을 열고 계단으로 올라갔는지"를 정확히 찾아냈습니다.
  • 장기 추적: 사람이 화면을 왔다 갔다 하거나, 멀리서 가까이 오는 등 복잡한 상황에서도 "그 사람"이라는 정체성을 잃지 않고 계속 따라갔습니다.
  • 감정 이해: "기분 좋아서 기다리는 사람"처럼 추상적인 감정까지 언어로 지시하면, 그 표정을 가진 사람을 찾아내는 놀라운 능력도 보여주었습니다.

💡 5. 요약: 왜 이것이 중요한가요?

이 논문은 "좁은 창문 밖만 보는 시야"에서 "전방위적인 시야"로 AI 의 눈을 넓혀주었다는 점에서 의미가 큽니다.

  • 과거: "저기 있는 사람" (화면 중앙만 봄)
  • 현재: "문을 열고 계단으로 올라가는 사람" (전체 맥락과 360 도 공간 이해)

이 기술은 향후 자율주행차 (360 도 주변 인식), 스마트 시티 감시, 가상현실 (VR) 콘텐츠 등에서 훨씬 더 똑똑하고 정확한 AI 를 만드는 데 큰 발판이 될 것입니다. 마치 안경을 벗고 선명한 360 도 시야를 얻은 것처럼, AI 가 세상을 훨씬 더 넓고 깊게 이해하게 된 셈입니다.