ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking

Each language version is independently generated for its own context, not a direct translation.

🎬 1. 문제 상황: "좁은 창문 밖만 보는 경비원"

기존의 영상 추적 기술 (MOT) 은 마치 좁은 창문을 통해 밖을 내다보는 경비원 같아요.

기존 방식 (RMOT): "저기 계단으로 올라가는 사람"이라고 말하면, 경비원은 창문 안에 보이는 사람만 쫓아갑니다.
한계: 만약 사람이 문을 열고 계단으로 올라가는 긴 과정을 추적해야 한다면? 사람이 창문 밖으로 나가면 경비원은 "아, 저 사람이 사라졌네?"라고 생각해서 추적을 포기하거나, 문이 보이지 않아서 "누가 문을 열었는지" 모르고 그냥 계단으로 올라가는 모든 사람을 다 추적해버립니다.
결과: 중요한 맥락 (문 열기) 을 놓치고, 엉뚱한 사람을 쫓게 되는 실수가 생깁니다.

🌍 2. 새로운 해결책: "360 도 회전하는 망원경"

이 논문은 이 문제를 해결하기 위해 **360 도 파노라마 카메라 (오므니디렉셔널)**를 도입했습니다.

비유: 좁은 창문 대신 **구형의 유리 공 (360 도 카메라)**을 들고 주변을 빙글빙글 돌며 모든 방향을 한눈에 보는 것입니다.
효과: 사람이 문을 열고 계단을 올라가도, 그 사람이 시야에서 사라지지 않습니다. "문을 열고 계단으로 올라가는 사람"이라는 긴 지시를 들었을 때, 문을 여는 순간부터 계단을 오르는 순간까지 모든 과정을 놓치지 않고 추적할 수 있게 됩니다.

📦 3. 새로운 도구 두 가지: "전용 지도"와 "똑똑한 비서"

저자들은 이 새로운 기술을 위해 두 가지 중요한 것을 만들었습니다.

① ORSet: "360 도 세상을 위한 전용 지도"

기존 데이터는 좁은 창문용이었지만, 이 새로운 데이터셋 (ORSet) 은 360 도 카메라로 찍은 27 개의 다양한 장면과 848 개의 언어 지시를 담고 있습니다.

특별한 특징: 일반적인 데이터셋에는 없는 **'360 도 특화 설명'**이 포함되어 있습니다.
- 예시: "왼쪽 끝에서 사라졌다가 오른쪽 끝에서 다시 나타났다" (원형 화면의 특성), "시계 3 시 방향으로 걸어가는 사람" (360 도 좌표계) 같은 설명들입니다.
- 이는 AI 가 360 도 영상의 왜곡 (구부러진 도로 등) 을 이해하고, 사람과 공간의 관계를 정확히 파악하도록 도와줍니다.

② ORTrack: "언어를 이해하는 초지능 비서"

이제 이 지도를 읽을 **AI 모델 (ORTrack)**을 만들었습니다.

기존 방식: "사람", "차"처럼 미리 정해진 이름만 알아보는 단순한 감시카메라.
ORTrack 방식: **거대 언어 모델 (LVLM)**을 기반으로 합니다. 마치 매우 똑똑한 비서처럼, "검은색 모자를 쓴 사람이 문을 열고 계단으로 올라가세요"라고 말하면, 그 복잡한 문장을 이해하고 영상 속 해당 인물을 찾아냅니다.
특징: 미리 정해진 이름이 없어도, 자연어로 뭐든 지시하면 찾아냅니다. 또한, 360 도 영상의 왜곡을 보정하고, 사람이 화면 끝에서 다시 나타날 때 "아, 이 사람이 다시 돌아왔구나!"라고 알아맞힙니다.

🏆 4. 실험 결과: "완벽한 추적의 주인공"

이 새로운 방법 (ORTrack) 을 테스트해 보니, 기존 방법들보다 훨씬 잘 작동했습니다.

정확도: "누가 문을 열고 계단으로 올라갔는지"를 정확히 찾아냈습니다.
장기 추적: 사람이 화면을 왔다 갔다 하거나, 멀리서 가까이 오는 등 복잡한 상황에서도 "그 사람"이라는 정체성을 잃지 않고 계속 따라갔습니다.
감정 이해: "기분 좋아서 기다리는 사람"처럼 추상적인 감정까지 언어로 지시하면, 그 표정을 가진 사람을 찾아내는 놀라운 능력도 보여주었습니다.

💡 5. 요약: 왜 이것이 중요한가요?

이 논문은 "좁은 창문 밖만 보는 시야"에서 "전방위적인 시야"로 AI 의 눈을 넓혀주었다는 점에서 의미가 큽니다.

과거: "저기 있는 사람" (화면 중앙만 봄)
현재: "문을 열고 계단으로 올라가는 사람" (전체 맥락과 360 도 공간 이해)

이 기술은 향후 자율주행차 (360 도 주변 인식), 스마트 시티 감시, 가상현실 (VR) 콘텐츠 등에서 훨씬 더 똑똑하고 정확한 AI 를 만드는 데 큰 발판이 될 것입니다. 마치 안경을 벗고 선명한 360 도 시야를 얻은 것처럼, AI 가 세상을 훨씬 더 넓고 깊게 이해하게 된 셈입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

기존 한계: 기존 다중 객체 추적 (MOT) 및 언어 기반 참조 다중 객체 추적 (RMOT) 은 주로 일반 카메라 (제한된 시야각, FoV) 로 촬영된 데이터셋을 기반으로 합니다. 이로 인해 카메라가 이동하거나 객체가 프레임 밖으로 나가면 추적이 끊기거나 (fragmented tracking), "문을 열고 계단을 올라간다"와 같은 장거리 (long-horizon) 언어 설명을 이해하는 데 실패합니다.
핵심 문제: 제한된 시야각으로 인해 객체의 연속적인 운동과 맥락적 정보가 손실되어, 복잡한 언어 지시를 가진 객체를 정확하게 추적하고 식별하는 것이 어렵습니다.
제안: 이러한 한계를 극복하기 위해 전방향 (Omnidirectional, 360 도) 이미지를 활용한 새로운 작업인 전방향 참조 다중 객체 추적 (ORMOT, Omnidirectional Referring Multi-Object Tracking) 을 제안합니다.

2. 주요 기여 (Key Contributions)

이 논문은 크게 세 가지 주요 기여를 합니다:

새로운 작업 정의 (ORMOT):
- 기존 RMOT 를 전방향 이미지로 확장하여 시야각 (FoV) 제한을 해소하고, 장거리 언어 설명에 대한 모델의 이해 능력을 향상시킵니다.
- 전방향 카메라의 360 도 시야는 공간적 연속성을 보장하고, 객체 간의 관계 및 맥락을 포착하여 언어 이해도를 높입니다.
새로운 데이터셋 구축 (ORSet):
- ORSet (Omnidirectional Referring Multi-Object Tracking Dataset): JRDB 데이터를 기반으로 구축된 대규모 데이터셋입니다.
- 통계: 27 개의 다양한 전방향 장면, 848 개의 언어 설명, 3,401 개의 주석 객체 (Bounding Box 및 궤적) 를 포함합니다.
- 특징: 전방향 환경에 특화된 4 가지 유형의 설명을 포함합니다.
  - (a) 경계 횡단 운동 (왼쪽 끝에서 사라져 오른쪽 끝에서 재등장하는 현상).
  - (b) 원형 방향 단서 (시계 방향, 12 시 방향 등 360 도 좌표계 기반).
  - (c) 투영 왜곡 인식 (원근 왜곡으로 인해 실제 직선이 곡선으로 보이는 현상 보정).
  - (d) 시야 전환 마킹 (물리적 공간 탈출 vs 제한된 시야 탈출 구분).
새로운 프레임워크 제안 (ORTrack):
- LVLM 기반 프레임워크: 대규모 시각 - 언어 모델 (LVLM) 의 오픈 보카불러리 (open-vocabulary) 추론 능력을 활용하여 언어 설명에 기반한 객체 탐지 및 추적을 수행합니다.
- 특징: 사전 정의된 클래스에 국한되지 않고, 임의의 자연어 지시를 통해 제로샷 (zero-shot) 추적이 가능합니다.

3. 방법론 (Methodology: ORTrack)

ORTrack 프레임워크는 크게 세 단계로 구성됩니다 (그림 5 참조):

LVLM 을 통한 언어 기반 탐지 (Language-guided Detection):
- Qwen2.5-VL 과 같은 LVLM 을 사용하여 입력 프레임과 언어 설명을 결합합니다.
- 시각 인코딩, 언어 인코딩, 멀티모달 크로스 어텐션을 통해 언어와 시각 영역을 정렬하고, 해당 객체의 바운딩 박스를 예측합니다.
2 단계 크로핑 기반 특징 추출 (Two-stage Cropping-based Feature Extraction):
- 전방향 이미지의 왜곡과 넓은 시야를 고려하여 두 단계의 특징 추출을 수행합니다.
- 1 단계 (Global Context): 탐지된 박스를 확장하여 주변 맥락 정보를 포함하는 글로벌 영역을 잘라냅니다.
- 2 단계 (Fine-grained Local): 정확한 대상 영역을 잘라냅니다.
- 두 영역을 CLIP 비주얼 인코더에 통과시켜 특징을 생성한 후, 가중치 합 ( $\lambda$ ) 으로 융합하여 최종 객체 특징을 도출합니다. 이는 전방향 환경에서의 식별력 (discriminative power) 을 높입니다.
프레임 간 연관성 (Cross-frame Association):
- 탐지된 객체 간의 코사인 유사도를 계산하고, 할리안 (Hungarian) 알고리즘을 적용하여 프레임 간 일관된 ID 를 유지합니다.
- IoU 기반 매칭이 전방향 이미지에서 불안정할 수 있으므로, 특징 기반 (feature-based) 매칭 전략을 사용합니다.

4. 실험 결과 (Results)

데이터셋: ORSet 데이터셋의 테스트 세트 (10 개 장면) 에서 제로샷 (zero-shot) 조건으로 평가 수행.
성능 비교 (Table 2):
- 기존 RMOT 방법 (TransRMOT, TempRMOT 등) 과 비교하여 HOTA(9.97 vs 2.41), DetA(6.37 vs 1.40), AssA(16.15 vs 4.24) 등 모든 주요 지표에서 최첨단 (SOTA) 성능을 달성했습니다.
- 특히 탐지 강건성과 연관성 안정성이 크게 향상되었습니다.
LVLM 분석 (Table 3):
- Qwen2.5-VL-7B 가 다른 LVLM(DeepSeek-VL, LLaVA-NEXT 등) 보다 우수한 성능을 보였으며, 모델 크기가 클수록 추론 및 시각 - 언어 정렬 능력이 향상됨을 확인했습니다.
효율성 및 전략 분석:
- CLIP 기반 특징 인코더가 LVLM 기반보다 계산 효율성이 높고 FPS 가 우수함을 확인했습니다 (Table 4).
- 제안된 연관성 전략이 기존 OC-SORT 와 같은 방법보다 HOTA 및 연관성 정확도에서 월등히 우수함을 입증했습니다 (Table 5).
정성적 결과:
- 전방향 왜곡이 있는 도로에서 "직진하는 스케이트보더"를 정확히 추적하거나, 감정을 표현하는 복잡한 언어 지시 ("기분 좋은 사람") 에도 성공적으로 대응하는 것을 확인했습니다.

5. 의의 및 결론 (Significance)

시야각 제한의 극복: 전방향 카메라를 활용함으로써 객체가 프레임 밖으로 사라지는 문제를 해결하고, 장거리 언어 설명에 대한 맥락적 이해를 가능하게 했습니다.
멀티모달 추적의 새로운 기준: 전방향 환경에서의 언어 기반 추적을 위한 최초의 데이터셋 (ORSet) 과 프레임워크 (ORTrack) 를 제공하여, 향후 연구의 벤치마크 역할을 합니다.
실용성: 자율 주행, 감시 시스템 등 360 도 환경이 필요한 분야에서 언어 지시를 통한 정밀한 객체 추적 기술의 가능성을 열었습니다.

요약: 본 논문은 전방향 (360 도) 비전과 언어 이해를 결합한 ORMOT 작업을 정의하고, 이를 위한 ORSet 데이터셋과 ORTrack 프레임워크를 제안했습니다. 실험을 통해 기존 방법론 대비 뛰어난 제로샷 성능을 입증하며, 전방향 환경에서의 복잡한 언어 기반 객체 추적 문제를 해결하는 중요한 발걸음이 되었습니다.

ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking

🎬 1. 문제 상황: "좁은 창문 밖만 보는 경비원"

🌍 2. 새로운 해결책: "360 도 회전하는 망원경"

📦 3. 새로운 도구 두 가지: "전용 지도"와 "똑똑한 비서"

① ORSet: "360 도 세상을 위한 전용 지도"

② ORTrack: "언어를 이해하는 초지능 비서"

🏆 4. 실험 결과: "완벽한 추적의 주인공"

💡 5. 요약: 왜 이것이 중요한가요?

1. 연구 배경 및 문제 정의 (Problem)

2. 주요 기여 (Key Contributions)

3. 방법론 (Methodology: ORTrack)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Founder effects shape the evolutionary dynamics of multimodality in open LLM families

From Instructions to Assistance: a Dataset Aligning Instruction Manuals with Assembly Videos for Evaluating Multimodal LLMs

Causal Direct Preference Optimization for Distributionally Robust Generative Recommendation

Graphs RAG at Scale: Beyond Retrieval-Augmented Generation With Labeled Property Graphs and Resource Description Framework for Complex and Unknown Search Spaces

T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search