ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking

Este trabalho apresenta o ORMOT, uma nova tarefa de rastreamento multi-objeto omnidirecional guiada por linguagem, acompanhada do dataset ORSet e do framework ORTrack baseado em Modelos de Linguagem e Visão de Grande Escala (LVLM), projetados para superar as limitações de campo de visão dos métodos tradicionais e melhorar o rastreamento de objetos em cenas panorâmicas.

Sijia Chen, Zihan Zhou, Yanqiu Yu, En Yu, Wenbing Tao

Publicado 2026-03-06
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando seguir uma pessoa específica em um vídeo de segurança, mas a câmera é como uma lente de olho de peixe que vê 360 graus ao seu redor, como se você estivesse no centro de uma esfera. Agora, imagine que você precisa dizer para o computador: "Acompanhe a pessoa que abriu a porta e subiu as escadas".

Esse é o desafio que o novo artigo ORMOT resolveu. Vamos descomplicar tudo isso com uma analogia simples:

1. O Problema: A Câmera "Cega" de Lado

Antes, as câmeras de segurança funcionavam como uma janela pequena. Se você estivesse seguindo alguém e essa pessoa saísse pela janela (sasse do campo de visão), a câmera "esquecia" dela.

  • A confusão: Se você dissesse "Acompanhe quem abriu a porta", mas a câmera só mostrava as escadas (porque a porta estava fora da janela), o computador ficaria confuso. Ele veria várias pessoas subindo as escadas e não saberia qual delas abriu a porta antes. O resultado? Ele perdia o rastro ou seguia a pessoa errada.

2. A Solução: O "Olho de Águia" 360º

Os autores criaram uma nova tarefa chamada ORMOT (Rastreamento de Múltiplos Objetos com Referência Omnidirecional).

  • A analogia: Em vez de uma janela pequena, imagine que você tem um olho de águia que gira 360 graus. Nada escapa da visão. Se a pessoa abre a porta, anda pelo corredor e sobe a escada, o "olho de águia" vê tudo o tempo todo.
  • O benefício: O computador não perde o contexto. Ele sabe exatamente quem abriu a porta porque viu a ação completa, mesmo que a pessoa tenha se movido para o "lado oposto" do mundo 360º.

3. O Novo Mapa de Tesouro: O Dataset "ORSet"

Para ensinar os computadores a fazerem isso, os pesquisadores criaram um novo conjunto de dados chamado ORSet.

  • O que é: Pense nisso como um livro de receitas gigante com 27 "cozinhas" (cenários) diferentes.
  • O conteúdo: Eles anotaram 848 frases (como "o homem de chapéu vermelho") e seguiram 3.401 pessoas.
  • O diferencial: Eles ensinaram o computador a entender peculiaridades desse mundo 360º. Por exemplo:
    • O efeito "Pac-Man": Em uma câmera 360º, se alguém sai pela borda esquerda, ele reaparece pela borda direita. O dataset ensina o computador que é a mesma pessoa, não duas diferentes.
    • A distorção: Em fotos 360º, uma estrada reta parece curva. O dataset ensina o computador a corrigir essa ilusão e entender que a pessoa está andando em linha reta.

4. O "Detetive Inteligente": O Framework "ORTrack"

Eles também criaram um sistema chamado ORTrack.

  • Como funciona: Imagine um detetive que usa um livro de magia (IA) para entender o que você diz.
    1. Ouvir: O detetive lê sua frase ("Acompanhe quem está comendo um sanduíche").
    2. Olhar: Ele usa uma câmera especial (LVLM - um modelo de visão e linguagem gigante) para varrer a cena 360º e encontrar quem está comendo.
    3. Cortar e Analisar: Ele faz um "zoom" no objeto para ver os detalhes (o que a pessoa está vestindo) e também olha ao redor para ver o contexto (onde ela está).
    4. Seguir: Ele usa uma régua matemática (o algoritmo de Hungarian) para garantir que, se a pessoa se mover, ele continue seguindo o mesmo ID, mesmo que ela gire ou mude de tamanho.

5. O Resultado: Por que isso importa?

Testes mostraram que esse novo sistema é muito melhor do que os antigos.

  • Sem treino prévio: O grande trunfo é que o sistema funciona "de primeira" (zero-shot). Você não precisa ensinar o computador com milhares de exemplos de "pessoas comendo". Basta você descrever o que quer, e ele entende na hora, graças à inteligência do modelo de linguagem.
  • Precisão: Ele consegue seguir pessoas por muito tempo, mesmo em ambientes complexos onde elas somem e reaparecem, algo que as câmeras normais falham miseravelmente.

Resumo em uma frase

Os pesquisadores criaram um novo "olho" que vê tudo ao redor, um "mapa" de instruções detalhadas e um "detetive" superinteligente que consegue seguir qualquer pessoa descrita por você, mesmo que ela dê a volta no mundo inteiro sem sair da tela.

Isso é um passo gigante para robôs, carros autônomos e sistemas de segurança que precisam entender não apenas o que estão vendo, mas quem exatamente você quer que eles sigam, em qualquer direção.