ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking

Questo lavoro introduce ORMOT, un nuovo compito di tracciamento multi-oggetto riferito a descrizioni linguistiche in immagini omnidirezionali, supportato dal dataset ORSet e dal framework basato su modelli visione-linguaggio su larga scala denominato ORTrack, progettati per superare i limiti del campo visivo delle telecamere convenzionali.

Sijia Chen, Zihan Zhou, Yanqiu Yu, En Yu, Wenbing Tao

Pubblicato 2026-03-06
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover seguire una persona in un video, ma con una regola speciale: devi seguire solo quella persona descritta da una frase che ti viene detta. Ad esempio: "Segui il signore con la giacca rossa che sta correndo verso le scale".

1. Il Problema: La "Finestra" Troppo Piccola

Fino a poco tempo fa, i computer che fanno questo lavoro (chiamati sistemi di tracciamento) guardavano il mondo attraverso una finestra rettangolare (come la telecamera del tuo smartphone).

  • L'analogia: Immagina di cercare un amico in una folla guardando solo attraverso un tubo di cartone. Se il tuo amico si sposta un po' a sinistra o a destra, scompare dal tubo. Tu lo perdi di vista, e il computer si confonde: "Dov'è finito? È sparito? O è un'altra persona?".
  • Il limite: Se la frase dice "Lui apre la porta e poi sale le scale", ma la telecamera non vede la porta perché è troppo stretta, il computer non capisce la storia completa. Segue la persona sbagliata o perde il filo.

2. La Soluzione: La "Sfera" Magica (ORMOT)

Gli autori di questo studio hanno detto: "E se invece di un tubo, avessimo una sfera trasparente che ci permette di vedere tutto intorno, a 360 gradi?".
Hanno creato un nuovo compito chiamato ORMOT (Tracciamento Multi-Oggetto con Riferimento Omnidirezionale).

  • L'analogia: Ora immagina di essere al centro di una stanza con le pareti fatte di specchi curvi o di essere su una piattaforma rotante. Vedi tutto: davanti, dietro, a sinistra, a destra, sopra e sotto.
  • Il vantaggio: Se la persona che stai cercando esce dal lato sinistro della stanza, non sparisce nel nulla! Semplicemente, riappare dal lato destro. Il computer può seguire la storia intera: "Ah, ecco che apre la porta (che ora vedo!) e sale le scale". Non perde mai il contatto.

3. Il Nuovo Libro di Istruzioni: Il Dataset ORSet

Per insegnare a queste nuove intelligenze artificiali a lavorare in questo mondo a 360 gradi, gli autori hanno creato un nuovo "libro di esercizi" chiamato ORSet.

  • Cosa contiene: È come un enorme archivio di video girati con telecamere speciali a 360°.
  • Le istruzioni: Hanno scritto 848 descrizioni diverse. Non sono solo "c'è un uomo", ma frasi complesse come: "La persona che scompare dal bordo sinistro e riappare su quello destro" o "Il cameriere che cammina in senso orario intorno alla camera".
  • Perché è speciale: In un video normale, dire "scompare a sinistra" non ha senso. In un video a 360°, è una descrizione normale e fondamentale. Questo dataset insegna al computer a capire la geometria strana di queste immagini.

4. Il Cervello: ORTrack (L'Intelligenza Artificiale)

Hanno anche costruito un nuovo "cervello" chiamato ORTrack.

  • Come funziona: Invece di usare un vecchio metodo che cerca solo cose che conosce già (es. "cerca solo persone"), ORTrack usa un Modello Linguistico Visivo (un'intelligenza artificiale molto potente che legge e vede insieme).
  • L'analogia: Immagina un detective molto colto. Se gli dai una foto distorta (perché è a 360°) e gli dici: "Cerca la persona che sta bevendo un caffè mentre cammina dritto", il detective non si spaventa per la distorsione dell'immagine. Usa il suo "senso comune" linguistico per capire che, anche se la strada sembra curva nell'immagine, la persona sta camminando dritto nella realtà.
  • Il trucco: ORTrack taglia l'immagine in due pezzi: uno grande per vedere il contesto (dove si trova la persona rispetto alla stanza) e uno piccolo per vedere i dettagli (la giacca rossa). Poi unisce queste due informazioni per non perdere mai il target.

5. I Risultati: Chi vince?

Hanno fatto una gara tra il loro nuovo sistema (ORTrack) e i vecchi sistemi migliori.

  • Il verdetto: ORTrack ha vinto a mani basse, specialmente quando le descrizioni erano lunghe e complesse.
  • Perché: Perché i vecchi sistemi si perdevano quando la telecamera si muoveva o quando la scena era troppo grande. ORTrack, grazie alla visione a 360° e alla sua capacità di "leggere" la scena, ha mantenuto il filo del discorso e ha seguito la persona giusta, anche se questa faceva cose strane o attraversava i bordi dell'immagine.

In Sintesi

Questo paper ci dice che per far capire bene all'Intelligenza Artificiale le storie complesse (come "chi apre la porta e sale le scale"), non basta una telecamera normale. Serve una visione completa a 360 gradi e un cervello che sappia collegare le parole alle immagini in modo intelligente. Hanno creato il primo "palestra" (dataset) e il primo "allenatore" (framework) per insegnare alle macchine a farlo.

È come passare dal cercare un ago in un mucchio di fieno guardando solo un quadrato, a guardare tutto il mucchio da sopra, sapendo esattamente dove si trova l'ago anche se si muove.