ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking
Questo lavoro introduce ORMOT, un nuovo compito di tracciamento multi-oggetto riferito a descrizioni linguistiche in immagini omnidirezionali, supportato dal dataset ORSet e dal framework basato su modelli visione-linguaggio su larga scala denominato ORTrack, progettati per superare i limiti del campo visivo delle telecamere convenzionali.