ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking

Deze paper introduceert ORMOT, een nieuwe taak voor het volgen van meerdere objecten op basis van taalbeschrijvingen in omnidirectionele beelden, en presenteert het bijbehorende ORSet-dataset en het ORTrack-framework om de beperkingen van het gezichtsveld in traditionele camera's te overwinnen.

Sijia Chen, Zihan Zhou, Yanqiu Yu, En Yu, Wenbing Tao

Gepubliceerd 2026-03-06
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een videobewakingssysteem hebt dat werkt als een normale camera. Deze camera kijkt alleen recht vooruit, net als wanneer je door een raam naar buiten tuurt. Als iemand links uit beeld loopt, is die persoon voor de camera "verdwenen". De camera weet niet dat die persoon gewoon om de hoek is gegaan; voor het systeem is het alsof de persoon de wereld heeft verlaten.

Nu stel je voor dat je die camera vervangt door een 360-graden camera (een omnidirectionele camera). Dit is alsof je een koepel hebt die je volledig omringt. Je kunt naar links, rechts, achter en boven kijken zonder je hoofd te draaien. Niemand verdwijnt zomaar uit beeld; alles blijft zichtbaar.

Dit is precies wat het papier ORMOT introduceert. Hier is een uitleg in gewone taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Blind Vlek" van de Taal

Vroeger konden computers wel mensen volgen in video's, maar ze hadden moeite als je ze een taalkundige opdracht gaf.

  • Voorbeeld: Als je zegt: "Volg de persoon die de deur opent en daarna de trap op gaat."
  • Met een normale camera: De camera ziet misschien alleen de trap. De persoon die de deur opent, was al uit beeld voordat de actie begon. De computer raakt in de war en denkt: "Oh, iedereen die de trap op gaat, is degene die ik moet volgen." Het verliest het verhaal kwijt.
  • De oplossing: Met een 360-graden camera zie je alles. Je ziet de persoon de deur openen én de trap op gaan. Het verhaal is compleet.

2. De Nieuwe Spelregels: ORMOT

De auteurs noemen dit nieuwe vakgebied ORMOT (Omnidirectional Referring Multi-Object Tracking).

  • Referring: Het gaat om het volgen van specifieke dingen die je met woorden beschrijft (bijv. "de man met de rode hoed").
  • Omnidirectional: Het gebeurt in een 360-graden wereld.
  • De kern: Het systeem moet niet alleen kijken, maar ook luisteren naar je beschrijving en dat koppelen aan een wereld waar geen grenzen zijn.

3. De Nieuwe "Boek": ORSet

Om dit te leren, hebben de onderzoekers een enorme trainingsboek gemaakt genaamd ORSet.

  • Stel je voor dat je een boek hebt met 27 verschillende verhalen (scènes).
  • In dit boek staan 848 specifieke zinnen die beschrijven wat er gebeurt.
  • Er zijn 3.401 mensen (objecten) in deze verhalen die allemaal een ID-nummer hebben.
  • Het unieke: De zinnen zijn speciaal geschreven voor 360-graden video's. Bijvoorbeeld: "De persoon die links uit beeld verdwijnt en rechts weer verschijnt." Bij een normale camera zou dit onmogelijk zijn, maar hier is het een normaal verhaal.

4. De "Superheld": ORTrack

Om dit boek te lezen en de mensen te volgen, hebben ze een slimme robot gebouwd genaamd ORTrack.

  • Hoe werkt het? Stel je voor dat ORTrack een vertaler is die ook een detective is.
    1. De Vertaler (LVLM): Hij leest je zin ("Zoek de persoon met de rugzak") en begrijpt wat je bedoelt, zelfs als het een rare zin is. Hij is niet beperkt tot een lijstje met bekende woorden; hij begrijpt de betekenis.
    2. De Detective (De Camera): Hij kijkt naar de 360-graden beelden. Omdat de beelden soms vervormd zijn (alsof je op een bol kijkt), snijdt ORTrack stukjes uit het beeld om de persoon scherp te zien.
    3. De Koppeling: Hij houdt de persoon vast in zijn geheugen. Zelfs als de persoon om de hoek loopt en weer terugkomt, weet ORTrack: "Ah, dat is nog steeds dezelfde persoon!"

5. Waarom is dit belangrijk?

Tot nu toe waren slimme camera's beperkt door hun "kijkrichting". Ze konden geen lange verhalen vertellen.

  • Vergelijking: Een normale camera is als een telelens. Je ziet alleen wat er direct voor je staat.
  • ORMOT is als een panoramisch raam. Je ziet het hele verhaal van begin tot eind.

De resultaten tonen aan dat ORTrack veel beter is dan oude methoden. Het kan zelfs complexe emoties of acties volgen, zoals "De persoon die blij is en wacht tot iemand anders vraagt".

Samenvatting in één zin

Deze paper introduceert een nieuwe manier om computers te leren mensen te volgen in een 360-graden wereld op basis van wat je zegt, zodat ze het hele verhaal kunnen zien en niet alleen een klein fragment, net zoals een mens dat zou doen als hij rondkijkt in een kamer.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →