ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking

Die Autoren stellen mit ORSet einen neuen omnidirektionalen Datensatz und mit ORTrack ein darauf abgestimmtes Framework vor, um die Einschränkungen des Sichtfelds bei herkömmlichen Mehrfachobjektverfolgungsaufgaben zu überwinden und die Verfolgung von Objekten basierend auf Sprachbeschreibungen in 360-Grad-Umgebungen zu ermöglichen.

Sijia Chen, Zihan Zhou, Yanqiu Yu, En Yu, Wenbing Tao

Veröffentlicht 2026-03-06
📖 3 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie stehen in der Mitte eines riesigen, belebten Platzes und halten eine Kamera in der Hand.

Das alte Problem: Die Teleskop-Kamera
Bisher haben Computer-Vision-Systeme (die „Augen" von KI) wie eine Teleskop-Kamera gearbeitet. Sie sehen nur einen kleinen Ausschnitt direkt vor sich. Wenn eine Person, die Sie verfolgen sollen, aus diesem kleinen Ausschnitt heraustritt, ist sie für die KI verschwunden.
Das war wie ein Spiel „Verstecken" in einem engen Flur: Sobald sich jemand um die Ecke bewegt, weiß die KI nicht mehr, wer es ist. Das ist besonders problematisch, wenn Sie der KI einen komplexen Befehl geben, wie: „Verfolge die Person, die erst die Tür aufdrückt und dann die Treppe hochgeht."
Wenn die Kamera nur den Treppenabschnitt sieht, aber nicht die Tür, versteht die KI den ersten Teil des Satzes nicht. Sie verwechselt dann alle Personen, die die Treppe hochgehen, mit dem gesuchten Ziel.

Die neue Lösung: Die 360-Grad-Kugel
Die Autoren dieser Arbeit haben eine neue Idee entwickelt, die sie ORMOT nennen. Statt einer Teleskop-Kamera nutzen sie eine 360-Grad-Kugel-Kamera.
Stellen Sie sich vor, Sie tragen eine Periskop-Haube, mit der Sie alles um sich herum sehen können – vorne, hinten, links und rechts.

  • Der Vorteil: Niemand kann sich „verstecken", indem er aus dem Bild läuft. Die Person, die die Tür aufdrückt, ist immer noch zu sehen, auch wenn sie sich weit weg bewegt.
  • Die Sprache: Die KI kann jetzt den ganzen Satz verstehen: „Erst Tür aufdrücken, dann Treppe hoch." Da sie den ganzen Raum sieht, weiß sie genau, welche Person die Tür berührt hat und welche einfach nur die Treppe hochläuft.

Die Werkzeuge: Ein neues Wörterbuch und ein neuer Detektiv

Um dieses neue Spiel zu ermöglichen, haben die Forscher zwei Dinge gebaut:

  1. ORSet (Das neue Wörterbuch):
    Sie haben eine riesige Sammlung von Videos erstellt, die mit einer 360-Grad-Kamera aufgenommen wurden. Dazu haben sie Tausende von Beschreibungen geschrieben.

    • Besonderheit: Da 360-Grad-Bilder oft verzerrt aussehen (gerade Linien wirken gekrümmt), mussten sie neue Wörter erfinden. Statt zu sagen „Die Person läuft links weg", sagen sie jetzt: „Die Person verschwindet am linken Rand und taucht am rechten Rand wieder auf." Das ist wie eine neue Sprache, die speziell für den Rundumblick entwickelt wurde.
  2. ORTrack (Der super-Detektiv):
    Sie haben ein neues System namens ORTrack gebaut, das auf einem „Großen Sprach- und Bildmodell" (LVLM) basiert.

    • Die Analogie: Stellen Sie sich ORTrack wie einen sehr klugen Detektiv vor, der nicht nur Bilder sieht, sondern auch die Sprache versteht. Wenn Sie ihm sagen: „Suche den Mann mit dem Rucksack, der die Tür aufdrückt", scannt er nicht nur nach einem Rucksack. Er nutzt sein „Wissen", um zu verstehen, was „Tür aufdrücken" in einem 360-Grad-Raum bedeutet.
    • Er schneidet das Bild in zwei Teile: Einen großen Ausschnitt, um den Kontext zu sehen (wo ist die Tür?), und einen kleinen Ausschnitt, um das Gesicht oder die Kleidung genau zu erkennen. So verwechselt er niemanden, auch wenn sich die Person dreht oder die Kamera sich bewegt.

Das Ergebnis
In Tests hat sich gezeigt, dass dieser neue Detektiv (ORTrack) viel besser ist als die alten Systeme. Er macht weniger Fehler, wenn Personen den Bildrand verlassen, und versteht lange, komplizierte Anweisungen viel besser.

Zusammenfassung in einem Satz:
Die Forscher haben eine neue Art von „Augen" (360-Grad-Kamera) und ein neues „Gehirn" (KI-Modell) entwickelt, die es Computern endlich erlauben, Menschen in einer vollen Welt nicht nur zu sehen, sondern auch zu verstehen, was sie tun – egal, in welche Richtung sie laufen.