360{\deg} Image Perception with MLLMs: A Comprehensive Benchmark and a Training-Free Method

Die Arbeit stellt mit 360Bench ein umfassendes Benchmark für die Bewertung von Multimodalen Sprachmodellen bei 360°-Bildern vor und schlägt Free360 als trainingsfreie Methode vor, die durch adaptive sphärische Transformationen und eine Szenengraphen-basierte Architektur die Wahrnehmungsfähigkeiten dieser Modelle verbessert.

Huyen T. T. Tran, Van-Quang Nguyen, Farros Alferro, Kang-Jun Liu, Takayuki Okatani

Veröffentlicht 2026-03-18
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie stehen in der Mitte eines riesigen, leeren Raumes und drehen sich langsam um 360 Grad. Sie sehen alles: links, rechts, oben, unten und hinter sich. Das ist ein 360-Grad-Bild.

Jetzt stellen Sie sich vor, Sie haben einen sehr intelligenten Roboter-Assistenten (einen sogenannten MLLM – ein Multimodales Großes Sprachmodell), der Ihnen Fragen zu diesem Bild stellen soll. Zum Beispiel: „Wo ist der Feuerlöscher?" oder „Wie viele Autos sind auf der anderen Straßenseite?"

Das Problem ist: Dieser Roboter-Assistent ist eigentlich nur daran gewöhnt, normale, flache Fotos zu sehen. Wenn man ihm ein 360-Grad-Bild gibt, passiert etwas Komisches: Das Bild wird wie eine Weltkugel auf einen flachen Tisch ausgebreitet (projiziert). Dabei werden die Pole (oben und unten) extrem in die Länge gezogen, wie ein Gummiband, das man auseinanderzieht. Objekte, die eigentlich zusammenhängen, werden an den Rändern zerschnitten.

Der Roboter ist verwirrt. Er sieht die verzerrten Objekte nicht richtig und verliert den Überblick, wo was ist.

Hier kommt die neue Forschung aus dem Papier ins Spiel. Die Autoren haben zwei Dinge getan:

1. Der große Test: „360Bench" (Die Prüfungsarbeit)

Die Forscher haben eine riesige, schwierige Prüfungsarbeit namens 360Bench erstellt.

  • Was ist das? Ein Test mit 7.000 hochauflösenden 360-Grad-Bildern aus der ganzen Welt (Städte, Innenräume, sogar aus Drohnen).
  • Die Aufgabe: Menschen und Roboter müssen Fragen beantworten.
  • Das Ergebnis: Die besten Roboter-Assistenten lagen nur bei etwa 46 % richtiger Antworten. Die Menschen hingegen schafften 86 %.
  • Die Erkenntnis: Die Roboter sind bei diesen verzerrten, runden Bildern noch sehr schlecht. Sie verstehen die räumliche Beziehung zwischen Objekten (z. B. „ist das links oder rechts von mir?") kaum.

2. Die Lösung: „Free360" (Der clevere Übersetzer)

Da man die Roboter nicht einfach neu trainieren kann (das wäre zu teuer und zu kompliziert), haben die Forscher eine kostenlose, trainingsfreie Methode namens Free360 entwickelt.

Stellen Sie sich Free360 wie einen sehr organisierten Detektiv vor, der dem Roboter hilft, das Bild zu verstehen, ohne dass der Roboter selbst lernen muss. Der Detektiv geht in vier Schritten vor:

  1. Der Sucher (Entitäten finden):
    Der Detektiv schaut sich das Bild an und sagt: „Aha, da ist ein Laden und da ist ein Spielzeuggeschäft." Er markiert diese Dinge. Um die Verzerrung zu vermeiden, schaut er sich das Bild dabei in einem speziellen Format an (wie ein Würfel, der das Bild in 6 Seiten aufteilt), damit die Objekte nicht mehr so stark verzerrt aussehen.

  2. Der Beschreiber (Attribute extrahieren):
    Er schneidet die gefundenen Objekte aus dem Bild aus (wie mit einer Schere) und schaut sich nur diese kleinen Ausschnitte genau an. So kann er lesen, was auf einem Schild steht oder wie viele Flaschen im Automaten sind, ohne vom großen, verzerrten Bild abgelenkt zu werden.

  3. Der Navigator (Beziehungen finden):
    Das ist der geniale Teil. Wenn der Detektiv wissen will, wo der Laden im Verhältnis zum Spielzeuggeschäft ist, dreht er das Bild virtuell so, dass beide Objekte genau in der Mitte stehen. So kann er die räumliche Beziehung („sie liegen sich gegenüber") viel besser erkennen, als wenn er auf das verzerrte Originalbild schaut.

  4. Der Kartenzeichner (Der Szenen-Graph):
    Am Ende zeichnet der Detektiv eine Art Landkarte (einen sogenannten „Szenen-Graphen"). Auf dieser Karte stehen nicht nur die Objekte, sondern auch ihre Beziehungen zueinander und zum Betrachter (z. B. „Der Laden ist rechts von dir").

Das Fazit:
Dieser „Landkarten"-Text wird dann dem Roboter-Assistenten vorgelesen. Der Roboter muss das Bild nicht mehr selbst „sehen" und entziffern, sondern liest einfach die klare, logische Zusammenfassung des Detektivs.

Das Ergebnis:
Durch diese Methode verbessert sich die Leistung des Roboters drastisch. Er kommt von den ursprünglichen 38 % auf über 45 % (und bei manchen Aufgaben sogar noch viel höher). Er ist zwar immer noch nicht so gut wie ein Mensch, aber er versteht die Welt jetzt viel besser – und das alles, ohne dass man ihn neu programmieren oder trainieren musste.

Zusammengefasst in einer Metapher:
Wenn ein Roboter ein 360-Grad-Bild sieht, ist es, als würde er versuchen, ein zerknittertes, verzerrtes Landkarten-Stück zu lesen. Free360 ist wie ein erfahrener Kartograph, der das zerknitterte Stück glättet, die wichtigen Orte markiert, die Entfernungen misst und dem Roboter dann eine saubere, verständliche Liste gibt, auf der er basierend auf seiner eigenen Intelligenz die richtige Antwort finden kann.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →