DriverGaze360: OmniDirectional Driver Attention with Object-Level Guidance

Die Arbeit stellt DriverGaze360 vor, einen umfassenden Datensatz mit rund einer Million gaze-labeled Frames aus 360°-Sicht sowie das zugehörige Deep-Learning-Modell DriverGaze360-Net, das durch objektleitende Aufmerksamkeit und semantische Segmentierung die Vorhersage von Fahreraufmerksamkeit in panoramischen Fahrtszenarien auf den aktuellen Stand der Technik hebt.

Shreedhar Govil, Didier Stricker, Jason Rambach

Veröffentlicht 2026-03-06
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Titel: DriverGaze360 – Der erste Blick, der wirklich alles sieht

Stell dir vor, du sitzt am Steuer eines Autos. Normalerweise schaust du geradeaus, aber um sicher zu sein, musst du auch in den Rückspiegel schauen, zur Seite blicken, um einen Fußgänger zu sehen, oder kurz nach hinten werfen, wenn du die Spur wechselst.

Bisher waren die Computer, die Autos autonom fahren lassen sollen, wie Menschen mit einem sehr engen Tunnelblick. Sie konnten nur das sehen, was direkt vor der Windschutzscheibe lag. Das Problem? Wenn ein Radfahrer von der Seite kommt oder ein Fußgänger aus dem toten Winkel auftaucht, waren diese alten Systeme blind.

Hier kommt DriverGaze360 ins Spiel – eine neue Erfindung, die dieses Problem löst.

1. Der neue "Super-Blick" (Das Datenset)

Stell dir vor, du möchtest einem Roboter beibringen, wie ein Mensch fährt. Bisher hast du ihm nur ein Video gezeigt, das wie durch ein Fernrohr gefilmt war (nur geradeaus).

Die Forscher haben jetzt etwas Neues gemacht: Sie haben 19 echte Menschen in einen riesigen Fahrsimulator gesetzt. Diese Menschen trugen eine spezielle Brille, die genau aufzeichnet, wohin sie schauen. Aber das Besondere ist: Der Simulator zeigt ihnen nicht nur die Straße vor ihnen, sondern eine 360-Grad-Welt.

  • Die Analogie: Stell dir vor, die Fahrer tragen eine unsichtbare Kugel um sich herum. Die Kamera fängt jeden Blick auf – egal ob sie geradeaus schauen, in den Rückspiegel blicken oder zur Seite schauen, um einen Radfahrer zu sehen.
  • Das Ergebnis: Sie haben eine riesige Bibliothek mit 1 Million Bildern erstellt. Das ist wie ein riesiges Wörterbuch, das dem Computer beibringt: "Aha, wenn ich links abbiege, schaue ich zuerst nach links und dann in den Spiegel!"

2. Der "Zweikopf-Roboter" (Die KI-Software)

Nun haben sie eine neue KI entwickelt, die sie DriverGaze360-Net nennen. Stell dir diese KI nicht als einen einzelnen Kopf vor, sondern als einen Zweikopf-Roboter.

  • Kopf A (Der Aufpasser): Dieser Kopf schaut sich das Bild an und fragt: "Wo schaut der Fahrer hin?" Er malt eine Art Wärmekarte auf das Bild, die zeigt, wo die Aufmerksamkeit liegt.
  • Kopf B (Der Detektiv): Dieser Kopf ist schlauer. Er fragt nicht nur "Wo?", sondern auch "Was?". Er sucht im Bild nach wichtigen Dingen: "Ist das ein Auto? Ein Fußgänger? Eine Ampel?"

Warum ist das so genial?
Früher haben KIs versucht, alles zu erraten, ohne zu wissen, was wichtig ist. Das ist wie wenn du versuchst, ein Puzzle zu lösen, ohne zu wissen, wie das fertige Bild aussieht.
Der neue Roboter nutzt Kopf B, um Kopf A zu helfen. Er sagt: "Hey, schau nicht auf den Baum am Straßenrand, schau auf den Fußgänger!"

  • Die Metapher: Es ist wie ein erfahrener Fahrlehrer, der neben dem Schüler sitzt. Der Schüler (Kopf A) schaut vielleicht auf die Wolken, aber der Lehrer (Kopf B) tippt ihn auf die Schulter und sagt: "Schau auf die rote Ampel!" Durch diese Hilfe wird der Schüler viel besser.

3. Warum ist das wichtig für uns?

Stell dir vor, du fährst in einer Stadt. Ein Kind läuft plötzlich von hinter einem geparkten Auto auf die Straße.

  • Alte Systeme: Sie sehen nur die Straße vor dem Auto. Sie merken das Kind nicht, weil es nicht im "Tunnelblick" liegt.
  • DriverGaze360: Das System weiß, dass ein Mensch in dieser Situation auch zur Seite oder in den Spiegel schaut. Es versteht den gesamten Kontext.

Das bedeutet, dass zukünftige autonome Fahrzeuge nicht nur "blind" geradeaus fahren, sondern wirklich verstehen, was um sie herum passiert. Sie können besser vorhersagen, was passiert, und sicherer reagieren.

Zusammenfassung in einem Satz

Die Forscher haben einem Computer beigebracht, nicht nur durch ein Schlüsselloch zu schauen, sondern mit einem 360-Grad-Blick die ganze Welt zu erfassen und dabei zu lernen, was genau die Aufmerksamkeit eines Menschen verdient – genau wie ein erfahrener, aufmerksamer Autofahrer.

Das Ziel? Autos, die nicht nur fahren, sondern wirklich sehen und verstehen, was um sie herum passiert.