GazeShift: Unsupervised Gaze Estimation and Dataset for VR

Die Arbeit stellt den ersten groß angelegten Datensatz für VR-Gaze-Schätzung namens VRGaze sowie das darauf aufbauende, unüberwachte Framework GazeShift vor, das ohne manuelle Annotationen präzise und echtzeitfähige Blickverfolgung in VR-Headsets ermöglicht.

Gil Shapira, Ishay Goldin, Evgeny Artyomov, Donghoon Kim, Yosi Keller, Niv Zehngut

Veröffentlicht 2026-03-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du trägst eine Virtual-Reality-Brille (VR), und die Brille weiß genau, wohin du schaust. Das ist wie ein unsichtbarer Zeigefinger, der auf alles zeigt, was du gerade ansiehst. Das ist super nützlich, um Dinge in der virtuellen Welt auszuwählen, ohne die Hände zu bewegen.

Aber hier ist das Problem: Um diese Brille „klug" zu machen, braucht man normalerweise riesige Mengen an Daten. Man müsste Tausende von Menschen fragen: „Schau genau hierhin!" und dann die Bilder ihrer Augen speichern. Das ist extrem mühsam, teuer und oft ungenau, weil die Leute nicht immer genau dorthin schauen, wo sie sollen.

Die Lösung: GazeShift und VRGaze

Die Forscher aus diesem Papier haben zwei Dinge entwickelt, um dieses Problem zu lösen: einen neuen Datensatz namens VRGaze und eine neue Methode namens GazeShift.

Hier ist die Erklärung in einfachen Worten:

1. Das neue Fotoalbum: VRGaze

Bisher gab es kaum große Sammlungen von Augenbildern, die so aussehen, wie sie in modernen VR-Brillen tatsächlich aufgenommen werden. Die Kameras in diesen Brillen sitzen schräg an der Seite (nicht direkt vor dem Auge), was die Bilder verzerrt.

  • Die Analogie: Stell dir vor, du hast ein Fotoalbum von Gesichten, das nur aus Frontalporträts besteht. Aber deine VR-Brille macht Fotos aus einem schrägen Winkel. Wenn du das Frontal-Album benutzt, um die Brille zu trainieren, ist das, als würdest du versuchen, ein Auto zu fahren, indem du nur auf Fotos von Autos von vorne schaust – du verstehst nicht, wie die Seiten aussehen.
  • Was sie gemacht haben: Sie haben 2,1 Millionen Bilder von den Augen von 68 verschiedenen Menschen gemacht. Diese Bilder wurden genau so aufgenommen, wie es die schrägen Kameras in echten VR-Brillen tun. Das ist wie ein riesiges, perfektes Trainingsbuch für die Brille.

2. Der Trick ohne Lehrer: GazeShift

Normalerweise muss man einem Computer sagen: „Das ist ein Blick nach links, das ist ein Blick nach rechts." Das nennt man „überwachtes Lernen" (wie ein Lehrer, der einem Schüler die Antworten gibt).

GazeShift ist anders. Es ist unüberwacht. Das bedeutet, die Brille lernt von selbst, ohne dass jemand die Antworten vorgibt.

  • Die Analogie: Stell dir vor, du hast zwei Fotos von deinem eigenen Auge. Auf dem einen schaust du geradeaus, auf dem anderen nach links.
    • Ein alter Computer würde versuchen, beide Bilder auswendig zu lernen.
    • GazeShift funktioniert wie ein Künstler, der ein Porträt ummalt. Er nimmt das Bild, auf dem du geradeaus schaust (das „Quell-Bild"), und versucht, es so zu verändern, dass es aussieht wie das Bild, auf dem du nach links schaust (das „Ziel-Bild").
    • Der Trick: Der Künstler darf nur die Blickrichtung ändern. Alles andere (deine Augenfarbe, die Form deiner Lider, die Lichtverhältnisse) muss gleich bleiben.
    • Um das zu tun, muss der Computer verstehen: „Welcher Teil des Bildes ändert sich, wenn ich schau? Und welcher Teil bleibt gleich?"
    • Durch dieses Spiel (Quellbild in Zielbild verwandeln) lernt der Computer von selbst, was ein „Blick" ist und was nur „Aussehen". Er entwirrt den Blick vom Aussehen.

3. Der Fokus-Modus: Wo muss ich hinschauen?

Ein weiteres Genie-Element ist, dass GazeShift weiß, wo es hinschauen muss.

  • Die Analogie: Stell dir vor, du versuchst, ein Bild zu restaurieren. Ein normaler Computer würde versuchen, jeden einzelnen Pixel perfekt zu machen, auch den Hintergrund oder die Haut um das Auge herum. Das ist viel Arbeit und bringt nichts für die Blickrichtung.
  • GazeShift hat einen intelligenten Fokus. Es nutzt eine Art „Aufmerksamkeits-Map" (eine Landkarte im Gehirn des Computers), die sagt: „Achtung! Hier, um die Iris herum, passiert die Magie. Hier müssen wir perfekt sein. Der Rest ist egal."
  • Das ist wie ein Fotograf, der sich nur auf die Augen konzentriert und den unscharfen Hintergrund ignoriert. So lernt das System viel schneller und genauer.

Warum ist das so cool?

  1. Es ist schnell: Das System ist so leichtgewichtig, dass es direkt auf der VR-Brille läuft, ohne einen riesigen Server zu brauchen. Es braucht nur 5 Millisekunden für eine Berechnung. Das ist schneller als ein Blinzeln!
  2. Es ist klein: Es hat 10-mal weniger „Gehirnzellen" (Parameter) als andere Methoden. Das spart Batterie und Rechenleistung.
  3. Es funktioniert überall: Auch wenn es für VR gemacht wurde, hat es sich bewährt, dass es auch bei normalen Kameras (wie auf einem Laptop) funktioniert, wo man das ganze Gesicht sieht.

Zusammenfassung:
Die Forscher haben ein riesiges, spezielles Fotoalbum für VR-Brillen erstellt (VRGaze) und eine neue Lernmethode (GazeShift) entwickelt, die der Brille beibringt, wohin du schaust, indem sie einfach zwei Bilder vergleicht und sich selbst erklärt, wie man den Blick „umschaltet". Es ist wie ein genialer Trick, der den Computer lehrte, zu lesen, ohne dass ihm jemand die Buchstaben vorsagen musste.