GazeMoE: Perception of Gaze Target with Mixture-of-Experts

Each language version is independently generated for its own context, not a direct translation.

GazeMoE: Der cleere Blickfang für Roboter

Stellen Sie sich vor, ein Roboter steht vor Ihnen. Um wirklich zu verstehen, was Sie tun oder worauf Sie achten, reicht es nicht, nur auf Ihre Augen zu schauen. Der Roboter muss wissen: Auf was genau schauen Sie? Ist es ein Objekt im Raum, oder schauen Sie auf etwas, das sich hinter der Kamera befindet (also außerhalb des Bildes)?

Das ist die Aufgabe, die sich die Forscher mit GazeMoE gestellt haben. Sie haben eine neue Art von "Gehirn" für Roboter entwickelt, das viel besser darin ist, Ihren Blick zu entschlüsseln als alles, was es vorher gab.

Hier ist, wie es funktioniert, erklärt mit einfachen Vergleichen:

1. Das Problem: Ein einziger Blick reicht nicht

Frühere Methoden waren wie ein Einzelkämpfer. Sie versuchten, alle Informationen (Augen, Kopfneigung, Gesten, Umgebung) mit einem einzigen, starren Algorithmus zu verarbeiten.

Das Problem: Manchmal sind die Augen verdeckt, manchmal ist der Kopf verdreht, und manchmal ist das Licht schlecht. Ein starrer Algorithmus gerät dann ins Schleudern, weil er nicht weiß, welche Information er gerade ignorieren und welche er nutzen soll.

2. Die Lösung: Ein Team von Spezialisten (MoE)

GazeMoE nutzt eine Technik namens "Mixture-of-Experts" (MoE). Stellen Sie sich das nicht als einen einzelnen Super-Intelligenz-Roboter vor, sondern als ein Team von Spezialisten in einem großen Büro.

Der Chef (Der eingefrorene Basis-Modell): Das Team hat einen sehr erfahrenen Chef, der bereits alles über Bilder gelernt hat (ein Modell namens DINOv2). Er sieht das Bild und versteht die grobe Szene.
Die Spezialisten (Die Experten): Dazu gibt es vier spezielle Mitarbeiter:
1. Der Augen-Spezialist (schaut nur auf die Augen).
2. Der Kopf-Spezialist (schaut auf die Kopfhaltung).
3. Der Gesten-Spezialist (schaut auf die Hände).
4. Der Umgebungs-Spezialist (schaut auf den Kontext).

Wie funktioniert das?
Wenn Sie auf ein Objekt schauen, aber Ihre Augen verdeckt sind, schaltet der Roboter den "Augen-Spezialisten" einfach aus und fragt stattdessen den "Kopf-Spezialisten" und den "Umgebungs-Spezialisten".
Es ist wie ein Schwarm-Intelligenz-System: Der Roboter wählt für jede Situation nur die zwei oder drei Experten aus, die gerade am besten arbeiten können, und ignoriert die anderen. Das macht ihn extrem flexibel und robust.

3. Der Trick mit dem "Schweren Fall" (Focal Loss)

In den Daten, die Roboter lernen, gibt es ein Ungleichgewicht. Meistens schauen Menschen auf Dinge, die man sieht ("im Bild"). Aber manchmal schauen sie auf Dinge, die man nicht sieht ("außerhalb des Bildes"). Das passiert viel seltener, ist aber wichtig.

Stellen Sie sich vor, ein Lehrer korrigiert Tests. Wenn 90 % der Schüler die einfache Aufgabe lösen und nur 10 % die schwierige, vergisst der Lehrer oft, den schwierigen Fall besonders zu üben.
GazeMoE nutzt eine spezielle Lernmethode (Focal Loss), die dem Roboter sagt: "Achte besonders genau auf die seltenen Fälle!" So lernt er, auch dann noch zu wissen, wohin jemand schaut, wenn das Ziel unsichtbar ist.

4. Das Training: Mit "Augenbinde" und "Filtern"

Um den Roboter noch robuster zu machen, haben die Forscher ihn unter schwierigen Bedingungen trainiert.

Sie haben Bilder zuschnitten, als würde man durch ein Schlüsselloch schauen.
Sie haben die Farben verändert, das Bild schwarz-weiß gemacht oder unscharf gemacht.
Die Analogie: Es ist wie ein Sportler, der nicht nur im warmen, hellen Stadion trainiert, sondern auch bei Regen, im Dunkeln und mit verbundenen Augen. Wenn er dann im echten Leben (bei Sonnenschein) antritt, ist er unschlagbar.

5. Das Ergebnis: Ein Weltmeister

Die Tests haben gezeigt, dass GazeMoE in fast allen Kategorien besser ist als die bisherigen Besten.

Er funktioniert gut bei Erwachsenen, Kindern und sogar bei Fischauge-Linsen (wo das Bild stark verzerrt ist).
Er ist schnell genug, um in Echtzeit zu arbeiten (ca. 13 Bilder pro Sekunde), was bedeutet, dass ein Roboter ihn nutzen kann, um mit Menschen zu interagieren, ohne zu zögern.

Fazit

GazeMoE ist wie ein dynamisches Detektiv-Team, das nicht stur nach einem einzigen Hinweis sucht, sondern intelligent entscheidet, welche Hinweise (Augen, Kopf, Gesten) in einer bestimmten Situation am wichtigsten sind. Dadurch kann ein Roboter endlich wirklich verstehen, worauf ein Mensch achtet – egal ob das Ziel im Bild ist oder unsichtbar dahinter liegt.

Each language version is independently generated for its own context, not a direct translation.

Problemstellung

Die Schätzung des menschlichen Blickziels (Gaze Target) aus sichtbaren Bildern ist eine kritische Aufgabe für Roboter und autonome Systeme, um menschliche Aufmerksamkeit, Absichten und kognitive Zustände zu verstehen. Bisherige Ansätze stoßen jedoch auf mehrere Herausforderungen:

Generalisierung: Modelle, die auf spezifischen Datensätzen (z. B. Filme oder Bildungsszenarien) trainiert wurden, funktionieren in realen, unvorhersehbaren Szenarien oft schlecht.
Multimodale Unsicherheit: Die Schätzung hängt von vier visuellen Hinweisen ab: Augenmerkmale, Kopfhaltung, Gestik und kontextuelle Saliency. Diese Merkmale können jedoch durch Okklusionen, Verzerrungen (z. B. bei Fischaugenobjektiven) oder fehlende Daten (z. B. bei Kindern oder Autismus-Patienten) unvollständig sein.
Klassenungleichgewicht: In vielen Datensätzen gibt es ein starkes Ungleichgewicht zwischen „im Bild" (in-frame) und „außerhalb des Bildes" (out-of-frame) liegenden Blickzielen, was die Klassifizierung erschwert.
Architekturelle Limitierungen: Bestehende Decoder-Architekturen nutzen oft starre Wege, die nicht dynamisch auf die Verfügbarkeit spezifischer visueller Hinweise reagieren können.

Methodik: GazeMoE

Die Autoren schlagen GazeMoE vor, ein End-to-End-Framework, das auf einem Mixture-of-Experts (MoE)-Ansatz basiert, um adaptive und effiziente Dekodierung zu ermöglichen.

1. Architektur:

Encoder: Es wird ein eingefrorener (frozen) DINOv2-Backbone (ViT-Large) verwendet, um feingranulare Szenenrepräsentationen zu extrahieren. Dies nutzt die bereits gelernten Fähigkeiten des Modells bezüglich Augen, Kopfhaltung und Kontext.
MoE-Decoder: Anstelle eines standardmäßigen Feed-Forward-Netzwerks (FFN) in den Transformer-Blöcken wird ein MoE-Modul eingeführt.
- Shared Expert (1): Verarbeitet gemeinsame Szenenmerkmale, die für alle Eingaben relevant sind.
- Routed Experts (4): Vier spezialisierte Experten, die jeweils auf einen der vier Schlüsselhinweise (Augen, Kopfhaltung, Gestik, Kontext) fokussiert sind.
- Gating-Mechanismus: Ein Gating-Netzwerk wählt dynamisch für jede Eingabe die Top-K Experten (hier $K=2$ ) aus, basierend auf der Relevanz der verfügbaren Hinweise. Dies ermöglicht es dem Modell, sich an Szenen anzupassen, in denen bestimmte Merkmale fehlen (z. B. verdeckte Augen).
Ausgaben: Das Modell hat zwei Ausgabeköpfe:
1. Eine Wärmekarte (Heatmap) zur Lokalisierung des Blickziels innerhalb des Bildes.
2. Eine Binärklassifikation, um zu bestimmen, ob das Ziel im Bild (in-frame) oder außerhalb (out-of-frame) liegt.

2. Trainingsstrategie und Verlustfunktionen:

Verlustfunktion für die Heatmap: Statt des üblichen Mean Squared Error (MSE) wird eine pixelweise Binary Cross-Entropy (BCE)-Loss verwendet. Diese ist robuster gegenüber Rauschen und bestraft kleine Abweichungen bei Wahrscheinlichkeitswerten weniger hart als MSE.
Hilfsverlust (Focal Loss): Um das Klassenungleichgewicht bei der In/Out-Klassifizierung zu adressieren, wird ein Focal Loss als zusätzlicher Verlustterm eingeführt. Dieser konzentriert das Training auf schwer zu klassifizierende Minderheitsklassen (out-of-frame).
Datenaugmentierung: Ein umfassender Satz an Augmentierungen wird angewendet, einschließlich zufälliger Cropping, horizontaler Spiegelung, Jittering der Kopf-Bounding-Boxen sowie photometrischer Transformationen (Farbveränderungen, Graustufen, Kontrast, Schärfe), um die Robustheit gegenüber verschiedenen Bildqualitäten zu erhöhen.

Wichtige Beiträge

Neue Architektur: GazeMoE ist das erste Modell, das eine spezialisierte MoE-Struktur in die Aufgabe der Blickzielschätzung integriert, um adaptive Feature-Learning-Szenarien zu ermöglichen.
Optimierte Trainingsstrategie: Einführung einer maßgeschneiderten Verlustkombination (BCE + Focal Loss) und eines umfassenden Augmentierungs-Sets, die sich als entscheidend für die Generalisierung erwiesen haben.
Robustheit und Generalisierung: Das Modell zeigt herausragende Leistung in Out-of-Distribution-Szenarien, einschließlich Fischaugen-Linsen-Bildern (GazeFollow360) und der Schätzung von Blicken bei Kindern (ChildPlay), wo herkömmliche Modelle oft versagen.
Open Source: Der Code und die vortrainierten Modelle wurden veröffentlicht, um die Reproduzierbarkeit zu fördern.

Ergebnisse

Die Evaluation erfolgte auf fünf Benchmark-Datensätzen: GazeFollow, VideoAttentionTarget (VAT), ChildPlay, GazeFollow360 und EYEDIAP.

State-of-the-Art (SOTA) Performance: GazeMoE übertrifft bestehende Methoden (einschließlich der aktuellen SOTA-Modelle wie Gaze-LLE) in fast allen Metriken (AUC, Mean L2 Error, Average Precision).
- Auf GazeFollow erreicht es einen AUC von 0,959.
- Auf VideoAttentionTarget erreicht es einen AUC von 0,939.
- Auf ChildPlay (schwierig aufgrund von Kindern) erreicht es einen AUC von 0,945.
Zero-Shot Inferenz: Auf dem EYEDIAP-Datensatz (ohne Fine-Tuning) zeigt GazeMoE überlegene Ergebnisse im Vergleich zu anderen Modellen, was die starke Generalisierungsfähigkeit der MoE-Architektur unterstreicht.
Effizienz: Trotz der komplexen MoE-Struktur bleibt die Latenz mit 74,2 ms pro Bild (ca. 13 FPS) für Echtzeitanwendungen wie Mensch-Roboter-Interaktion akzeptabel und vergleichbar mit effizienteren Baseline-Modellen.

Bedeutung

GazeMoE stellt einen bedeutenden Fortschritt in der Computer-Vision-Forschung dar, insbesondere für die Interaktion zwischen Mensch und Maschine.

Adaptivität: Durch die dynamische Auswahl von Experten kann das System effektiv mit unvollständigen Daten (z. B. verdeckte Gesichter) umgehen, was in realen Umgebungen häufig vorkommt.
Vielseitigkeit: Die Fähigkeit, sowohl Standard- als auch Fischaugen-Bilder sowie Daten von Kindern und Erwachsenen zuverlässig zu verarbeiten, macht es zu einem universellen Werkzeug für gaze-basierte Anwendungen.
Zukunftsperspektive: Die Arbeit legt den Grundstein für zukünftige Forschung, die zeitliche Informationen und kontextuelle Hinweise nutzt, um noch komplexere Szenarien (z. B. extreme Kopfhaltungen) zu bewältigen. Sie etabliert GazeMoE als neuen Benchmark für die Blickzielschätzung.

GazeMoE: Perception of Gaze Target with Mixture-of-Experts

GazeMoE: Der cleere Blickfang für Roboter

1. Das Problem: Ein einziger Blick reicht nicht

2. Die Lösung: Ein Team von Spezialisten (MoE)

3. Der Trick mit dem "Schweren Fall" (Focal Loss)

4. Das Training: Mit "Augenbinde" und "Filtern"

5. Das Ergebnis: Ein Weltmeister

Fazit

Problemstellung

Methodik: GazeMoE

Wichtige Beiträge

Ergebnisse

Bedeutung

Mehr davon

AgenticGEO: A Self-Evolving Agentic System for Generative Engine Optimization

When both Grounding and not Grounding are Bad -- A Partially Grounded Encoding of Planning into SAT (Extended Version)

Teaching an Agent to Sketch One Part at a Time

Learning to Disprove: Formal Counterexample Generation with Large Language Models

ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models