FixationFormer: Direct Utilization of Expert Gaze Trajectories for Chest X-Ray Classification

Each language version is independently generated for its own context, not a direct translation.

🏥 Wenn Computer lernen, wie Ärzte schauen: FixationFormer

Stell dir vor, du bist ein junger Medizinstudent und musst lernen, Röntgenbilder von Lungen zu lesen. Dein Professor (ein erfahrener Radiologe) steht neben dir. Er schaut nicht einfach nur zufällig auf das Bild. Er scannt es systematisch: Erst hier, dann dort, er verweilt kurz an einer verdächtigen Stelle, springt dann weiter. Seine Blickbewegungen verraten dir, wo er die Probleme sieht.

Bisher haben Computerprogramme (Künstliche Intelligenz) versucht, diese Lektionen zu lernen, indem sie dem Professor eine „Wärmekarte" (Heatmap) über das Bild gemalt haben. Das ist wie ein roter Fleck auf dem Bild, der sagt: „Hier war der Professor oft." Aber das hat einen großen Haken: Die Wärmekarte ist statisch. Sie zeigt nicht, in welcher Reihenfolge der Professor geschaut hat oder wie lange er an einer Stelle verweilt hat. Es ist wie ein Foto von Fußabdrücken im Schnee, ohne zu wissen, ob die Person zuerst links oder rechts ging.

Das neue Programm FixationFormer ändert das. Es lernt nicht nur wo der Professor hinschaut, sondern wie er schaut – Schritt für Schritt, genau wie ein Mensch.

1. Das Problem: Der Computer ist ein starrer Statistiker

Früher waren Computerprogramme wie CNNs (Convolutional Neural Networks) die Stars in der Medizin. Sie sind super darin, Muster in Bildern zu erkennen. Aber wenn man ihnen die Blickbewegungen eines Experten geben wollte, mussten diese Bewegungen erst in eine statische Wärmekarte verwandelt werden.

Die Analogie: Stell dir vor, du möchtest einem Koch erklären, wie man ein Gericht zubereitet, indem du ihm nur ein Foto von der fertigen Küche zeigst, auf dem rote Kreise dort sind, wo er oft hantierte. Der Koch weiß nicht, ob er zuerst die Zwiebeln schnitt oder den Knoblauch. Die Reihenfolge und der Rhythmus gehen verloren.

2. Die Lösung: FixationFormer – Der „Augen-Übersetzer"

Die Forscher haben ein neues System namens FixationFormer entwickelt. Der Name kommt von „Fixation" (das Verweilen des Auges auf einem Punkt) und „Former" (ein moderner KI-Typ, der besonders gut mit Reihenfolgen umgehen kann).

Statt die Blickbewegungen in eine Wärmekarte zu verwandeln, behandeln sie sie wie einen Text oder ein Lied.

Die Analogie: Stell dir vor, die Blickbewegungen des Arztes sind wie ein Musikstück. Jeder Blickpunkt ist ein Noten.
- Wo schaut der Arzt hin? (Die Note)
- Wie lange bleibt er dort? (Die Notenlänge)
- Wann kommt er dorthin? (Der Takt)

FixationFormer nimmt diese „Noten" und verwandelt sie in eine Sequenz von digitalen Bausteinen (Tokens), genau wie ein Computer einen Satz aus Buchstaben bildet.

3. Wie funktioniert das im Inneren? (Die zwei Arten des Zuhörens)

Das Herzstück des Systems ist ein „Gespräch" zwischen dem Bild und den Blickbewegungen. Das Programm nutzt zwei verschiedene Methoden, um diese Informationen zu mischen:

Methode A: Der aufmerksame Assistent (Cross-Attention)
Das Bild wird vom Computer analysiert. Gleichzeitig „hört" das Bild zu, was die Blickbewegungen sagen.
- Analogie: Der Computer schaut auf das Röntgenbild und fragt den Experten: „Hey, wo hast du hingesehen?" Der Experte sagt: „Hier und hier!" Der Computer passt dann sein Verständnis des Bildes an, um genau diese Stellen genauer zu betrachten. Das Bild bleibt der Hauptakteur, der Experte gibt nur Hinweise.
Methode B: Das intensive Teamgespräch (Two-Way Attention)
Hier tauschen Bild und Experte ihre Rollen aus. Nicht nur das Bild hört zu, sondern die Blickbewegungen werden auch durch das Bild beeinflusst.
- Analogie: Es ist wie ein intensives Brainstorming. Der Experte sagt: „Schau hier!", und der Computer antwortet: „Okay, aber wenn ich mir das Bild genau ansehe, passt das nicht ganz, lass uns das nochmal überdenken." Sie arbeiten auf Augenhöhe zusammen.

4. Was haben sie herausgefunden?

Die Forscher haben das System an drei verschiedenen Datensätzen getestet (Röntgenbilder mit verschiedenen Krankheiten).

Das Ergebnis: FixationFormer ist extrem erfolgreich. In zwei der drei Tests war es das beste System der Welt (State-of-the-Art).
Der Clou: Selbst wenn das Computerprogramm das Bild allein nicht so gut verstand (weil es weniger „Vorkenntnisse" hatte), halfen die Blickbewegungen des Experten enorm, um die Fehler zu korrigieren.
Überraschung: Die Methode, bei der nur das Bild zuhört (Cross-Attention), war oft stabiler und besser als das intensive Teamgespräch (Two-Way). Manchmal ist es besser, wenn der Experte nur Hinweise gibt, statt dass beide Parteien versuchen, alles gleichzeitig zu ändern.

5. Warum ist das wichtig?

Früher mussten Computer erst lernen, Röntgenbilder zu lesen, und dann wurden sie mühsam mit Wärmekarten gefüttert. FixationFormer zeigt, dass wir die natürliche Art und Weise, wie Menschen schauen, direkt in die KI einbauen können.

Es ist, als würde man einem Schüler nicht nur das fertige Ergebnis zeigen, sondern ihm erlauben, dem Lehrer beim Lösen der Aufgabe zuzusehen. Das System lernt nicht nur was falsch ist, sondern wie ein Experte darüber nachdenkt.

Zusammengefasst:
FixationFormer ist wie ein digitaler Assistent, der nicht nur auf das Röntgenbild schaut, sondern genau so schaut wie ein erfahrener Arzt – mit dem gleichen Rhythmus, der gleichen Reihenfolge und dem gleichen Fokus. Und das macht ihn zu einem noch besseren Diagnosehelfer.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

In der medizinischen Bildanalyse, insbesondere bei der Auswertung von Röntgen-Thorax-Aufnahmen, dominieren traditionell Convolutional Neural Networks (CNNs). Diese Modelle stehen jedoch vor Herausforderungen wie kleinen Datensätzen, komplexen Überlagerungen von Organen und der Notwendigkeit, diagnostisches Expertenwissen zu integrieren.
Ein vielversprechender Ansatz zur Verbesserung ist die Nutzung von Eye-Tracking-Daten (Blickverläufe) von Radiologen. Bisherige Methoden haben diese Daten jedoch meist in statische Heatmaps umgewandelt, um sie in CNNs zu integrieren. Dies hat zwei wesentliche Nachteile:

Der zeitliche Aspekt der Blickbewegungen (Sequenz, Reihenfolge, Dauer) geht verloren, obwohl dieser wichtige kontextuelle Informationen liefert.
Die Berechnung von Heatmaps ist rechenintensiv.

Zudem sind Blickverläufe inhärent sequenziell, während CNNs räumliche Merkmale extrahieren. Transformer-Architekturen hingegen basieren auf Aufmerksamkeitsmechanismen (Attention) und sind von Natur aus für sequenzielle Daten geeignet, was eine direkte Integration von Blickdaten ohne vorherige Aggregation in Heatmaps nahelegt.

2. Methodik: FixationFormer

Das Paper stellt FixationFormer vor, eine Transformer-basierte Architektur, die Experten-Blickverläufe direkt als Sequenz von Tokens integriert, anstatt sie in Heatmaps zu transformieren.

A. Tokenisierung der Blickdaten (Gaze Representation):

Rohdaten (Eye-Tracking bei 60 Hz+) werden in eine Sequenz von Fixationen umgewandelt (Punkte, an denen das Auge verweilt).
Jede Fixation wird durch drei Merkmale beschrieben: räumliche Koordinaten ( $x, y$ ), Startzeit und Dauer.
Diese Merkmale werden in einen Token-Vektor projiziert:
- Räumliche Koordinaten und Dauer werden durch lernbare lineare Schichten kodiert.
- Die Startzeit wird mittels Positional Encodings (wie im ursprünglichen Transformer) kodiert, um die zeitliche Reihenfolge zu erfassen.
Das Ergebnis ist eine Sequenz von Gaze-Tokens ( $G$ ), die die räumliche und zeitliche Struktur der Blickbewegung bewahrt.

B. Architektur und Integration:
Das Modell besteht aus einem Image-Encoder (Vision Transformer, ViT) und einem Gaze-Integration-Modul.

Image Encoder: Ein ViT, der auf dem großen MIMIC-CXR-Datensatz vortrainiert wurde (mittels MGCA-Framework), um die Leistung auf kleineren medizinischen Datensätzen zu stabilisieren.
Gaze Integration Module: Ein Stapel von Decoder-artigen Transformer-Layern, der zwei Mechanismen zur Fusion von Bild- und Blickdaten untersucht:
1. Image-to-Gaze Cross-Attention: Nur die Bild-Features werden aktualisiert, indem sie auf die Gaze-Tokens „achten". Dies bereichert die visuellen Repräsentationen mit Expertenmustern.
2. Two-Way Attention: Eine bidirektionale Fusion, bei der sowohl Bild- als auch Gaze-Tokens gegenseitig aktualisiert werden (ähnlich dem Mask-Decoder von SAM).
Besonderheit: Im Gegensatz zu NLP-Modellen wird hier keine Maskierung angewendet, sodass jeder Bild-Token Zugriff auf die gesamte Blicksequenz hat und umgekehrt.

3. Wichtige Beiträge

Direkte Sequenzintegration: Erstmals werden Experten-Blickverläufe als Token-Sequenz direkt in einen Transformer integriert, ohne den Informationsverlust durch Heatmap-Transformation.
Erhaltung der Temporalität: Durch die Kodierung von Startzeit und Dauer als Token-Attribute bleibt die zeitliche Dynamik der Blickbewegung erhalten.
Effiziente Verarbeitung: Nutzung von Nested Tensors in PyTorch, um Blicksequenzen unterschiedlicher Längen effizient zu verarbeiten, ohne Padding-Masken, was Speicher und Rechenzeit spart.
Zwei Integrationsstrategien: Systematischer Vergleich zwischen einseitiger (Image-to-Gaze) und bidirektionaler (Two-Way) Aufmerksamkeit.

4. Ergebnisse

Die Methode wurde an drei öffentlichen Datensätzen für Röntgen-Thorax-Klassifikation evaluiert: CXR-Gaze, SIIM-ACR und Reflacx.

Leistungsvergleich: FixationFormer erreicht auf zwei der drei Datensätze (CXR-Gaze und SIIM-ACR) State-of-the-Art-Ergebnisse oder liegt sehr nah daran. Auf dem schwierigsten Datensatz (Reflacx) übertrifft es bestehende Methoden wie GazeGNN.
Cross-Attention vs. Two-Way: Die Cross-Attention-Variante (nur Bild-Features werden aktualisiert) erwies sich als stabiler und konsistenter als die Two-Way-Variante, insbesondere bei kleineren oder unausgewogenen Datensätzen.
Ablationsstudie:
- Ein reines Gaze-Modell (ohne Bilder) erreicht zwar über dem Zufall liegende Werte, zeigt aber, dass die Blickdaten allein nicht ausreichen.
- Die Kombination von Bild und Blickdaten verbessert die Genauigkeit signifikant, besonders wenn ein schwächerer Backbone (ImageNet-ViT) verwendet wird. Dies zeigt, dass FixationFormer besonders wertvoll ist, wenn das Bildmodell weniger stark vortrainiert ist.
Qualitative Analyse: Visualisierungen (GradCAM) zeigen, dass das Modell mit Blickintegration die Aufmerksamkeit stärker auf anatomisch relevante Regionen lenkt, die mit den Experten-Blickverläufen korrelieren, im Vergleich zu rein bildbasierten Modellen.

5. Bedeutung und Fazit

FixationFormer demonstriert, dass die direkte Modellierung von Blickverläufen als Token-Sequenz in Transformer-Architekturen eine überlegene Alternative zu Heatmap-basierten Ansätzen ist.

Diagnostische Validität: Die Methode nutzt implizites Expertenwissen effizienter, indem sie nicht nur wo ein Experte hinsieht, sondern auch wie (Reihenfolge, Dauer) diese Betrachtung erfolgt.
Robustheit: Die Technik verbessert die Klassifikationsleistung selbst bei schwächeren Bildbackbones, was für medizinische Anwendungen mit begrenzten Datenressourcen relevant ist.
Zukunftsaussicht: Der Ansatz öffnet die Tür für weitere multimodale Anwendungen in der medizinischen Bildgebung, bei denen sequenzielle Experteninteraktionen (z. B. Mauszeiger, Blick) direkt in Transformer-Modelle integriert werden können.

Zusammenfassend bietet FixationFormer einen neuen Paradigmenwechsel in der medizinischen Bildanalyse, der die Lücke zwischen menschlicher diagnostischer Logik (sequenzielle Aufmerksamkeit) und künstlicher Intelligenz (Transformer-Architekturen) schließt.