FixationFormer: Direct Utilization of Expert Gaze Trajectories for Chest X-Ray Classification

Dit paper introduceert FixationFormer, een transformer-architectuur die expertbliktrajecten direct als sequenties van tokens verwerkt om deze naadloos te integreren met beeldkarakteristieken voor superieure classificatie van borst-röntgenfoto's.

Daniel Beckmann, Benjamin Risse

Gepubliceerd 2026-03-25
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

FixationFormer: Hoe een AI leert kijken zoals een arts

Stel je voor dat je een zeer slimme, maar nog jonge student-arts hebt die moet leren een röntgenfoto van een long te analyseren. Deze student kijkt naar de foto, maar weet niet precies waar hij moet zoeken. Hij ziet misschien een vlekje, maar is het een ziekte of gewoon een schaduw?

Nu komt er een ervaren, oude dokter langs. Deze dokter kijkt ook naar dezelfde foto, maar hij kijkt op een heel specifieke manier. Zijn ogen bewegen in een bepaald patroon: eerst naar de linkerlong, dan even stilstaan bij een verdachte plek, dan naar het midden, en weer even pauze. Dit patroon van oogbewegingen is als een geheime schatkaart van hoe een expert een ziekte herkent.

De vraag is: hoe leer je de jonge student (de computer) om niet alleen naar de foto te kijken, maar ook naar de schatkaart van de oude dokter?

Het oude probleem: De "Warme Kaart"

Vroeger probeerden onderzoekers dit op een simpele manier. Ze namen de oogbewegingen van de dokter en maakten er een rode "warmtekaart" van.

  • De analogie: Stel je voor dat je de oogbewegingen van de dokter op een foto tekent met een rode stift. Waar hij lang keek, wordt de kaart heel rood. Waar hij kort keek, is hij lichtroze.
  • Het nadeel: Deze kaart is statisch. Het is alsof je een foto maakt van de stiftstreken. Je ziet waar de dokter keek, maar je ziet niet in welke volgorde hij keek. Keek hij eerst naar de ziekte en toen naar de rand, of andersom? Die volgorde (de tijd) is verdwenen. Bovendien is het rekenen met die grote, vage kaarten soms lastig voor de computer.

De nieuwe oplossing: FixationFormer

De auteurs van dit papier, Daniel en Benjamin, hebben een slimme nieuwe manier bedacht. Ze noemen hun systeem FixationFormer.

In plaats van een statische rode kaart te maken, behandelen ze de oogbewegingen van de dokter als een verhaal of een liedje.

  1. Het verhaal van de ogen:
    De computer neemt de oogbewegingen en splitst ze op in kleine stukjes, net als woorden in een zin. Elke keer dat de dokter even stilstaat met zijn ogen (een "fixatie"), wordt dat een woord in het verhaal.

    • Analogie: Het is alsof je de oogbewegingen omzet in een reeks post-it notes op een bord. Elke post-it note zegt: "Hier keek hij 2 seconden lang, op dit punt."
  2. De slimme vertaler (De Transformer):
    Computers zijn geweldig in het begrijpen van verhalen en volgorde (denk aan ChatGPT of vertaalsystemen). Dit systeem gebruikt een technologie die "Transformer" heet.

    • Hoe het werkt: De computer leest nu twee dingen tegelijk:
      • De foto van de long (de afbeelding).
      • Het verhaal van de oogbewegingen (de post-it notes).
    • De computer laat deze twee dingen met elkaar "praten". De foto zegt: "Ik zie hier een vlek." Het oogverhaal zegt: "De dokter keek hier ook lang naar, en hij keek eerst naar de andere kant."
    • Door deze twee informatiebronnen samen te voegen, begrijpt de computer niet alleen wat er op de foto staat, maar ook hoe een expert er naar kijkt.

Waarom is dit zo goed?

  • Het behoudt de tijd: De computer weet dat de dokter eerst hier keek en toen daar. Die volgorde is belangrijk voor de diagnose.
  • Het is directer: In plaats van een vage rode kaart te gebruiken, gebruikt de computer de exacte bewegingen van de dokter.
  • Het werkt beter: De onderzoekers hebben dit getest op drie grote verzamelingen van longfoto's. Het systeem bleek net zo goed of zelfs beter te zijn dan de beste bestaande methoden. Het kon ziektes zoals longontsteking en hartfalen beter vinden.

De conclusie in één zin

FixationFormer is als het geven van een "geheime gids" aan een computer: in plaats van alleen te laten kijken naar een foto, laat je de computer ook meekijken met de ogen van een meester-arts, zodat hij leert hoe je moet zoeken, niet alleen wat er te zien is.

Dit maakt de diagnose sneller, nauwkeuriger en helpt de computer om te denken zoals een menselijke expert.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →