Enabling clinical use of foundation models in histopathology

Deze studie toont aan dat het introduceren van nieuwe robustheidsverliezen tijdens het trainen van taakspecifieke modellen de gevoeligheid voor technische variabiliteit in histopathologische foundation modellen vermindert, waardoor nauwkeurigere en robuustere modellen ontstaan die geschikt zijn voor de klinische praktijk zonder dat de foundation modellen zelf opnieuw getraind hoeven te worden.

Audun L. Henriksen, Ole-Johan Skrede, Lisa van der Schee, Enric Domingo, Sepp De Raedt, Ilyá Kostolomov, Jennifer Hay, Karolina Cyll, Wanja Kildal, Joakim Kalsnes, Robert W. Williams, Manohar Pradhan, John Arne Nesheim, Hanne A. Askautrud, Maria X. Isaksen, Karmele Saez de Gordoa, Miriam Cuatrecasas, Joanne Edwards, TransSCOT group, Arild Nesbakken, Neil A. Shepherd, Ian Tomlinson, Daniel-Christoph Wagner, Rachel S. Kerr, Tarjei Sveinsgjerd Hveem, Knut Liestøl, Yoshiaki Nakamura, Marco Novelli, Masaaki Miyo, Sebastian Foersch, David N. Church, Miangela M. Lacle, David J. Kerr, Andreas Kleppe

Gepubliceerd 2026-02-27
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

De "Super-Vertaler" die te veel naar de achtergrond kijkt: Hoe we AI in de pathologie betrouwbaarder maken

Stel je voor dat je een zeer slimme, super-snelle vertaler hebt die gespecialiseerd is in het lezen van oude, handgeschreven brieven. Deze vertaler is getraind op miljoenen brieven van over de hele wereld. Hij kan de inhoud van een brief (bijvoorbeeld: "deze patiënt heeft kanker" of "deze patiënt is gezond") vaak heel goed begrijpen. Dit is wat foundation models (fundamentele modellen) doen in de medische wereld: ze kijken naar microscopische plaatjes van weefsel (zoals een patholoog dat doet) en halen er de belangrijkste informatie uit.

Maar er is een groot probleem.

Het probleem: De "Scanner-geest"

Deze slimme vertalers zijn zo goed getraind, dat ze onbedoeld ook gaan letten op dingen die niets met de ziekte te maken hebben.

  • Als een brief altijd op roze papier wordt geschreven, denkt de vertaler misschien: "Roze papier betekent kanker!"
  • Als een brief altijd met een blauwe inkt is geschreven, denkt hij: "Blauwe inkt betekent gezond!"

In de werkelijkheid van de pathologie zijn die "roze papieren" en "blauwe inkt" eigenlijk verschillen in:

  1. Hoe het weefsel is ingekleurd (door verschillende laboratoria).
  2. Welke microscoopscanner het plaatje heeft gemaakt (verschillende merken, zoals Leica of Hamamatsu).

Als een arts in Noorwegen een AI gebruikt die is getraind op data uit het Verenigd Koninkrijk, kan de AI in de war raken. Hij ziet de "blauwe inkt" (de scanner) en denkt: "Aha, dit is een ander type ziekte!" terwijl het eigenlijk hetzelfde weefsel is. Dit heet shortcut learning: de AI neemt een makkelijk, maar verkeerd, pad in plaats van de echte medische waarheid te zoeken.

De oplossing: Een nieuwe "oefening" voor de AI

De auteurs van dit paper hebben een slimme oplossing bedacht. Ze wilden de AI niet opnieuw helemaal van scratch leren (dat kost jaren en is duur), maar ze wilden hem wel leren om niet naar die "roze papier"-effecten te kijken.

Stel je voor dat je een student leert om een schilderij te analyseren.

  • De oude manier: Je geeft de student één foto van een schilderij en vraagt: "Wat zie je?" De student kijkt naar de lijst en de kleur van de muur op de achtergrond en raadt daarop.
  • De nieuwe manier (de methode uit dit paper): Je geeft de student twee foto's van exact hetzelfde schilderij. Maar één foto is genomen met een camera van merk A, en de andere met een camera van merk B. De foto's zien er net iets anders uit door de camera, maar het schilderij is hetzelfde.

Je zegt tegen de student: "Kijk, dit is precies hetzelfde schilderij. Als je antwoord op vraag 1 (camera A) heel anders is dan je antwoord op vraag 2 (camera B), dan heb je iets verkeerd gedaan. Je moet leren dat de camera er niet toe doet, alleen het schilderij!"

In het paper noemen ze dit het toevoegen van "robustheidsverliezen" (losses) aan de training. Het is een straffysteem in de computercode dat zegt: "Als je voorspelling verandert alleen omdat de scanner veranderde, dan krijg je een straf. Probeer het weer, maar ignoreer de scanner."

Wat hebben ze gedaan?

De onderzoekers hebben dit getest met:

  • 8 verschillende super-AI's (de "foundation models").
  • 27.000 microscopische plaatjes van 6.000 patiënten.
  • Ze gebruikten plaatjes van dezelfde weefselstukken die in verschillende landen en met verschillende scanners waren gescand.

Het resultaat was verbluffend:

  1. Betrouwbaarheid: De AI's werden veel stabieler. Als je hetzelfde weefselstuk scande met een andere machine, gaf de AI nu hetzelfde antwoord. De "inconsistentie" (het verschil in antwoord) daalde drastisch.
  2. Betere diagnose: Door de AI te dwingen om de "scanner-ruis" te negeren, ging hij zich in plaats daarvan focussen op de echte biologische kenmerken. Hierdoor werden de diagnoses zelfs nauwkeuriger.

Waarom is dit belangrijk?

Vroeger dachten veel mensen: "Als we maar genoeg data verzamelen, wordt de AI vanzelf perfect." Dit paper laat zien dat dat niet waar is. Een AI kan heel goed zijn in het herkennen van de "stempel" van een ziekenhuis, maar slecht in het herkennen van kanker.

Met deze nieuwe methode hoeven we de grote, dure foundation modellen niet opnieuw te trainen. We kunnen ze gewoon "bijleren" met deze nieuwe oefening. Hierdoor kunnen we eindelijk AI-systemen bouwen die veilig en betrouwbaar werken in de echte wereld, ongeacht of de patholoog in Oslo, Londen of Tokio werkt, en ongeacht welke scanner ze gebruiken.

Kortom: Ze hebben de AI geleerd om niet naar de "verpakking" (de scanner) te kijken, maar alleen naar de "inhoud" (het weefsel). Hierdoor worden de diagnoses eerlijker en betrouwbaarder voor elke patiënt, overal ter wereld.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →