Enabling clinical use of foundation models in histopathology

Audun L. Henriksen, Ole-Johan Skrede, Lisa van der Schee, Enric Domingo, Sepp De Raedt, Ilyá Kostolomov, Jennifer Hay, Karolina Cyll, Wanja Kildal, Joakim Kalsnes, Robert W. Williams, Manohar Pradhan, John Arne Nesheim, Hanne A. Askautrud, Maria X. Isaksen, Karmele Saez de Gordoa, Miriam Cuatrecasas, Joanne Edwards, TransSCOT group, Arild Nesbakken, Neil A. Shepherd, Ian Tomlinson, Daniel-Christoph Wagner, Rachel S. Kerr, Tarjei Sveinsgjerd Hveem, Knut Liestøl, Yoshiaki Nakamura, Marco Novelli, Masaaki Miyo, Sebastian Foersch, David N. Church, Miangela M. Lacle, David J. Kerr, Andreas Kleppe

Gepubliceerd 2026-02-27

📖 4 min leestijd☕ Koffiepauze-leesvoer

Bekijk op arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

De "Super-Vertaler" die te veel naar de achtergrond kijkt: Hoe we AI in de pathologie betrouwbaarder maken

Stel je voor dat je een zeer slimme, super-snelle vertaler hebt die gespecialiseerd is in het lezen van oude, handgeschreven brieven. Deze vertaler is getraind op miljoenen brieven van over de hele wereld. Hij kan de inhoud van een brief (bijvoorbeeld: "deze patiënt heeft kanker" of "deze patiënt is gezond") vaak heel goed begrijpen. Dit is wat foundation models (fundamentele modellen) doen in de medische wereld: ze kijken naar microscopische plaatjes van weefsel (zoals een patholoog dat doet) en halen er de belangrijkste informatie uit.

Maar er is een groot probleem.

Het probleem: De "Scanner-geest"

Deze slimme vertalers zijn zo goed getraind, dat ze onbedoeld ook gaan letten op dingen die niets met de ziekte te maken hebben.

Als een brief altijd op roze papier wordt geschreven, denkt de vertaler misschien: "Roze papier betekent kanker!"
Als een brief altijd met een blauwe inkt is geschreven, denkt hij: "Blauwe inkt betekent gezond!"

In de werkelijkheid van de pathologie zijn die "roze papieren" en "blauwe inkt" eigenlijk verschillen in:

Hoe het weefsel is ingekleurd (door verschillende laboratoria).
Welke microscoopscanner het plaatje heeft gemaakt (verschillende merken, zoals Leica of Hamamatsu).

Als een arts in Noorwegen een AI gebruikt die is getraind op data uit het Verenigd Koninkrijk, kan de AI in de war raken. Hij ziet de "blauwe inkt" (de scanner) en denkt: "Aha, dit is een ander type ziekte!" terwijl het eigenlijk hetzelfde weefsel is. Dit heet shortcut learning: de AI neemt een makkelijk, maar verkeerd, pad in plaats van de echte medische waarheid te zoeken.

De oplossing: Een nieuwe "oefening" voor de AI

De auteurs van dit paper hebben een slimme oplossing bedacht. Ze wilden de AI niet opnieuw helemaal van scratch leren (dat kost jaren en is duur), maar ze wilden hem wel leren om niet naar die "roze papier"-effecten te kijken.

Stel je voor dat je een student leert om een schilderij te analyseren.

De oude manier: Je geeft de student één foto van een schilderij en vraagt: "Wat zie je?" De student kijkt naar de lijst en de kleur van de muur op de achtergrond en raadt daarop.
De nieuwe manier (de methode uit dit paper): Je geeft de student twee foto's van exact hetzelfde schilderij. Maar één foto is genomen met een camera van merk A, en de andere met een camera van merk B. De foto's zien er net iets anders uit door de camera, maar het schilderij is hetzelfde.

Je zegt tegen de student: "Kijk, dit is precies hetzelfde schilderij. Als je antwoord op vraag 1 (camera A) heel anders is dan je antwoord op vraag 2 (camera B), dan heb je iets verkeerd gedaan. Je moet leren dat de camera er niet toe doet, alleen het schilderij!"

In het paper noemen ze dit het toevoegen van "robustheidsverliezen" (losses) aan de training. Het is een straffysteem in de computercode dat zegt: "Als je voorspelling verandert alleen omdat de scanner veranderde, dan krijg je een straf. Probeer het weer, maar ignoreer de scanner."

Wat hebben ze gedaan?

De onderzoekers hebben dit getest met:

8 verschillende super-AI's (de "foundation models").
27.000 microscopische plaatjes van 6.000 patiënten.
Ze gebruikten plaatjes van dezelfde weefselstukken die in verschillende landen en met verschillende scanners waren gescand.

Het resultaat was verbluffend:

Betrouwbaarheid: De AI's werden veel stabieler. Als je hetzelfde weefselstuk scande met een andere machine, gaf de AI nu hetzelfde antwoord. De "inconsistentie" (het verschil in antwoord) daalde drastisch.
Betere diagnose: Door de AI te dwingen om de "scanner-ruis" te negeren, ging hij zich in plaats daarvan focussen op de echte biologische kenmerken. Hierdoor werden de diagnoses zelfs nauwkeuriger.

Waarom is dit belangrijk?

Vroeger dachten veel mensen: "Als we maar genoeg data verzamelen, wordt de AI vanzelf perfect." Dit paper laat zien dat dat niet waar is. Een AI kan heel goed zijn in het herkennen van de "stempel" van een ziekenhuis, maar slecht in het herkennen van kanker.

Met deze nieuwe methode hoeven we de grote, dure foundation modellen niet opnieuw te trainen. We kunnen ze gewoon "bijleren" met deze nieuwe oefening. Hierdoor kunnen we eindelijk AI-systemen bouwen die veilig en betrouwbaar werken in de echte wereld, ongeacht of de patholoog in Oslo, Londen of Tokio werkt, en ongeacht welke scanner ze gebruiken.

Kortom: Ze hebben de AI geleerd om niet naar de "verpakking" (de scanner) te kijken, maar alleen naar de "inhoud" (het weefsel). Hierdoor worden de diagnoses eerlijker en betrouwbaarder voor elke patiënt, overal ter wereld.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Hoewel foundation models (basismodellen) voor histopathologie veelbelovend zijn voor het ontwikkelen van robuuste deep learning-systemen, blijken deze modellen in de praktijk gevoelig te zijn voor niet-biologische variatie.

Shortcut Learning: Deep learning-modellen neigen er niet alleen naar biologisch relevante kenmerken te leren, maar ook naar "spuriële correlaties" in de trainingsdata. In de pathologie zijn dit vaak technische artefacten veroorzaakt door verschillen in pre-analytische verwerking (weefselbereiding), kleuringen en digitale scanners.
Gebrek aan Robuustheid: Bestaande foundation modellen coderen de herkomst van het laboratorium of het type scanner prominenter dan de onderliggende biologische ziektekenmerken. Dit leidt tot modellen die onbetrouwbare voorspellingen leveren wanneer ze worden toegepast op data van een ander laboratorium of scanner dan waarvoor ze zijn getraind.
Klinische Beperking: Voor routinematig klinisch gebruik is het cruciaal dat modellen generaliseren naar nieuwe data. Huidige modellen falen hierin vaak omdat ze afhankelijk zijn van de specifieke "scanner-identiteit" in plaats van de tumorbiologie.

Methodologie

De auteurs stellen een nieuwe trainingsstrategie voor die de robuustheid van downstream taken verbetert zonder de foundation models zelf opnieuw te hoeven trainen.

1. Data-Setup:

Er werd gebruikgemaakt van een uitgebreide experimentele opstelling met 27.042 Whole Slide Images (WSI's) van 6.155 patiënten.
Het dataset omvatte meerdere scans van hetzelfde weefselstuk, gemaakt met verschillende scanners (bijv. Aperio, Hamamatsu, KF-PRO, Pannoramic) en soms in verschillende laboratoria (VK, Noorwegen, Duitsland, Japan).
Twee klinische taken werden getest:
1. Voorspelling van overlevingsuitkomst bij colorectale kanker (CRC).
2. Voorspelling van lymfekliermetastasen (LNM) bij pT1 CRC.

2. Architectuur en Training:

Feature Extractie: Kenmerken werden geëxtraheerd uit acht populaire foundation modellen (o.a. Virchow2, UNI, H-Optimus, Phikon-v2).
Attention-based Multiple Instance Learning (MIL): De standaard aanpak waarbij tile-kenmerken worden gepooled tot een slide-level voorspelling.
Nieuwe Loss-functies: De kerninnovatie is het toevoegen van twee extra verlies termen tijdens het trainen van de downstream-taak (de "head"), naast de standaard classificatieverlies:
- Contrastive Loss (Embedding Loss): Gebaseerd op InfoNCE. Deze term trekt de features van hetzelfde fysieke weefselgebied (gebeeld op verschillende scanners) naar elkaar toe en duwt features van verschillende patiënten uit elkaar.
- Score Loss (MSE): Deze term straft verschillen in de uiteindelijke voorspellingsscore (slide-level) af tussen de gepaarde scans van dezelfde patiënt.
Regulering: Een gewichtsfactor ( $\lambda$ ) bepaalt de balans tussen de standaard classificatie en de robuustheidsverliezen.

3. Registratie:
Om exact dezelfde fysieke gebieden te vergelijken, werden de WSIs van verschillende scanners op elkaar afgestemd (ge-registerd) met behulp van elastix. Hierna werden corresponderende tegels (tiles) geselecteerd voor training.

Belangrijkste Bijdragen

Robuustheid zonder Hertraining: De methode lost het robuustheidsprobleem op door de downstream-taak te regulariseren, zonder dat de zware foundation models zelf opnieuw getraind hoeven te worden.
Universele Toepasbaarheid: De aanpak werkt effectief voor acht verschillende foundation modellen en twee verschillende klinische taken, wat aantoont dat het een generieke oplossing is voor het veld.
Focus op Biologische Kenmerken: Door de modeloutput te forceren om consistent te zijn over verschillende scanners, wordt het model gedwongen zich te richten op de biologisch relevante informatie in de features in plaats van op scanner-specifieke artefacten.
Grote Schaal Validatie: Het onderzoek omvat een van de grootste experimentele setups tot nu toe, met duizenden modellen die zijn getraind en getest op externe datasets.

Resultaten

Verbeterde Consistentie: De toepassing van de robuustheidsverliezen leidde tot een drastische reductie in inconsistentie (variabiliteit in voorspelling voor dezelfde patiënt op verschillende scanners).
- De inconsistentie daalde van gemiddeld ~0,25-0,52 (zonder loss) naar <0,20 (met loss) voor alle modellen.
- De overeenkomst in classificatie (agreement) tussen scans van dezelfde patiënt steeg van ~80-90% naar >95% voor de meeste modellen.
Verbeterde Voorspellingsnauwkeurigheid: Interessant genoeg leidde de verbeterde robuustheid ook tot een significante stijging in de voorspellende nauwkeurigheid (c-index voor overleving, AUC voor LNM).
- Bijvoorbeeld: Voor Virchow-2 steeg de AUC voor LNM-voorspelling van 0,64 naar 0,73.
- Dit suggereert dat het verwijderen van ruis (technische variatie) het model helpt om de echte biologische signalen beter te leren.
Linear Probing: Tests toonden aan dat foundation modellen scanners met bijna 100% nauwkeurigheid kunnen identificeren op basis van hun features. Na toepassing van de robuustheidsverliezen nam deze afhankelijkheid van de scanner af, terwijl de biologische specificiteit toenam.
Vergelijking met Bestaande Werk: De voorgestelde methode presteerde beter dan eerdere benaderingen (zoals die van Carloni et al.) die alleen de tile-features regulariseerden. Door ook de slide-level score te regulariseren, wordt robuustheid door de hele netwerkarchitectuur geforceerd.

Significantie en Conclusie

Dit onderzoek is van groot belang voor de klinische implementatie van AI in de pathologie:

Klinische Haalbaarheid: Het opent de deur voor het gebruik van foundation models in de dagelijkse praktijk, waar data vaak van verschillende scanners en laboratoria komt.
Efficiëntie: Het biedt een kostenefficiënte oplossing die geen hertraining van enorme foundation models vereist, maar wel de prestaties van de downstream modellen aanzienlijk verbetert.
Betrouwbaarheid: Het verhoogt het vertrouwen in AI-voorspellingen door te garanderen dat deze gebaseerd zijn op ziektebiologie en niet op technische artefacten.

De auteurs concluderen dat het introduceren van deze robuustheidsverliezen een essentiële stap is om de potentie van foundation models in de histopathologie volledig te realiseren en ze veilig en betrouwbaar te maken voor routinematig klinisch gebruik.

Enabling clinical use of foundation models in histopathology

Het probleem: De "Scanner-geest"

De oplossing: Een nieuwe "oefening" voor de AI

Wat hebben ze gedaan?

Waarom is dit belangrijk?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Significantie en Conclusie

Meer zoals dit

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems