Logit-Level Uncertainty Quantification in Vision-Language Models for Histopathology Image Analysis

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, digitale arts hebt die naar foto's van weefsel (zoals onder een microscoop) kan kijken en vervolgens een diagnose kan stellen. Dit zijn de Vision-Language Models (VLM's) waar dit onderzoek over gaat. Ze zijn als een superintelligente assistent die zowel plaatjes als tekst begrijpt.

Maar hier is het probleem: in de medische wereld mag je geen fouten maken. Als die digitale arts twijfelt, moet je dat weten. Als hij "zeker" zegt, maar eigenlijk twijfelt, kan dat levensgevaarlijk zijn.

De auteurs van dit paper hebben een nieuwe manier bedacht om te checken: "Hoe zeker is deze AI eigenlijk?" Ze noemen dit onzekerheidsmeting (Uncertainty Quantification).

Hier is de uitleg in simpele taal, met een paar leuke vergelijkingen:

1. Het Experiment: De "Temperatuur" van de AI

Stel je voor dat je een AI vraagt om een diagnose te stellen. Je kunt de AI instellen op verschillende "temperatuurstanden":

Temperatuur 0 (Koud): De AI is als een robot die altijd precies hetzelfde zegt. Ze denkt niet na, ze pakt gewoon het eerste beste antwoord dat ze kent. Ze is deterministisch (voorspelbaar).
Temperatuur 1 (Heet): De AI is als een creatieve kunstenaar die net een glas wijn heeft gedronken. Ze is wat losser, maakt soms grappige keuzes, en kan bij dezelfde vraag een heel ander antwoord geven. Ze is stochastisch (willekeurig).

De onderzoekers hebben deze "AI-artsen" 30 keer dezelfde vraag gesteld, bij verschillende temperaturen, om te zien hoe ze reageren.

2. De Drie "Artsen" die ze hebben getest

Ze hebben drie verschillende modellen getest, elk met een ander karakter:

De "Alleskunner" (VILA-M3): Dit is een slimme AI die van alles weet (geschiedenis, wiskunde, plaatjes), maar niet specifiek is getraind voor ziektecellen.
- Hoe gedraagt hij zich? Hij is redelijk stabiel bij simpele vragen, maar als je hem iets moeilijks vraagt (zoals een complexe diagnose), begint hij te "zweten". Zijn antwoorden worden steeds wisselvalliger naarmate de temperatuur stijgt. Hij is als een student die goed is in algemene kennis, maar bij medische vakken gaat twijfelen.
De "Medische Specialist" (LLaVA-Med): Deze AI is getraind met medische teksten en foto's.
- Hoe gedraagt hij zich? Bij simpele vragen (zoals "wat is dit celletje?") is hij superzeker en stabiel. Maar zodra je hem een complexe vraag stelt (zoals "hoe zwaar is de kanker en wat is de behandeling?"), crasht zijn zekerheid. Hij wordt dan net zo onzeker als de alleskunner. Het is alsof hij zijn medische boekjes heeft gelezen, maar nog niet genoeg ervaring heeft met moeilijke gevallen.
De "Pathologie-Expert" (PRISM): Dit is een model dat specifiek is gebouwd voor weefselanalyse.
- Hoe gedraagt hij zich? Dit is de held van het verhaal. Zelfs als je de temperatuur op het heetst zet, blijft hij bijna hetzelfde antwoord geven. Hij is als een oude, ervaren patholoog die al 40 jaar werkt: hij twijfelt niet snel, wat je ook vraagt. Hij is zo stabiel dat de "warmte-instelling" er bijna geen invloed op heeft.

3. Hoe meten ze dit? (De "Logits")

In plaats van alleen naar het eindantwoord te kijken (bijvoorbeeld "Ja, het is kanker"), kijken ze naar de ruwe gedachten van de AI voordat hij het antwoord uitkiest. Dit noemen ze logits.

Stel je voor dat de AI een lijstje maakt met mogelijke antwoorden en een waarschijnlijkheid geeft:

Antwoord A: 90% kans
Antwoord B: 5% kans
Antwoord C: 5% kans

Als de AI twijfelt, ziet die lijst er anders uit:

Antwoord A: 40%
Antwoord B: 35%
Antwoord C: 25%

De onderzoekers hebben gekeken of die lijstjes bij elke herhaling hetzelfde blijven.

Cosine Similariteit: Dit meet of de AI in dezelfde richting kijkt. Als de lijnen van de lijsten perfect parallel lopen, is hij zeker.
Divergentie (KL en JS): Dit meet hoe ver de lijsten van elkaar afwijken. Hoe groter het verschil, hoe meer de AI twijfelt.

4. De Grote Leerervaringen

Complexiteit maakt het lastig: Hoe moeilijker de vraag, hoe onzekerder de AI wordt (behalve bij de echte expert PRISM).
Specifiek is beter: Een AI die specifiek is getraind voor een taak (zoals PRISM voor weefsel) is veel betrouwbaarder dan een algemene AI die ook medisch kan doen.
Temperatuur is een valstrik: Als je een AI te "warm" maakt (te creatief), wordt hij onbetrouwbaar voor medische diagnoses. Voor simpele taken mag het iets warmer, maar voor complexe diagnoses moet je de temperatuur laag houden.

Conclusie in het kort

Dit onderzoek zegt eigenlijk: "Vertrouw niet zomaar op een AI-arts."

Voordat we AI in ziekenhuizen gaan gebruiken, moeten we eerst weten hoe "zeker" ze zijn. De onderzoekers hebben een meetlat ontwikkeld om dit te checken. Ze ontdekten dat de specifieke expert (PRISM) het beste werkt, maar dat de andere modellen bij moeilijke vragen snel twijfelen.

Het is alsof je een tweede mening vraagt aan een arts: als die arts begint te zweten en zijn antwoord telkens verandert, dan moet je als patiënt weten dat er twijfel is. Deze studie geeft ons de tool om die twijfel te meten, zodat we veiligere AI-systemen kunnen bouwen voor de gezondheidszorg.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Vision-Language Models (VLMs) hebben indrukwekkende prestaties geleverd in diverse domeinen, maar hun toepassing in de gezondheidszorg, en specifiek in de histopathologie, brengt kritieke uitdagingen met zich mee. De gevoeligheid van medische data en de noodzaak aan betrouwbaarheid (betrouwbaarheid, transparantie en veiligheid) vereisen dat modellen niet alleen accurate voorspellingen doen, maar ook hun onzekerheid kunnen kwantificeren.

Bestaande studies focussen vaak op token-niveau diversiteit of oppervlakkige nauwkeurigheid, wat onvoldoende inzicht biedt in de onderliggende probabilistische stabiliteit van het model. Er is een gebrek aan systematische methoden om de onzekerheid van VLMs op logit-niveau (de ruwe uitgangscores van het model vóór normalisatie) te analyseren, vooral bij complexe diagnostische taken. Zonder deze diepgaande analyse riskeren artsen om te vertrouwen op modellen die bij complexe vraagstukken onvoorspelbaar of "hallucinerend" kunnen reageren.

Methodologie

De auteurs stellen een model-agnostisch framework voor voor onzekerheidskwantificatie (UQ) dat werkt op het niveau van de output-logits. Het onderzoek omvat drie heterogene VLMs:

VILA-M3-8B: Een algemeen doel VLM.
LLaVA-Med v1.5: Een biomedisch gespecialiseerd VLM.
PRISM: Een op pathologie gespecialiseerd VLM (met de Virchow-encoder).

Experimenteel Opzet:

Dataset: Een representatieve subset van 100 histopathologie-patches (uit de ARCH-dataset) die het volledige embedding-ruimte van de modellen dekt.
Prompts: Drie niveaus van diagnostische complexiteit:
1. Basis cellulaire morfologie (Q1).
2. Intermediaire weefseldiagnose met grading (Q2).
3. Geavanceerde systematische kwantitatieve analyse (Q3).
Temperatuur-sweep: De modellen werden getest met 11 temperatuurwaarden ( $T$ ) variërend van 0.0 (deterministisch) tot 1.0 (maximale stochastische variatie).
Iteraties: Voor elke combinatie van afbeelding, prompt en temperatuur werden $N=30$ generaties uitgevoerd om statistische significantie te garanderen.

Analyse-metrics:
In plaats van alleen de gegenereerde tekst te vergelijken, worden de logits (de ruwe scores) van elke iteratie opgeslagen en vergeleken met behulp van vier complementaire metrics:

Cosine Similarity (CS): Meet de hoekige uitlijning tussen logit-vectoren (richtingsconsistentie).
Jensen-Shannon (JS) Divergentie: Een symmetrische maat voor de verschillen in kansverdelingen.
Kullback-Leibler (KL) Divergentie: Een asymmetrische maat voor de mate waarin één verdeling afwijkt van een andere.
Mean Absolute Error (MAE): Meet de directe variabiliteit in de magnitude van de logit-waarden.

Daarnaast werd gebruik gemaakt van t-SNE om de visuele embedding-ruimtes te visualiseren en te analyseren.

Belangrijkste Bijdragen

Logit-Level UQ Framework: Een nieuwe aanpak die onzekerheid direct in de continue kansruimte van de logits analyseert, in plaats van alleen op token-niveau. Dit biedt een robuustere maatstaf voor modelstabiliteit.
Vergelijkende Analyse: Een systematische evaluatie van een algemeen, een biomedisch en een pathologie-specifiek model, wat inzicht geeft in hoe domeinspecialisatie de onzekerheid beïnvloedt.
Temperatuur-afhankelijke Karakterisering: Een rigoureuze kwantificering van hoe stochastische sampling (gecontroleerd via temperatuur) de voorspellingstrouw en stabiliteit beïnvloedt bij verschillende complexiteitsniveaus.
Prompt-Complexiteit Stratificatie: Het aantonen dat onzekerheid niet alleen van het model afhangt, maar sterk correleert met de complexiteit van de diagnostische vraag.

Resultaten

De resultaten tonen een scherp contrast in gedrag tussen de modellen:

PRISM (Pathologie-specifiek):
- Toont bijna deterministisch gedrag over het hele temperatuurbereik.
- Hoge Cosine Similarity (> 0.90) en zeer lage divergentie (JS/KL < 0.10) zelfs bij complexe prompts (Q3) en hoge temperaturen.
- Dit suggereert dat de architectuur van PRISM inherent minder gevoelig is voor stochastische variatie, wat het zeer betrouwbaar maakt voor diagnostische taken, hoewel dit betekent dat standaard temperatuur-tuning minder effectief is voor het kwantificeren van onzekerheid bij dit specifieke model.
VILA-M3-8B (Algemeen):
- Toont een gemiddelde tot hoge temperatuur-gevoeligheid.
- De consistentie daalt monotoon naarmate de temperatuur stijgt. Bij complexe vragen (Q3) is de onzekerheid het grootst (lage CS, hoge divergentie).
- Het model is minder robuust voor gespecialiseerde histopathologische taken dan PRISM.
LLaVA-Med v1.5 (Biomedisch):
- Toont een dubbelzinnig gedrag afhankelijk van de prompt-complexiteit.
- Voor basisvragen (Q1) is het zeer stabiel en betrouwbaar.
- Voor complexe vragen (Q2 en Q3) vertoont het een abrupte overgang naar hoge onzekerheid en stochastische variatie. De onzekerheid neemt exponentieel toe met de temperatuur, wat aangeeft dat het model moeite heeft met geavanceerde kwantitatieve diagnostiek.

Overige bevindingen:

Er is een sterke negatieve correlatie tussen Cosine Similarity en divergentie-metrics (JS/KL), wat bevestigt dat deze metrics complementaire aspecten van dezelfde onzekerheid meten.
Bij hoge temperaturen ( $T \geq 0.8$ ) convergeren de prestaties van alle modellen, wat suggereert dat intense temperatuurscaling de specifieke modelkarakteristieken overwint.

Betekenis en Conclusie

De studie benadrukt dat "vertrouwen" in VLMs voor histopathologie context-afhankelijk is. Een model dat betrouwbaar lijkt bij eenvoudige taken, kan extreem onzeker worden bij complexe diagnostische vraagstukken.

Klinische Impact: Het kwantificeren van stochastische variatie op logit-niveau fungeert als een numeriek equivalent van een "tweede mening". Outputs met hoge onzekerheid moeten door specialisten met extra aandacht worden geïnterpreteerd.
Aanbevelingen: Voor klinische toepassingen moeten temperatuurinstellingen worden geoptimaliseerd op basis van zowel het modeltype als de complexiteit van de vraag. Voor PRISM zijn alternatieve perturbatiemethoden nodig (aangezien temperatuur-tuning weinig effect heeft), terwijl voor VILA-M3 en LLaVA-Med lage temperaturen ( $T \leq 0.3 - 0.4$ ) essentieel zijn om betrouwbaarheid te garanderen bij complexe taken.

Dit framework biedt een cruciale tool voor onderzoekers en zorgverleners om de grenzen van AI in de pathologie te begrijpen en veilige, transparante mens-AI samenwerking te faciliteren.

Logit-Level Uncertainty Quantification in Vision-Language Models for Histopathology Image Analysis

1. Het Experiment: De "Temperatuur" van de AI

2. De Drie "Artsen" die ze hebben getest

3. Hoe meten ze dit? (De "Logits")

4. De Grote Leerervaringen

Conclusie in het kort

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Integrating Artificial Intelligence, Physics, and Internet of Things: A Framework for Cultural Heritage Conservation

Scaling DPPs for RAG: Density Meets Diversity

DRAFT: Task Decoupled Latent Reasoning for Agent Safety

General Explicit Network (GEN): A novel deep learning architecture for solving partial differential equations

Apparent Age Estimation: Challenges and Outcomes