PathGLS: Evaluating Pathology Vision-Language Models without Ground Truth through Multi-Dimensional Consistency

Each language version is independently generated for its own context, not a direct translation.

PathGLS: De "Leugendetector" voor AI in de Pathologie

Stel je voor dat je een zeer slimme, maar nogal zelfverzekerde assistent hebt die naar microscopische plaatjes van weefsel kijkt (zoals die pathologen doen) en vervolgens een medisch verslag schrijft. Deze assistent is een Vision-Language Model (VLM). Hij kan prachtig schrijven, gebruikt moeilijke woorden en klinkt als een expert. Maar hier zit het probleem: hij kan ook hallucineren. Hij kan een ziekte beschrijven die er niet is, of een gezond stukje weefsel als kanker bestempelen, gewoon omdat het grammaticaal perfect klinkt.

In de echte wereld, waar mensenlevens op het spel staan, kunnen we niet zomaar vertrouwen op een verslag dat er "mooi" uitziet. Maar hoe check je of het waar is als je geen expert hebt die elke keer alles na moet lezen? Dat is het probleem waar deze paper, PathGLS, voor een oplossing biedt.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Mooie Leugen"

Vroeger keken we naar AI-verslagen met meetlatjes die zochten naar overeenkomsten in woorden.

De oude methode (zoals BERTScore): Dit is alsof je een schoolverslag beoordeelt puur op de spelling en zinsbouw. Als de assistent schrijft: "De lever is gezond en bevat cellen in rijen," en dat klinkt perfect, krijgt hij een 10. Maar wat als de lever op de foto eigenlijk vol zit met kankercellen? De oude meetlat ziet dat niet, want de zinnen kloppen. Het is alsof je een leugenaar een 10 geeft omdat hij heel vloeiend liegt.

2. De Oplossing: PathGLS (De Drie-Dimensionale Check)

PathGLS is een nieuw systeem dat niet kijkt naar hoe mooi het verslag is, maar naar hoe waar het is. Het doet dit door de AI op drie verschillende manieren te testen, alsof je een detective bent die een verdachte ondervraagt:

A. De "Anker-Check" (Grounding)

De Analogie: Stel je voor dat de AI zegt: "Ik zie een grote rode vlek op de foto."
De Test: PathGLS kijkt niet alleen naar de tekst, maar zoomt in op de foto. Vraagt het zich af: "Is die rode vlek daar echt?"
Hoe het werkt: Het systeem zoekt in de foto naar het specifieke stukje weefsel dat bij elke zin in het verslag hoort. Als de AI zegt dat er kanker is, maar de foto toont alleen gezonde cellen, krijgt de AI een lage score. Het is alsof je de AI dwingt om zijn vingers op de foto te leggen waar hij over praat.

B. De "Logica-Check" (Logic)

De Analogie: Stel je voor dat de AI zegt: "Deze man heeft een gebroken been, dus hij kan niet lopen, maar hij is vandaag hard gaan rennen."
De Test: Dit is logisch onmogelijk. PathGLS kijkt of de conclusie (hij rent) logisch volgt uit de bewijzen (gebroken been).
Hoe het werkt: Het systeem bouwt een soort "denkboom" op. Als de redenering in het verslag in elkaar klapt (bijvoorbeeld: symptomen A leiden tot ziekte B, maar de conclusie is ziekte C), dan is er een logische fout. PathGLS straft dit zwaar af, zelfs als de zinnen mooi klinken.

C. De "Stabiliteits-Check" (Stability)

De Analogie: Stel je voor dat je de AI een foto geeft, en dan geef je hem een foto van hetzelfde weefsel, maar dan met een heel andere kleur (alsof de inkt van de patholoog anders is). Of je zegt tegen de AI: "Deze patiënt is een atleet," terwijl dat niet waar is, om te zien of hij in de war raakt.
De Test: Een echte expert blijft kalm en geeft hetzelfde antwoord, ongeacht kleine veranderingen of verwarrende informatie. Een onbetrouwbare AI raakt in paniek en verandert zijn verhaal.
Hoe het werkt: PathGLS verandert de foto's en de vragen een beetje. Als het verslag van de AI dan totaal anders wordt, is de AI niet stabiel en dus niet betrouwbaar.

3. Waarom is dit belangrijk?

De paper toont aan dat de oude methoden (zoals BERTScore) blind zijn voor deze fouten. Ze geven een hoge score aan een verslag dat vol leugens zit, zolang het maar goed klinkt.

PathGLS daarentegen is als een onverbiddelijke inspecteur:

Het ziet direct als de AI iets verzint dat niet op de foto staat (Hallucinaties).
Het ziet als de redenering niet klopt.
Het werkt zelfs als er geen "juiste antwoord" (ground truth) beschikbaar is, wat in de medische wereld vaak het geval is.

Conclusie

PathGLS is een vertrouwensmeter voor medische AI. Het zorgt ervoor dat we AI-systemen niet alleen selecteren op basis van hoe goed ze kunnen schrijven, maar op basis van of ze ook kijken, denken en niet in de war raken.

In de toekomst kan dit systeem fungeren als een poortwachter in ziekenhuizen: voordat een AI-verslag naar een arts gaat, wordt het eerst door PathGLS gecheckt. Als de score te laag is (te veel hallucinaties of logische fouten), wordt het verslag teruggestuurd voor menselijke controle. Dit maakt het gebruik van AI in de pathologie veiliger en betrouwbaarder.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Vision-Language Models (VLM's) bieden grote potentie in de computationele pathologie voor het genereren van interpreteerbare rapporten en het ondersteunen van klinische beslissingen. Echter, hun brede klinische adoptie wordt belemmerd door een fundamenteel probleem: het ontbreken van betrouwbare, geautomatiseerde evaluatiemethoden die geen grondwaarheid (ground truth) vereisen.

De "Fluency-Hallucination" Dichotomie: Bestaande VLM's genereren vaak rapporten die grammaticaal perfect zijn, maar semantisch onjuist of "gehallucineerd" (bijv. het beschrijven van niet-bestaande cellulaire kenmerken).
Tekortkomingen van Bestaande Metrieken: Traditionele referentie-gebaseerde metrieken (zoals BLEU en BERTScore) zijn inefficiënt omdat ze belonen voor lexicale overlapping en stijl, maar falen in het detecteren van logische reversies of semantische hallucinaties.
Gebrek aan Grondwaarheid: In klinische settings zijn perfect geannoteerde grondwaarheden voor elke Whole Slide Image (WSI) zelden beschikbaar, waardoor referentie-gebaseerde evaluatie onpraktisch is.

Methodologie: PathGLS

Om deze kloof te dichten, stellen de auteurs PathGLS voor: een referentievrij evaluatiekader dat de betrouwbaarheid van pathologie-VLM's kwantificeert via drie complementaire dimensies. Het systeem fungeert als een "automatische rechter" die een rapport genereert op basis van een invoer (ROI of WSI) en dit beoordeelt zonder externe grondwaarheid.

De drie pijlers van PathGLS zijn:

Grounding (Visueel-tekstuele uitlijning):
- Doel: Verifiëren of elke klinische claim in het rapport objectief wordt ondersteund door visuele bewijsvoering op de dia.
- Techniek: Het maakt gebruik van een High-Resolution Multiple Instance Learning (MIL) strategie. In plaats van de afbeelding te verkleinen (wat diagnostische details zoals nucleaire atypie verliest), wordt de WSI opgesplitst in een "zak" (bag) van patches.
- Berekening: Een visuele encoder en tekst-embeddings worden uitgelijnd via een similariteitsmatrix. De score ( $S_g$ ) wordt bepaald door voor elke klinische entiteit de meest relevante patch te identificeren (spatial argmax) en te middelen. Dit zorgt ervoor dat elke bewering visueel verankerd is.
Logic (Logische consistentie):
- Doel: Het detecteren van interne tegenstrijdigheden en logische hallucinaties binnen het rapport.
- Techniek: Het ongestructureerde rapport wordt omgezet in een gestructureerd kennisgrafiek (premissen en hypothesen). Een domeinspecifiek Natural Language Inference (NLI) model berekent de waarschijnlijkheid van contradicties tussen morfologische beschrijvingen (premissen) en de uiteindelijke diagnose (hypothesen).
- Berekening: Om te voorkomen dat zware fouten worden "verwaterd" door veel juiste zinnen, wordt een Top-K mean aggregation gebruikt. De score ( $S_\ell$ ) straft specifiek de meest contradictorische paren af.
Stability (Robuustheid tegen perturbaties):
- Doel: Meten van de stabiliteit van het model onder klinische distributieveranderingen en cognitieve bias.
- Techniek: Er worden twee soorten aanvalsvectoren toegepast:
  - Visuele perturbatie: Kleurveranderingen via Macenko-stain augmentatie (om variatie in kleuring te simuleren).
  - Semantische aanval: Injectie van valse klinische geschiedenis in de prompt om cognitieve bias te testen.
- Berekening: De semantische afstand ( $\Delta$ ) tussen het originele rapport en de rapporten gegenereerd onder perturbatie wordt gemeten. Een hoge stabiliteitsscore ( $S_s$ ) geeft aan dat het model robuust blijft.

De totale trust-score is een gewogen som: $S_{total} = S_g \times w_g + S_\ell \times w_\ell + S_s \times w_s$ .

Belangrijkste Bijdragen

PathGLS Framework: Een nieuw, referentievrij evaluatieprotocol dat VLM's beoordeelt op visuele verankering, logische consistentie en adversariale stabiliteit.
Dual Adversarial Strategie: Een systematische aanpak om modelrobustheid te testen via stain-perturbaties en semantische injecties, specifiek gericht op klinische verschuivingen.
Multi-Schaal Evaluatie: Ondersteuning voor zowel patch-niveau als WSI-niveau evaluatie, waarbij WSI-analyse wordt verbeterd door een high-resolution MIL-mechanisme dat diagnostische details behoudt.
Uitgebreide Validatie: Experimenten op meerdere publieke en multi-centrum datasets (Quilt-1M, TCGA, REG2025, PathMMU, TCGA-Sarcoma) die aantonen dat PathGLS superieur is aan bestaande methoden.

Resultaten

De experimenten tonen aan dat PathGLS significante verbeteringen biedt ten opzichte van traditionele metrieken en LLM-gebaseerde "judge"-benaderingen:

Sensitiviteit voor Hallucinaties: Op het Quilt-1M dataset toont PathGLS een scherpe daling in score bij hallucinaties, terwijl BERTScore hier blind voor blijft.
- Bij visuele hallucinaties daalt de Grounding-score met 40,2%, terwijl BERTScore slechts met 2,1% daalt.
- Bij logische fouten daalt de Logic-score met 26,4%.
Correlatie met Expert-Error: PathGLS bereikt een sterke Spearman-rangcorrelatie van $\rho = 0,71$ ( $p < 0,0001$ ) met door experts gedefinieerde klinische foutenhiërarchieën. Dit is aanzienlijk beter dan LLM-gebaseerde benaderingen zoals Gemini 3.0 Pro ( $\rho = 0,39$ ).
Stabiliteit: In tegenstelling tot LLM-judges die hoge variantie vertonen, biedt PathGLS deterministische stabiliteit (Standaardafwijking = 0,00).
Domain Shift Robustheid: PathGLS kan modellen die niet generaliseren naar ongeziene cohorten (bijv. van publieke naar private datasets) nauwkeurig straffen, terwijl traditionele metrieken deze vaak onterecht hoog scoren vanwege de vlotte taal.

Betekenis en Conclusie

PathGLS lost een kritiek "vertrouwensparadox" op in de computationele pathologie: het vermogen om te onderscheiden tussen een vlot klinkend rapport en een klinisch veilig rapport.

Klinische Toepassing: Het dient als een betrouwbare, referentievrije maatstaf voor het benchmarken van VLM's op private klinische datasets, waar grondwaarheid vaak ontbreekt.
Veilige Implementatie: Door hallucinatierates en robuustheid tegen domeinverschuivingen direct te kwantificeren, fungeert PathGLS als een "guardrail" voor het veilig in de praktijk brengen van AI-systemen. Het helpt bij het routeren van outputs naar menselijke review of afwijzing voordat ze in de kliniek worden gebruikt.

Kortom, PathGLS verschuift de focus van puur linguïstische kwaliteit naar een holistische beoordeling van visuele waarheid, logische samenhang en klinische stabiliteit.

PathGLS: Evaluating Pathology Vision-Language Models without Ground Truth through Multi-Dimensional Consistency

1. Het Probleem: De "Mooie Leugen"

2. De Oplossing: PathGLS (De Drie-Dimensionale Check)

A. De "Anker-Check" (Grounding)

B. De "Logica-Check" (Logic)

C. De "Stabiliteits-Check" (Stability)

3. Waarom is dit belangrijk?

Conclusie

Probleemstelling

Methodologie: PathGLS

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Exploration and Exploitation Errors Are Measurable for Language Model Agents

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Optimizing Earth Observation Satellite Schedules under Unknown Operational Constraints: An Active Constraint Acquisition Approach

WebXSkill: Skill Learning for Autonomous Web Agents