PSF-Med: Measuring and Explaining Paraphrase Sensitivity in Medical Vision Language Models

Each language version is independently generated for its own context, not a direct translation.

De Kern: Een Dokter die Verandert van Mening als je het Vraagt

Stel je voor dat je een zeer slimme, digitale arts hebt die naar röntgenfoto's van longen kijkt. Deze computer kan vragen beantwoorden zoals: "Is er een longontsteking?" of "Zie je hier een gebroken bot?".

Het probleem dat deze studie ontdekt, is dat deze digitale arts geen stabiel karakter heeft. Als je dezelfde vraag op een andere manier stelt, geeft hij een heel ander antwoord.

Vraag 1: "Is er een pneumothorax?" (Medisch jargon)
- Antwoord: "Nee."
Vraag 2: "Zie je hier een ingezakte long?" (Hetzelfde, maar in gewone taal)
- Antwoord: "Ja!"

Dit is gevaarlijk. Als twee artsen dezelfde patiënt bekijken en verschillende vragen stellen, zou de computer ze tegenstrijdige adviezen moeten geven. Dat is niet betrouwbaar.

Wat hebben de onderzoekers gedaan?

Ze hebben een enorme testbank gemaakt genaamd PSF-Med.

Het idee: Ze namen bijna 20.000 vragen over longfoto's en herschreven elke vraag 3 tot 5 keer, zonder de betekenis te veranderen.
De test: Ze gaven deze vragen aan 6 verschillende medische AI-modellen.
Het resultaat: De modellen waren erg onstabiel. Sommige modellen veranderden hun antwoord in 8% van de gevallen, terwijl andere modellen in 58% van de gevallen van mening veranderden. Dat is een enorm verschil!

De Valstrik: "Snelheid" vs. "Echte Kijk"

Hier wordt het interessant. Je zou denken: "Oké, het model dat het minst van mening verandert (8%), is dus de beste."

Maar de onderzoekers ontdekten iets verrassends: Soms is een stabiel antwoord juist een slecht teken.

Stel je voor dat je een detective hebt die een moordzaak onderzoekt.

Detective A kijkt echt naar de bewijzen op de foto. Als je de vraag anders stelt, twijfelt hij misschien even, omdat hij de foto opnieuw moet interpreteren. Hij is onstabiel, maar hij kijkt wel naar de foto.
Detective B kijkt niet eens naar de foto. Hij leest alleen je vraag en zegt: "Oh, mensen vragen vaak naar longontsteking, dus ik zeg 'nee'." Omdat hij de foto negeert, verandert hij nooit van mening, ongeacht hoe je het vraagt. Hij is stabiel, maar hij is nutteloos.

De onderzoekers ontdekten dat de modellen die het minst van mening veranderden, vaak de foto's negeerden. Ze gaven antwoorden op basis van wat ze in hun training hadden gelezen (taalpatronen), in plaats van wat ze zagen.

De Oplossing: De "Geheime Schakelaar" vinden

Om te begrijpen waarom dit gebeurt, keken ze diep in de hersenen van één van de modellen (MedGemma) met een speciale techniek genaamd Sparse Autoencoders (SAE).

Stel je de hersenen van de AI voor als een enorme machine met duizenden knoppen. De onderzoekers zochten naar de knop die de verwarring veroorzaakt. Ze vonden één specifieke knop (Feature 3818) die reageerde op de stijl van de vraag:

Als de vraag formeel klinkt ("Is er radiografisch bewijs..."), gaat deze knop aan. De AI wordt dan voorzichtig en zegt vaak "Nee".
Als de vraag informeel klinkt ("Zie je hier..."), gaat deze knop uit. De AI wordt dan vrijgevig en zegt vaak "Ja".

Deze knop is de reden waarom de AI van mening verandert. Het is alsof de AI een knop heeft die zegt: "Gebruik ik mijn ogen of gebruik ik mijn taalgevoel?"

Wat hebben ze er aan gedaan?

De onderzoekers deden een experiment: ze blokkeerden die ene knop tijdens het werken van de AI.

Resultaat: De AI veranderde veel minder vaak van mening (de fouten daalden met 31%).
Bonus: De AI keek nu ook meer naar de foto's in plaats van alleen naar de woorden.
Prijs: De nauwkeurigheid daalde heel weinig (slechts 1,3%), wat een kleine prijs is voor zoveel meer betrouwbaarheid.

Conclusie voor de Gemiddelde Mens

Deze studie leert ons twee belangrijke dingen:

Betrouwbaarheid is meer dan alleen een goed cijfer. Een AI die altijd hetzelfde antwoord geeft, is niet per se goed. Hij moet ook echt naar de foto kijken.
De manier waarop je iets vraagt, maakt uit. Voor medische AI's is het cruciaal dat ze niet afhankelijk zijn van de "stijl" van je vraag, maar van de feiten op de foto.

De onderzoekers hebben hun testbank en de code openbaar gemaakt, zodat andere ontwikkelaars hun AI's kunnen testen en verbeteren voordat ze in echte ziekenhuizen worden gebruikt. Het doel is een digitale arts die niet alleen slim is, maar ook stabiel en eerlijk in zijn oordelen.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem: Paraphrase Sensitivity in Medische VLM's

Medische Vision Language Models (VLM's) worden steeds vaker ingezet voor het beantwoorden van klinische vragen over radiologische beelden (zoals röntgenfoto's van de longen). Een kritiek veiligheidsrisico dat in dit paper wordt geïdentificeerd, is paraphrase sensitivity (parafraze-gevoeligheid).

Definitie: Dit is het fenomeen waarbij een model verschillende antwoorden geeft op semantisch identieke vragen die op verschillende manieren zijn geformuleerd. Bijvoorbeeld: een model antwoordt "Nee" op "Is er een pneumothorax?" maar "Ja" op "Toont deze X-ray een geklapte long?", hoewel de klinische betekenis identiek is.
Gevolg: Voor diagnostische tools ondermijnt deze inconsistentie het vertrouwen. Als twee clinici met equivalente vragen tegengestelde antwoorden krijgen, kan geen van beiden op het systeem vertrouwen.
Huidige tekortkoming: Bestaande benchmarks (zoals VQA-RAD) meten voornamelijk nauwkeurigheid op vaste vraagsets, maar testen niet of een model consistent blijft bij natuurlijke herschrijvingen van vragen.

2. Methodologie en Benchmarks

A. De PSF-Med Benchmark

De auteurs hebben een nieuwe benchmark ontwikkeld genaamd PSF-Med om dit probleem op schaal te meten:

Data: Gebaseerd op twee grote datasets: MIMIC-CXR (VS) en PadChest (Spanje).
Opbouw: De benchmark bevat 19.748 klinische vragen over borstfoto's, elk gekoppeld aan 3 tot 5 semantisch equivalente parafrazes. Dit resulteert in ongeveer 92.000 vraag-parafraze-paren.
Generatie: Parafrazes zijn gegenereerd met GPT-4 en gefilterd met BioClinicalBERT (cosine similariteit > 0,90) om te garanderen dat de betekenis behouden blijft terwijl de oppervlaktevorm (lexicon, syntaxis, formaliteit) verandert.
Meting: De kernmeting is de "Flip Rate": het percentage vragen waarbij het model zijn ja/nee-antwoord verandert tussen de originele vraag en ten minste één parafraze.

B. Analyse van Visual Grounding vs. Robuustheid

Om te bepalen of lage flip-rates betekenen dat het model de afbeelding goed analyseert, voeren de auteurs twee extra tests uit:

Text-Only Baselines: Het model krijgt een lege (grijze) afbeelding. Als het antwoord gelijk blijft, vertrouwt het model op taalkennis (priors) in plaats van visuele analyse.
Attention Analysis: Meting van de overlap tussen de model-attentie en door radiologen gemarkeerde pathologische gebieden (bounding boxes) om te zien of het model naar het juiste deel van de afbeelding kijkt.

C. Mechanistische Interpretatie met Sparse Autoencoders (SAE's)

Om de interne werking van het model te begrijpen (waarom flippen gebeurt), gebruiken de auteurs Sparse Autoencoders (SAE's) op het model MedGemma 4B:

Ze gebruiken GemmaScope 2 SAE's om de neurale activaties te decomponeren in interpreteerbare features.
Ze analyseren een gecureerde set van 158 flip-cases (FlipBank) om te zien welke interne features veranderen wanneer de vraag wordt herschreven.
Causal Patching: Ze testen causaliteit door de bijdrage van een specifieke feature te verwijderen (patching) tijdens de inferentie en te kijken of de flip wordt teruggedraaid.

3. Belangrijkste Resultaten

A. Variatie in Flip Rates

De flip-rates variëren sterk tussen verschillende modellen (van 8% tot 58%):

MedGemma-27B presteert het beste (laagste flip-rates).
RadFM en LLaVA-Rad tonen de hoogste gevoeligheid.
Conclusie: Paraphrase-sensitiviteit is geen inherente eigenschap van alle medische VLM's, maar hangt sterk af van de architectuur en training.

B. De Trade-off tussen Robuustheid en Visuele Grounding

Een cruciale ontdekking is dat lage flip-rates niet noodzakelijk betekenen dat het model de afbeelding goed analyseert:

Modellen met lage flip-rates (zoals MedGemma-27B) tonen vaak een hoge Text-Only Agreement. Dit betekent dat ze consistent blijven omdat ze vertrouwen op taalkennis (priors) en de afbeelding negeren.
Modellen die meer naar de afbeelding kijken (hoge "Swap Sensitivity"), zijn soms juist gevoeliger voor parafrazes.
Conclusie: Robuustheid kan een schijnveiligheid zijn gebaseerd op taalkennis in plaats van visueel redeneren.

C. Mechanistische Vindst: Feature 3818

Door SAE-analyse op MedGemma 4B identificeren de auteurs Feature 3818 (op laag 17) als een sleutelmechanisme:

Functie: Deze feature reageert op de formaliteit van de prompt.
- Formele klinische taal (bijv. "Is er radiografisch bewijs van...") activeert de feature sterk $\rightarrow$ het model wordt conservatiever (antwoordt vaker "Nee").
- Informele taal (bijv. "Zie je hier...") activeert de feature niet $\rightarrow$ het model is permissiever (antwoordt vaker "Ja").
Causaliteit: Causal patching toont aan dat het verwijderen van de bijdrage van Feature 3818 gemiddeld 44,8% van de beslissingsmarge herstelt en 15% van de flips volledig ongedaan maakt.

D. Mitigatie Strategieën

Op basis van deze inzichten testen de auteurs twee interventies:

Feature Clamping: Het forceren van Feature 3818 naar nul tijdens inferentie.
- Resultaat: 31% relatieve reductie in flip-rates (van 15,6% naar 10,8%) met slechts een klein verlies in nauwkeurigheid (1,3 procentpunt).
- Effect: Het model wordt minder afhankelijk van tekst-priors en kijkt meer naar de afbeelding.
Prompt Normalisatie: Het standaardiseren van alle vragen naar een vast klinisch template.
- Resultaat: Extra 21% reductie.
- Combinatie: Samen leiden ze tot een 41% reductie in flip-rates.

4. Bijdragen en Significantie

Primaire Bijdragen:

PSF-Med Benchmark: Een uitgebreide dataset van ~92.000 vraag-parafraze-paren voor het testen van consistentie in medische VLM's.
Inzicht in Grounding: Het aantonen dat consistentie (lage flip-rates) niet gelijkstaat aan visuele gronding; modellen kunnen consistent zijn door de afbeelding te negeren.
Mechanistische Analyse: Het identificeren en causaal valideren van een specifieke neurale feature (Feature 3818) die verantwoordelijk is voor prompt-framing effecten.
Praktische Mitigatie: Het demonstreren dat het "clampen" van deze feature de robuustheid aanzienlijk verbetert zonder de prestaties drastisch te schaden.

Significantie voor de Medische AI:
Dit paper waarschuwt dat het evalueren van medische AI alleen op basis van nauwkeurigheid op een vaste testset onvoldoende is. Voor veilige klinische implementatie moeten modellen ook getest worden op:

Paraphrase-stabiliteit: Blijven antwoorden consistent bij herschrijvingen?
Visuele afhankelijkheid: Is die consistentie gebaseerd op het analyseren van de afbeelding of op taalkennis?

De auteurs concluderen dat flip-rates alleen niet genoeg zijn; evaluaties moeten zowel stabiliteit als visuele gronding meten om echte betrouwbaarheid te garanderen. De code en benchmarks worden open-source beschikbaar gesteld om ontwikkelaars te helpen deze problemen aan te pakken voordat modellen in de kliniek worden ingezet.