PRIMA: Pre-training with Risk-integrated Image-Metadata Alignment for Medical Diagnosis via LLM

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een dokter een diagnose moet stellen. In de echte wereld kijkt een arts niet alleen naar een foto van een huidlaesie (een vlekje op de huid). De arts kijkt ook naar de geschiedenis van de patiënt: Is de persoon oud of jong? Heeft de familie al eens huidkanker gehad? Hoeveel tijd heeft de persoon in de zon doorgebracht?

Huidige computersystemen voor medische diagnoses doen vaak alsof ze alleen naar de foto kijken en de rest negeren. Ze missen dus de "context".

Het paper PRIMA introduceert een slimme nieuwe manier om dit op te lossen. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Blindeman" met een Camera

Stel je een zeer slimme camera voor (een AI) die foto's van huidvlekken kan bekijken. Deze camera is goed, maar hij is een beetje "blind" voor de rest van het verhaal.

De oude manier: De camera kijkt alleen naar de foto en zegt: "Dit lijkt op een onschuldige moedervlek." Maar omdat de patiënt 60 jaar is, veel in de zon heeft gezeten en een familiegeschiedenis heeft, is het eigenlijk huidkanker. De camera mist deze belangrijke aanwijzingen.

2. De Oplossing: PRIMA (De Slimme Detective)

PRIMA is als een detective die niet alleen naar het bewijsmateriaal (de foto) kijkt, maar ook naar het dossier (de medische gegevens) en een expert raadpleegt voordat hij een oordeel velt.

Het proces bestaat uit drie stappen:

Stap 1: De "Super-Detective" Opleiden (Kennis Injecteren)

Voordat de detective aan het werk gaat, sturen we hem naar de bibliotheek.

Hoe werkt het? De wetenschappers gebruiken geavanceerde AI (zoals GPT en Gemini) om duizenden medische artikelen te lezen. Ze vragen de AI: "Wat is de relatie tussen 'zonblootstelling' en 'huidkanker'?"
Het resultaat: De AI maakt een soort "Gouden Gids" of een kennisbank. Hierin staat niet alleen "zon = slecht", maar een gedetailleerde uitleg van experts.
De truc: Ze trainen een taalmodel (een AI die tekst begrijpt) op deze gids. Zo leert de AI de "taal" van de artsen en de subtiele verbanden tussen risicofactoren en ziektes, zonder dat ze duizenden patiëntfoto's nodig hebben.

Stap 2: De Foto en het Dossier Samenvoegen (De Dans)

Nu moeten we de foto (visueel) en de tekst (medische gegevens) laten "praten" met elkaar.

De uitdaging: Een foto en een zin over "familiegeschiedenis" zijn als twee verschillende talen. Ze moeten vertaald worden naar een gemeenschappelijke taal.
De oplossing: PRIMA gebruikt vier verschillende regels (verliezen) om ze perfect op elkaar af te stemmen:
1. Consistentie: Als we twee foto's van dezelfde persoon maken, moeten ze op elkaar lijken (zelfs als ze iets anders zijn ingeslikt).
2. Globale betekenis: De hoofdgedachte van de foto moet overeenkomen met de hoofdgedachte van de tekst.
3. Lokale details: Dit is het slimste deel. De AI leert dat een specifiek woord in de tekst (bijv. "onregelmatige rand") precies overeenkomt met een specifiek stukje op de foto. Het is alsof de AI een vergrotingsglas gebruikt om te zien waar het woord en de vlek elkaar raken.
4. Zachte waarschuwingen: Soms is het niet 100% duidelijk. PRIMA gebruikt "zachte labels" om rekening te houden met onzekerheid, net als een arts die zegt: "Het lijkt wel op X, maar we moeten Y ook in gedachten houden."

Stap 3: De Finale Beslissing (De Chef-Kok)

Uiteindelijk hebben we een perfecte mix van foto-informatie en medische kennis.

De rol van Qwen-3: Dit is een grote taalmodel (LLM) dat fungeert als de Chef-Kok. Hij neemt alle ingrediënten (de foto-features en de tekst-features) en mixt ze tot één perfecte maaltijd: de diagnose.
In plaats van dat de AI vrijuit begint te dromen (hallucineren), wordt hij beperkt tot een lijst met mogelijke diagnoses (zoals "Melanoom" of "Goedaardig"). Zo krijgt hij een nauwkeurig en veilig antwoord.

Waarom is dit zo speciaal?

Geen enorme datasets nodig: Veel andere systemen hebben miljoenen foto's nodig om te leren. PRIMA leert eerst uit boeken (kennis) en past dat dan toe op de foto's. Het is alsof je eerst een boek over auto's leest voordat je gaat racen, in plaats van duizenden ongelukken te moeten zien om te leren hoe een auto werkt.
Robuust: Het werkt goed, zelfs als de data niet perfect is.
Resultaat: Op tests met echte patiëntdata bleek PRIMA veel beter te zijn dan de beste bestaande systemen. Het combineert het beste van twee werelden: het visuele inzicht van de camera en de diepe kennis van de arts.

Kortom: PRIMA is een systeem dat een foto bekijkt en tegelijkertijd denkt: "Ik zie een vlek, maar ik weet ook dat deze patiënt veel risico's heeft, dus ik moet extra oppassen." Het maakt de computer niet alleen slimmer, maar ook wijzer.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Medische diagnose vereist de effectieve synthese van visuele manifestaties (zoals medische beelden) en klinische metadata (zoals risicofactoren, leeftijd, geslacht). Bestaande methoden hebben echter enkele kritieke tekortkomingen:

Isolatie van metadata: Metadata wordt vaak behandeld als losse tags in plaats van rijke semantische kennis, waardoor de context van klinische beschrijvingen verloren gaat.
Data-schaarste: Veel methoden zijn afhankelijk van enorme datasets, wat onhaalbaar is voor zeldzame ziekten of gespecialiseerde taken waar patiëntcohorten beperkt zijn.
Beperkte generalisatie: Traditionele diepe leermodellen (zoals ResNet of ViT) analyseren vaak slechts één afbeelding zonder rekening te houden met de heterogene aard van real-world klinische data en risicoprofielen.
Afhankelijkheid van grote modellen: Bestaande Vision-Language-modellen (zoals CLIP-varianten) zijn vaak data-intensief en gevoelig voor kwaliteit, en missen specifieke medische priors zonder massieve pre-training.

Methodologie: PRIMA Framework

PRIMA (Pre-training with Risk-integrated Image-Metadata Alignment) is een drie-staps framework dat domeinspecifieke kennis integreert in multi-modale representatieleren. De architectuur bestaat uit de volgende fasen:

1. Corpus Curation en Injectie van Kennispriori's (Stage 1)

Om de tekortkomingen van standaard LLM's in medische contexten aan te pakken, creëren de auteurs een gespecialiseerde kennisbank:

Retrieval-Augmented Generation (RAG): Er worden publieke medische literatuur (PubMed) en expert-artikelen gebruikt. GPT-5.1 en Gemini-2.5 genereren gestructureerde beschrijvingen van de relatie tussen risicofactoren (bijv. leeftijd, blootstelling aan zon) en zes huidlaesie-diagnoses.
Validatie: Deze gegenereerde content wordt geverifieerd door senior artsen.
Fine-tuning: Een Clinical ModernBERT encoder wordt gefine-tuned op dit corpus via Masked Language Modeling (MLM). Om rekenkracht te besparen, wordt LoRA (Low-Rank Adaptation) gebruikt, waarbij slechts 1% van de parameters wordt bijgewerkt. Dit injecteert diagnostische priors in de tekstencoder zonder enorme datasets te vereisen.

2. Risico-geïntegreerde Afbeelding-Metadata Uitlijning (Stage 2)

De kern van PRIMA is een dual-encoder pre-training strategie die visuele en tekstuele features uitlijnt:

Encoders: DINOv3 wordt gebruikt als visuele backbone en de verfijnde Clinical ModernBERT als tekstencoder.
Uitlijningsstrategie: Er worden vier complementaire verliesfuncties (loss functions) gebruikt om multi-granulaire uitlijning te bereiken:
1. Image Consistency Loss ( $\mathcal{L}_{img}$ ): Zorgt voor intra-patiënt consistentie door globale visuele features van verschillende scans van dezelfde patiënt op elkaar af te stemmen.
2. Global Semantic Loss ( $\mathcal{L}_{glo}$ ): Synchroniseert globale visuele tokens met tekstuele tokens voor hoog-niveau semantische uitlijning.
3. Local Semantic Loss ( $\mathcal{L}_{loc}$ ): Gebruikt een attention-mechanisme om fijne correlaties tussen specifieke beeldpatches en tekstuele tokens te vangen (bijv. het koppelen van "irreguliere randen" aan het beeldgedeelte).
4. Soft Semantic Loss ( $\mathcal{L}_{soft}$ ): Lost de beperkingen van strikte 1-op-1 mapping op door zachte labels te gebruiken gebaseerd op metadata-similariteit, wat helpt bij het hanteren van klinische ambiguïteit.
Na deze uitlijning ondergaat de beeldencoder nog een supervised fine-tuning met ground-truth labels.

3. Feature Integratie via Large Language Model (Stage 3)

De uitgelijnde features (globale en lokale tokens van zowel beeld als tekst) worden geprojecteerd en samengevoegd.
Qwen-3 (een Large Language Model) fungeert als de fusie-engine.
Efficiëntie: Ook hier wordt LoRA gebruikt om slechts een klein deel van de parameters bij te werken.
Vocabulaire-beperking: Om hallucinaties te voorkomen, wordt de output beperkt tot een vooraf gedefinieerde subset van klinische klassen (logits worden alleen berekend voor deze klassen).

Belangrijkste Bijdragen

Kennis-verrijkte Encoding: Het tillen van metadata naar semantische kennis door ClinicalBERT te fine-tunen op een RAG-gebaseerd corpus, wat domein-priors injecteert zonder enorme gepaarde datasets.
Multi-Granulaire Uitlijning: Een veelzijdige strategie met vier complementaire verliesfuncties die globale en lokale uitlijning tussen diverse modaliteiten orchestreert, wat flexibiliteit biedt voor heterogene klinische data.
LLM-gedreven Diagnose: Een unificatie van uitgelijnde features via Qwen-3, wat state-of-the-art prestaties en robuuste generalisatie mogelijk maakt.

Resultaten

PRIMA is geëvalueerd op twee datasets: PAD-UFES-20 (huidlaesies) en AQUA (een privé-dataset voor bacteriële en schimmelig keratitis).

Prestaties: PRIMA presteert significant beter dan state-of-the-art baselines (zoals MedKLIP, KnoBo, MedBLIP en pure beeldmodellen zoals DINOv3).
- Op PAD-UFES-20: Bereikte een F1-score van 73,75% en een nauwkeurigheid van 78,27%.
- Op AQUA: Bereikte een F1-score van 85,22% en een nauwkeurigheid van 86,04%.
Ablatie-studie: De studie bevestigt dat elk onderdeel essentieel is. Het verwijderen van de kennis-pretraining of de specifieke verliesfuncties (zoals $\mathcal{L}_{loc}$ of $\mathcal{L}_{soft}$ ) leidt tot een merkbare prestatiedaling.
Robuustheid: Het framework behaalt superieure resultaten zonder de noodzaak van massieve datacollectie of exhaustieve rekenkracht, wat het zeer geschikt maakt voor gespecialiseerde medische taken.

Betekenis en Impact

PRIMA markeert een belangrijke stap in de richting van efficiëntere en nauwkeurigere medische diagnosemodellen. Door de kloof tussen pixel-level features en abstracte klinische expertise te overbruggen, biedt het een oplossing voor het probleem van data-schaarste in de medische wereld. Het framework demonstreert dat het integreren van expertkennis via RAG en het gebruik van multi-granulaire uitlijningstrategieën superieur is aan het simpelweg schalen van bestaande modellen. Dit maakt het mogelijk om robuuste diagnosehulpmiddelen te bouwen voor zeldzame ziekten en specifieke klinische scenario's waar grote datasets niet beschikbaar zijn.