Prototype-Based Knowledge Guidance for Fine-Grained Structured Radiology Reporting

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een radioloog een röntgenfoto bekijkt en een verslag schrijft. Vaak doen ze dit in vrije tekst, net als een verhaal: "Er is een vage schaduw in de linkerlong, misschien een ontsteking, maar het is niet heel duidelijk." Dit is handig voor de arts, maar voor een computer is het een chaos. De computer wil graag een strakke lijst met ja/nee-antwoorden en specifieke details: "Longontsteking: Ja. Locatie: Linkerlong. Type: Vlekken."

Het probleem is dat computers niet genoeg voorbeelden hebben om al die specifieke details te leren. Ze zien duizenden foto's van gezonde longen, maar misschien maar een paar foto's van een zeldzame, specifieke vlek. Het is alsof je een kind probeert te leren alle dieren te herkennen, maar je geeft ze alleen foto's van katten en honden, en één foto van een zeldzame luiaard.

Hier komt ProtoSR (de uitvinding uit dit paper) om de hoek kijken. Het is een slimme manier om computers te helpen die zeldzame details te begrijpen door te kijken naar die oude, vrije tekstverslagen.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De Grote Bibliotheek van "Vrije Tekst"

Stel je voor dat er een enorme bibliotheek is met miljoenen radiologie-verslagen. De meeste zijn in vrije tekst geschreven. Computers vinden dit lastig, maar deze verslagen bevatten wel de geheimen van die zeldzame ziektes.

De auteurs van het paper hebben een slimme robot (een AI) ingezet om deze bibliotheek te doorzoeken. Deze robot leest de vrije tekst en vertaalt de zinnen naar de strakke, gestructureerde lijst die de computer nodig heeft.

Voorbeeld: De robot leest: "Ik zie een rare vlek in de onderste linkerlong." en zet dit om naar: Vlek: Ja | Locatie: Linkerlong | Type: Vlek.

2. Het Maken van "Voorbeeldkaarten" (Prototypes)

Nu hebben ze een enorme verzameling foto's die gekoppeld zijn aan die strakke antwoorden. Maar ze doen iets heel slim: ze maken stalenkaarten (in het paper "prototypes" genoemd).

Stel je voor dat je een verzameling hebt van alle foto's met "vlekken in de linkerlong". In plaats van elke foto apart te onthouden, maakt de computer één samenvattende kaart die de essentie van al die foto's vastlegt. Dit is als een "gemiddelde" of een "ideale voorstelling" van hoe een vlek in de linkerlong eruit ziet.

Ze doen dit voor honderden verschillende situaties: vlekken, witte plekken, vergrote harten, enzovoort.
Dit is hun kennisbank: een verzameling van de beste voorbeelden voor elke mogelijke vraag.

3. De Slimme "Tweede Mening"

Nu komt het echte spelletje. Wanneer de computer een nieuwe röntgenfoto krijgt om te analyseren, gebeurt er het volgende:

De Basis: De computer kijkt eerst naar de foto en probeert een antwoord te geven (bijv. "Nee, geen vlek").
De Check: Vervolgens kijkt de computer in zijn kennisbank (die verzameling van samenvattende kaarten). Hij vraagt zich af: "Zie ik op deze nieuwe foto iets dat lijkt op de kaarten in mijn kennisbank?"
De Correctie: Als de computer ziet dat de nieuwe foto erg lijkt op de "vlek in linkerlong"-kaart uit de kennisbank, zegt hij: "Wacht even! Mijn eerste instinct was 'Nee', maar mijn kennisbank zegt dat dit eruit ziet als een vlek. Ik ga mijn antwoord corrigeren."

Het is alsof een student een examen maakt, maar voordat hij het inlevert, even snel een studiegroep raadpleegt. Als de studiegroep zegt: "Hé, dat lijkt op die moeilijke vraag die we gisteren oefenden," dan past de student zijn antwoord aan.

Waarom is dit zo geweldig?

Het lost het "Zeldzame" probleem op: Computers zijn goed in dingen die ze vaak zien, maar slecht in zeldzame dingen. Door te kijken naar de miljoenen vrije tekstverslagen, hebben ze nu voorbeelden van die zeldzame dingen.
Het is een "Tweede Mening": Het systeem verandert de basiscomputer niet, maar geeft hem een extra duwtje in de rug als hij twijfelt over een specifiek detail.
Resultaat: Op de tests (de Rad-ReStruct benchmark) bleek dit systeem veel beter te zijn dan eerdere methoden, vooral bij de moeilijke, specifieke vragen (zoals "waar precies zit de vlek?").

Samenvatting in één zin

ProtoSR is een slimme computer die, als hij een röntgenfoto bekijkt, niet alleen naar de foto kijkt, maar ook even snel in een enorme bibliotheek van oude verslagen snuffelt om te zien of hij daar een vergelijkbaar voorbeeld vindt, zodat hij zijn diagnose kan verfijnen en minder fouten maakt bij de moeilijke details.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Gestructureerde radiologierapportage belooft snellere en consistentere communicatie dan vrijetekstrapportage door het gebruik van vooraf gedefinieerde velden en gestandaardiseerde antwoordopties. Echter, de automatisering hiervan blijft een uitdaging. Bestaande modellen moeten veel fijnmazige, discrete beslissingen nemen over zeldzame bevindingen en attributen, vaak op basis van beperkte gestructureerde supervisie (kleine datasets).

Aan de andere kant worden vrijetekstrapporten in de routinezorg in grote schaal gegenereerd en bevatten ze impliciet fijnmazige, beeld-gekoppelde informatie. Het probleem is dat deze ongestructureerde kennis niet direct kan worden gebruikt voor gestructureerde rapportage omdat de terminologie en stijl sterk variëren en niet overeenkomen met de strikte taxonomie van gestructureerde templates. Bestaande methoden voor kennisintegratie werken vaak in een ongestructureerde outputruimte, terwijl gestructureerde rapportage mechanismen vereist die specifieke, discrete beslissingen beïnvloeden.

Methodologie: ProtoSR

De auteurs stellen ProtoSR voor, een raamwerk voor prototype-geconditioneerde late-fusie dat informatie uit vrijetekstrapporten extrahert en injecteert in een gestructureerd rapportagesysteem. De aanpak bestaat uit twee hoofdfasen:

1. Constructie van de Kennisbank (Knowledge Base)

Om de grote hoeveelheid vrije teksten (MIMIC-CXR dataset) bruikbaar te maken voor een gestructureerde template (Rad-ReStruct), wordt een extractiepijplijn ontwikkeld:

Terminologie-uitbreiding: Een instructie-gefineerde Large Language Model (LLM, specifiek Qwen2.5-7B) wordt gebruikt om synoniemen, afkortingen en alternatieve formuleringen voor elke gestructureerde label te genereren. Dit creëert een woordenboek dat klinische variaties koppelt aan de canonieke labels.
Template-geconstrueerde extractie: De LLM wordt gebruikt om te bepalen of een bevinding in een vrij tekstrapport aanwezig is en, zo ja, welke specifieke attribuutwaarden (bijv. locatie, ernst) horen bij de template. Dit gebeurt hiërarchisch en met "constrained decoding" om alleen geldige template-antwoorden te accepteren.
Post-processing en Prototypes: Na filtering en het toepassen van hiërarchische regels (bijv. geen positief ouderlabel zonder ondersteunde kinderlabels), worden de beelden gekoppeld aan de geëxtraheerde labels. Voor elk label wordt een visueel prototype gegenereerd door de embeddings van maximaal $K$ afbeeldingen (uit de MIMIC-CXR dataset) te aggregeren via element-wise max-pooling. Dit vormt een multimodale kennisbank.

2. Architectuur: Prototype-geconditioneerde Late Fusion

Het model bestaat uit een basismodel en een kennisintegratie-tak:

Basismodel: Een hiërarchisch Vision-Language Model (VLM) dat een beeld en een vraagcontext verwerkt om basis-logits ( $z_{base}$ ) te genereren voor de antwoordopties.
Kennisintegratie-tak:
- Voor een gegeven beeld-vraagpaar worden prototypes uit de kennisbank opgehaald op basis van cosinus-ähnelijkheid met de gefuseerde representatie van het basismodel.
- De opgehaalde prototypes worden omgezet in een ondersteuningsbias ( $b_{sup}$ ). Dit gebeurt door een gewogen som van de visuele prototypes en de bijbehorende one-hot labelvectoren te nemen, gevolgd door een MLP (Multi-Layer Perceptron).
- Late Fusion: De uiteindelijke voorspelling wordt berekend door de basis-logits te combineren met de kennis-bias via een geleerde schalingsvector ( $s$ ):
  $z_{final} = z_{base} + s \odot b_{sup}$
- Dit mechanisme fungeert als een "data-gedreven tweede mening" die selectief voorspellingen corrigeert, vooral voor zeldzame attributen, zonder de algehele werking van het basismodel te verstoren.

Belangrijkste Bijdragen

LLM-gedreven Mining-pijplijn: Een geautomatiseerd proces dat grote verzamelingen vrijetekstrapporten omzet in een multimodale prototype-kennisbank die perfect is uitgelijnd met een gestructureerde rapportagetemplate.
Prototype-geconditioneerde Late Fusion: Een nieuw architecturaal ontwerp dat opgehaalde voorbeelden omzet in een schaalbaar residu op logit-niveau. Dit stelt het model in staat om gerichte correcties toe te passen op fijnmazige, discrete beslissingen.
Validatie op Rad-ReStruct: Het aantonen dat routine vrijetekstrapporten effectief kunnen worden gebruikt als kennisbron om de prestaties van gestructureerde rapportage te verbeteren, met name voor lange-staart attributen.

Resultaten

De methode is geëvalueerd op de Rad-ReStruct benchmark (een fijnmazig gestructureerd rapportagebenchmark voor borst-X-stralen).

State-of-the-Art Prestaties: ProtoSR behaalde de beste resultaten in termen van overall F1-score (34.4), wat een verbetering is ten opzichte van bestaande methoden zoals Context-VQA (32.9) en algemene medische VLM's zoals MedGemma en CheXagent.
Verbetering bij Fijnmazige Attributen: De grootste winst werd geboekt op Level 3 (L3) vragen, die gaan over specifieke attributen zoals locatie en uiterlijk. Hierboekte ProtoSR een relatieve verbetering van +72.1% ten opzichte van het basismodel zonder kennisintegratie. Dit bevestigt dat de methode effectief is voor het oplossen van het probleem van schaarse supervisie bij zeldzame attributen.
Ablatiestudies:
- Het verwijderen van de kennisintegratie leidt tot een daling in prestaties.
- Vervanging van prototypes door ruis resulteert in prestaties op basalniveau, wat aantoont dat de verbetering voortkomt uit de betekenisvolle inhoud van de prototypes en niet uit extra modelcapaciteit.
- Een "early fusion" variant (input van kennis in de prompt) presteerde slechter dan de late-fusie aanpak, wat aangeeft dat het injecteren van kennis op logit-niveau effectiever is voor discrete beslissingen.

Significantie

ProtoSR demonstreert dat de kloof tussen de overvloed aan ongestructureerde vrijetekstrapporten en de beperkte datasets voor gestructureerde rapportage kan worden overbrugd. Door vrije teksten te "minen" en om te zetten in visuele prototypes, biedt het model een schaalbare manier om fijnmazig beeldbegrip te verbeteren. Dit is cruciaal voor de klinische praktijk, waar gestructureerde rapporten nodig zijn voor kwaliteitsbewaking en downstream analyse, maar waar de data voor zeldzame aandoeningen vaak te schaars is voor traditionele deep-learning modellen. De aanpak biedt een nieuwe richting voor kennisgedreven AI in de medische beeldvorming.

Prototype-Based Knowledge Guidance for Fine-Grained Structured Radiology Reporting

1. De Grote Bibliotheek van "Vrije Tekst"

2. Het Maken van "Voorbeeldkaarten" (Prototypes)

3. De Slimme "Tweede Mening"

Waarom is dit zo geweldig?

Samenvatting in één zin

Probleemstelling

Methodologie: ProtoSR

1. Constructie van de Kennisbank (Knowledge Base)

2. Architectuur: Prototype-geconditioneerde Late Fusion

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

Unsupervised Point Cloud Pre-Training via Contrasting and Clustering

Conceptual Views of Neural Networks: A Framework for Neuro-Symbolic Analysis

Combining Tree-Search, Generative Models, and Nash Bargaining Concepts in Game-Theoretic Reinforcement Learning

3D-LFM: Lifting Foundation Model

Sparse Training for Federated Learning with Regularized Error Correction