LLM-Bootstrapped Targeted Finding Guidance for Factual MLLM-based Medical Report Generation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat dromerige robot hebt die foto's van binnenkanten van mensen kan bekijken en daar verslagen over moet schrijven. Dit zijn Multimodale Large Language Models (MLLMs). Ze zijn geweldig in het begrijpen van taal en beelden, maar in de medische wereld is "dromen" gevaarlijk.

Als deze robot een longfoto bekijkt, kan hij soms verzonnen ziekteverschijnselen uit zijn duim zuigen (hallucineren) of belangrijke details vergeten. In de echte wereld kan dat leiden tot verkeerde diagnoses.

De auteurs van dit paper, Fact-Flow, hebben een slimme oplossing bedacht om deze robot "aards" en betrouwbaar te maken. Hier is hoe het werkt, vertaald in alledaagse taal:

1. Het Probleem: De "Alles-in-een" Fout

Normaal gesproken probeert de robot direct van de foto naar het verslag te springen. Het is alsof je iemand vraagt: "Kijk naar deze foto en schrijf direct een volledig verhaal over wat er mis is."
De robot probeert dan alles tegelijk te doen: kijken, begrijpen, en schrijven. Omdat het zo'n complexe taak is, raakt hij in de war en verzint hij dingen.

2. De Oplossing: De "Twee-stappen Dans"

Fact-Flow splitst deze taak op in twee duidelijke stappen, net zoals je een bouwproject niet in één keer doet, maar eerst een plattegrond tekent en pas daarna bouwt.

Stap 1: De "Detective" (De Feiten vinden)
Eerst laten we de robot alleen kijken naar de foto en een lijstje maken van wat hij ziet.

Voorbeeld: "Ik zie een vlek op de linkerlong," "Er is vocht," "Er is een gat."
Dit is puur feitelijke observatie. Geen verhalen, alleen feiten.

Stap 2: De "Schrijver" (Het verslag maken)
Pas daarna geven we die lijst met feiten aan de schrijver-robot. We zeggen: "Oké, hier is je lijstje met feiten. Nu schrijf je een mooi, professioneel verslag op basis van alleen deze feiten."
Door de feiten als een strakke leidraad te geven, kan de schrijver niet meer verzinnen wat er niet is. Hij is "gevangen" in de waarheid van de lijst.

3. De Slimme Truc: De "Zelflerende Assistent"

Een groot probleem bij medische data is dat het heel duur is om mensen te betalen om elk detail op foto's te labelen (bijv. "ja, er is een vlek", "nee, er is geen vlek").

De auteurs hebben een ingenieuze oplossing bedacht: ze gebruiken een andere, super-slimme AI (een LLM) om deze lijstjes voor hen te maken.

Ze geven de AI duizenden oude verslagen.
De AI leest ze, haalt de belangrijke ziekte-woorden eruit en maakt een standaardlijstje (een "taxonomie").
Vervolgens laat de AI de verslagen opnieuw lezen en vinkt ze aan welke woorden er in staan.
Het resultaat: Een enorme dataset met foto's en bijbehorende lijstjes, zonder dat er één mens handmatig heeft moeten tikken. Het is alsof je een team van duizenden vrijwilligers hebt die in één seconde werken.

4. Waarom werkt dit zo goed?

In hun experimenten hebben ze getest op twee gebieden: longziekten (tuberculose) en oogziekten.

Zonder Fact-Flow: De robots schreven soms prachtige teksten, maar ze verzonnen ziektes of misten ernstige aandoeningen.
Met Fact-Flow: De teksten waren net zo mooi, maar nu waren ze 100% gebaseerd op wat er echt op de foto te zien was. De robot werd een betrouwbare arts-assistent in plaats van een dromerige schrijver.

Samenvattend in één metafoor

Stel je voor dat je een verslag moet maken over een feestje.

De oude manier: Je kijkt naar de foto's en probeert het verhaal te verzinnen. Je zegt misschien: "Er was een band!" terwijl er geen band was, omdat je dat leuker vindt.
De Fact-Flow manier:
1. Eerst laat je een fotograaf (de eerste AI) een lijst maken: "Er waren 50 mensen, er stond een taart, er was muziek."
2. Dan geef je die lijst aan de schrijver (de tweede AI) en zeg je: "Schrijf het verhaal, maar gebruik alleen deze feiten."
3. Het resultaat is een verhaal dat niet alleen goed klinkt, maar ook waar is.

Conclusie: Fact-Flow zorgt ervoor dat medische AI niet meer "uit zijn duim zuigt", maar zich strikt houdt aan de feiten die hij ziet, waardoor artsen er echt op kunnen vertrouwen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

De automatische generatie van medische rapporten op basis van diagnostische beelden (zoals röntgenfoto's en fundusfoto's) met behulp van Multimodale Grootte Taalmodellen (MLLMs) kampt met een fundamenteel probleem: feitelijke instabiliteit.

Hallucinaties en Omissies: Bestaande MLLMs neigen ertoe om niet-bestaande bevindingen te "hallucineren" of cruciale pathologische observaties te negeren. Dit is klinisch onaanvaardbaar en belemmert de implementatie in de praktijk.
Gebrek aan Feitelijke Basis: Huidige methoden genereren rapporten vaak direct uit beeldfeatures, wat inherent ontbreekt aan een definitieve feitelijke grondslag.
Data-tekort: Er is een gebrek aan grote datasets die medische beelden koppelen aan uitgebreide, fijnmazige labels voor klinische bevindingen. Handmatige annotatie is te duur, vooral voor ziekte-specifieke contexten. Bestaande label-gestuurde methoden zijn vaak te star (vast vocabulaire) en niet compatibel met moderne MLLM-architecturen.

Methodologie: Fact-Flow

De auteurs introduceren Fact-Flow, een innovatief raamwerk dat het proces van visuele feitelijke identificatie ontkoppelt van de tekstuele rapportage. Het doel is om de MLLM te dwingen eerst alle relevante klinische feiten te identificeren voordat het rapport wordt geschreven. Het framework bestaat uit drie fasen:

Fase 1: LLM-Bootstrapped Dataset Constructie (Geautomatiseerde Annotatie)

Om de hoge kosten van handmatige annotatie te omzeilen, bouwen de auteurs een dataset van gelabelde medische bevindingen volledig automatisch:

Taxonomie-extractie: Een Large Language Model (LLM) wordt ingezet om uit bestaande rapporten een uniforme set klinische labels (taxonomie) te extraheren, inclusief ziektes, pathologische kenmerken en anatomische locaties. Synoniemen worden geconsolideerd via iteratief hiërarchisch samenvoegen.
Rapportannotatie en Filtering: Het LLM markeert vervolgens voor elk trainingsbeeld welke labels uit de taxonomie aanwezig zijn (een binaire vector). Labels die te zeldzaam zijn (onder een drempelwaarde $\theta$ $θ$ ) worden verwijderd om ruis te verminderen.
- Resultaat: Een grote dataset $(I, Y)$ zonder menselijke tussenkomst.

Fase 2: Training van het Geleidingsmodel (Multi-label Classificatie)

Een gespecialiseerd model ( $f_{MLC}$ ) wordt getraind om klinische bevindingen direct uit de medische beelden te voorspellen.

Architectuur: Gebruikt een pre-getrainde visuele encoder (DINOv3 met ConvNeXt backbone).
Class-Imbalancering: Medische datasets hebben vaak zeldzame maar kritieke labels. Het paper past een logit-adjustment methode toe op de binary cross-entropy loss. Hierbij worden de logits verschoven op basis van de empirische frequentie van elk label, waardoor het model beter presteert op de "long-tail" (zeldzame) klassen.

Fase 3: Geleide Rapportgeneratie

De MLLM wordt fine-ge-tuned om rapporten te genereren die gebaseerd zijn op zowel visuele features als de voorspelde klinische labels.

Training: De ground-truth labels worden omgezet in een natuurlijke taal-prompt (bijv. "Het beeld toont de volgende bevindingen: [label A], [label B]...") die als context aan de generatie wordt toegevoegd.
Inferentie: Omdat ground-truth labels tijdens het gebruik niet beschikbaar zijn, worden de voorspelde labels van het model uit Fase 2 gebruikt als de feitelijke basis voor de prompt. Dit "verankert" de generatie in geïdentificeerde feiten en reduceert hallucinaties.

Belangrijkste Bijdragen

Fact-Flow Framework: Een nieuw raamwerk dat de feitelijke nauwkeurigheid van MLLM-rapportgeneratie verbetert via expliciete multi-label conditionering.
Volledig Geautomatiseerde Data-pijplijn: Een methode om grote datasets van (beeld, multi-label) paren te construeren uit bestaande (beeld-rapport) paren zonder enige handmatige annotatie, d.m.v. een LLM-bootstrapped proces.
Validatie op Ziekte-specifieke Data: Succesvolle toepassing op twee complexe datasets (longtuberculose en oogheelkunde), wat bewijst dat de methode werkt in specifieke klinische domeinen.

Resultaten

Het framework is getest op twee datasets: een longtuberculose-dataset (röntgen) en een oogheelkundige dataset (fundus, OCT, OCTA).

Prestaties: Fact-Flow presteert consistent beter dan state-of-the-art methoden (inclusief traditionele encoder-decoder modellen en direct gefinetuned MLLMs zoals LLaVA-Med, MedGemma en Qwen2.5-VL).
Foutreductie: Er is een aanzienlijke verbetering in klinische effectiviteit (gemeten met RadFact op de TB-dataset). Baseline MLLMs lieten vaak "mode collapse" zien (perfecte precisie maar bijna nul recall, of vice versa), terwijl Fact-Flow een evenwicht vond.
Kwaliteit: De tekstuele kwaliteit (gemeten met BLEU, ROUGE, CIDEr) bleef hoog, wat aantoont dat de feitelijke geleiding de leesbaarheid niet tenietdoet.
Ablatie-studies:
- Alleen beeldinput leidt tot conservatieve rapporten met lage recall.
- Alleen labels (zonder beeld) verbeteren de resultaten aanzienlijk.
- De combinatie van Beeld + Voorspelde Labels (de volledige Fact-Flow) levert de beste praktische prestaties op.
- De kloof tussen voorspelde labels en ground-truth labels wijst op labelkwaliteit als de huidige bottleneck, maar de methode is al zeer effectief.

Significantie

Dit paper biedt een praktische oplossing voor een van de grootste obstakels in de toepassing van AI in de geneeskunde: de betrouwbaarheid van gegenereerde feiten.

Schaalbaarheid: Door de noodzaak van dure handmatige annotatie te elimineren, maakt het raamwerk het mogelijk om snel en goedkoop specifieke medische rapportage-systemen te bouwen voor verschillende ziektebeelden.
Klinische Toepasbaarheid: Door het "ontkoppelen" van visuele detectie en tekstuele generatie, creëert het een controleerbaar proces dat hallucinaties minimaliseert. Dit is een cruciale stap richting de daadwerkelijke implementatie van MLLMs in klinische workflows.
Plug-and-Play: Het framework is compatibel met elke MLLM-architectuur en vereist geen ingewikkelde aanpassingen van de onderliggende taalmodellen, behalve het toevoegen van de label-prompt.