Fuse4Seg: Image Fusion for Multi-Modal Medical Segmentation via Bi-level Optimization

Each language version is independently generated for its own context, not a direct translation.

Fuse4Seg: De Slimme Chef die Medische Foto's Samenvoegt voor Betere Diagnose

Stel je voor dat je een medisch specialist bent die een complexe hersentumor moet vinden. Je hebt twee verschillende soorten foto's van de hersenen:

Foto A (T1ce): Laat zien waar het tumorweefsel fel oplicht (zoals een gloeiende kool).
Foto B (FLAIR): Laat zien waar het weefsel gezwollen is door vocht (zoals een wazige mist).

In het verleden probeerden computers deze twee foto's samen te voegen tot één "perfecte" plaat. Maar ze deden dit op basis van hoe het er mooi uitzag voor het menselijk oog. Ze wilden een plaatje met veel contrast en scherpe lijnen. Het probleem? Wat er mooi uitziet voor een mens, is niet altijd wat een computer nodig heeft om de tumor precies af te bakenen. De computer "wast" soms de fijne randjes van de tumor weg omdat ze te donker of te complex lijken.

De Oplossing: Fuse4Seg

De auteurs van dit paper hebben een nieuwe methode bedacht, genaamd Fuse4Seg. Ze gebruiken een slimme truc die we "Bi-level Optimization" noemen. Laten we dit uitleggen met een analogie uit de keuken.

De Analogie: De Chef en de Proever

Stel je een professionele keuken voor:

De Fusion Leader (De Chef): Deze persoon neemt de twee ruwe ingrediënten (Foto A en Foto B) en probeert ze te mengen tot één perfecte soep (de samengevoegde foto).
De Segmentation Follower (De Proever): Deze persoon proeft de soep en zegt: "Is de tumor hier duidelijk te zien? Kan ik de randen precies volgen?"

Hoe werkt het oude systeem?
De Chef maakt de soep op basis van een recept dat zegt: "Maak het er smakelijk en visueel aantrekkelijk uit." De Proever krijgt de soep pas na het koken. Als de Proever zegt "De randen zijn te vaag", is het al te laat; de soep is op. De Chef en de Proever werken los van elkaar.

Hoe werkt Fuse4Seg?
Hier werken ze als één team in een samenwerkingscyclus:

De Chef (Fusie-netwerk) maakt een proefportie van de soep.
De Proever (Segmentatie-netwerk) proeft direct en geeft directe feedback: "Deze rand is te zacht, ik kan de tumor niet zien!"
De Chef past het recept direct aan op basis van die feedback. Hij voegt meer kruiden toe aan de randen en verwijdert overbodige troep.
Dit proces herhaalt zich duizenden keren. De Chef leert niet meer om een "mooie" foto te maken, maar om een foto te maken die voor de Proever het makkelijkst is om de tumor te vinden.

De "Glasdoos" vs. De "Zwarte Doos"

Normale methoden werken vaak als een Zwarte Doos:
Je gooit de foto's erin, en er komt een resultaat uit. Niemand weet precies waarom de computer die lijn trok. Het is abstract en ondoorzichtig.

Fuse4Seg is een Glasdoos:
Omdat de Chef de foto's echt samenvoegt tot één leesbare plaat, kunnen artsen die plaat zien. Ze kunnen zeggen: "Ah, de computer heeft hier de rand versterkt omdat hij daar een tumor zag." Dit bouwt vertrouwen op, omdat de arts precies kan zien wat de computer ziet.

De Fysieke Regels (De "Vaste Ankers")

Er is een risico: als de Chef alleen luistert naar de Proever, kan hij de soep gaan "vervalsen" om de Proever tevreden te stellen (bijvoorbeeld door nep-randjes te tekenen die er niet zijn).

Om dit te voorkomen, heeft Fuse4Seg twee strenge regels (fysieke ankers):

Frequentie Ontkoppeling: De Chef is gespecialiseerd. Hij behandelt de "grote lijnen" (de vorm van de hersenen) anders dan de "fijne details" (de randen van de tumor). Hij zorgt dat de fijne details nooit verloren gaan.
De Fysieke Waarheid: De Chef mag de foto niet veranderen tot iets onherkenbaars. De samengevoegde foto moet er nog steeds op lijken als een echte medische scan, niet als een kunstwerk.

Wat is het resultaat?

Door deze slimme samenwerking:

Betere Diagnose: De computer vindt de tumor veel nauwkeuriger dan oude methoden, zelfs bij de moeilijkste, wazige randen.
Vertrouwen: Artsen kunnen de "samengevoegde foto" zien en controleren of het klopt.
Efficiëntie: In plaats van twee foto's tegelijk te analyseren (wat zwaar is voor de computer), werkt de computer met één super-scherpe foto.

Kortom: Fuse4Seg is een systeem waarbij de computer niet leert om "mooie plaatjes" te maken voor mensen, maar leert om "handige plaatjes" te maken voor andere computers, zodat artsen sneller en zekerder ziektes kunnen opsporen. Het is een samenwerking tussen kunst en wetenschap, waarbij de "kunst" (de foto) altijd trouw blijft aan de "wetenschap" (de echte anatomie).

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Traditionele methoden voor het samenvoegen (fuseren) van multimodale medische beelden zijn voornamelijk geoptimaliseerd voor menselijke waarneming. Het doel is vaak het maximaliseren van visuele contrasten en structurele trouw voor het blote oog. Wanneer deze visueel aantrekkelijke samengevoegde beelden echter worden gebruikt in geautomatiseerde klinische workflows (zoals tumorsegmentatie), ontstaat er een semantische discrepantie:

Taak-agnostische degradatie: De fusionering verwijdert of gladstrijkt kritieke, hoogfrequente details (zoals subtiele, onregelmatige tumorgrenzen) die essentieel zijn voor machine vision, maar minder zichtbaar voor mensen.
Losgekoppelde pijplijnen: Bestaande methoden behandelen fusie en segmentatie als twee aparte stappen. De fusie-netwerken worden niet beïnvloed door de behoeften van de downstream segmentatietaken, wat leidt tot een verlies van diagnostisch waardevolle informatie.
Black-box benadering: Moderne multi-kanaal segmentatiemodellen verwerken ruwe beelden vaak via ondoorzichtige latente ruimtes, wat de klinische interpretatie en het vertrouwen in de diagnose bemoeilijkt.

Methodologie: Fuse4Seg

De auteurs stellen Fuse4Seg voor, een nieuw raamwerk dat multimodale fusie herformuleert als een coöperatief bi-niveau optimalisatieprobleem (bi-level optimization) gekoppeld aan medische segmentatie.

1. Bi-niveau Optimalisatie Formulering

Het systeem wordt gemodelleerd als een Stackelberg-spel:

Leader (Bovenste niveau): Het fusie-netwerk ( $\Phi$ ) dat een samengevoegd beeld genereert.
Follower (Onderste niveau): Het segmentatie-netwerk ( $\Psi$ ) dat het samengevoegde beeld gebruikt om een semantisch masker te voorspellen.
Doel: In plaats van visuele metrics te maximaliseren, worden de parameters van de fusie-LEADER dynamisch bijgewerkt op basis van de semantische gradiënten die teruggepropageerd worden vanuit de segmentatie-FOLLOWER. Dit dwingt het fusie-netwerk om informatie te comprimeren tot een taakbewuste prior die de segmentatieprestaties maximaliseert.

2. Trainingsstrategie (Eerste-orde Coöperatief)

Om de computationele complexiteit van exacte bi-niveau optimalisatie te omzeilen, gebruiken de auteurs een asymmetrische trainingsstrategie:

Fase 1: Follower Warm-up: Het segmentatienetwerk wordt eerst getraind op een deterministische fysieke prior (bijv. het gemiddelde van de input-modi) om een stabiele semantische basis te leggen.
Fase 2: Asymmetrische Bi-niveau Rollout:
- Inner Loop: Het segmentatienetwerk wordt meerdere keren (K-stappen) geüpdatet op een trainingsset ( $D_{tr}$ ) met een vast fusie-netwerk.
- Outer Loop: Het fusie-netwerk wordt geüpdatet op een validatieset ( $D_{val}$ ) gebaseerd op de prestaties van het geoptimaliseerde segmentatienetwerk.
- EMA: Een Exponentiële Moving Average (EMA) van de fusie-weights wordt gebruikt om de fysieke stabiliteit tijdens inferentie te garanderen.

3. Architectuur: Frequentie-ontkoppelde Fusie

Om fysieke trouw te behouden terwijl semantische bruikbaarheid wordt gemaximaliseerd, gebruikt de fusie-module een frequentie-ontkoppelde architectuur:

Laagfrequente componenten: Verantwoordelijk voor macroscopische anatomie en globale contrasten. Verwerkt via Multi-Head Self-Attention (MSA) en MLP.
Hoogfrequente componenten: Verantwoordelijk voor scherpe pathologische randen (bijv. tumorgrenzen). Verwerkt via Invertible Neural Networks (INN) met Haar-wavelet transformaties. Dit garandeert verliesvrije behoud van hoogfrequente details.
Learnable Fusion Unit: De gescheiden frequentie-features worden dynamisch samengevoegd door leerbare eenheden ( $H_{low}$ en $H_{high}$ ) die worden gestuurd door de semantische gradiënten.

4. Regularisatie en Fysieke Ankers

Om te voorkomen dat het netwerk "adversariale ruis" genereert die alleen goed is voor de segmentatie maar slecht voor het menselijk oog, worden drie fysieke regularisaties toegepast:

Frequentie Decompositie Loss ( $L_{decomp}$ ): Minimaliseert correlatie tussen hoogfrequente texturen van verschillende modi (om redundantie te verwijderen) en maximaliseert correlatie voor laagfrequente anatomie.
Ruimtelijke Gradiënt Loss ( $L_{grad}$ ): Zorgt ervoor dat de scherpste diagnostische randen uit de bronmodi behouden blijven.
Fysieke Reconstructie Anker ( $L_{recon}$ ): Een MSE-loss die het samengevoegde beeld dicht bij het gemiddelde van de input houdt, om klinische leesbaarheid te garanderen.

Belangrijkste Bijdragen

Paradigmaverschuiving: Fusie wordt niet langer gezien als een voorbewerkingsstap voor mensen, maar als een coöperatief proces met downstream taken, geleid door semantische gradiënten.
Fysiek Verankerde Architectuur: Een unieke combinatie van frequentie-ontkoppeling en strikte regularisatie die anatomische trouw (fysica) en diagnostische nauwkeurigheid (semantiek) in evenwicht brengt.
"Glass-box" Interpretatie: In tegenstelling tot "black-box" multi-kanaal netwerken, bottleneck Fuse4Seg informatie naar één leesbaar, fysiek samengevoegd beeld. Dit stelt clinici in staat om de biologische basis van de diagnose visueel te verifiëren.

Resultaten

De methode is getest op de BraTS 2021 dataset (MRI T1ce en FLAIR) en diverse fusie-benchmarks (Harvard MRI-SPECT/PET, GFP).

Segmentatieprestaties: Fuse4Seg overtreft aanzienlijk bestaande state-of-the-art (SOTA) methoden, zowel losse fusie-pijplijnen (zoals CDDFuse + Seg) als directe multi-kanaal segmentatiemodellen (zoals nnU-Net, VM-UNet).
- Op de BraTS dataset bereikte het een Mean Dice van 0.910 en Mean IoU van 0.841, wat een nieuw record is, zelfs met slechts één invoerkanaal (het samengevoegde beeld).
- Het presteert vooral goed bij het segmenteren van complexe sub-regio's zoals het Necrotic Core (NCR) en Peritumoral Edema (ED).
Fusiekwaliteit: Op fusie-benchmarks domineert Fuse4Seg in structurele en trouw-metrics (PSNR, SSIM, QAB/F), wat aantoont dat het scherpe anatomische randen behoudt zonder structurele vervorming, in tegenstelling tot generatieve modellen die vaak synthetische ruis introduceren.
Visuele Interpretatie: Visualisaties tonen aan dat Fuse4Seg scherpe, artefactvrije beelden produceert die klinisch leesbaar zijn, terwijl traditionele methoden vaak vage randen of "hallucinaties" vertonen.

Betekenis

Fuse4Seg biedt een fundamentele oplossing voor de kloof tussen visuele beeldverwerking en machine vision in de medische diagnostiek. Door fusie en segmentatie te integreren via bi-niveau optimalisatie, creëert het een taakbewuste, fysiek geloofwaardige prior. Dit verbetert niet alleen de nauwkeurigheid van geautomatiseerde diagnoses, maar herstelt ook het klinische vertrouwen door transparante, interpreteerbare beelden te leveren die artsen kunnen verifiëren. Het bewijst dat het comprimeren van multimodale data naar één fysiek beeld superieur kan zijn aan het verwerken van ruwe multi-kanaal data in complexe, ondoorzichtige netwerken.