A Systematic Review of Intermediate Fusion in Multimodal Deep Learning for Biomedical Applications

Diese systematische Übersichtsarbeit analysiert und formalisiert Methoden der intermediären Fusion im multimodalen Deep Learning für biomedizinische Anwendungen, beleuchtet dabei verwendete Techniken und Herausforderungen und schlägt eine strukturierte Notation vor, um die Entwicklung robusterer Vorhersagemodelle zu unterstützen.

Valerio Guarrasi, Fatih Aksu, Camillo Maria Caruso, Francesco Di Feola, Aurora Rofena, Filippo Ruffini, Paolo Soda

Veröffentlicht 2026-03-13
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

🏥 Wenn Ärzte ein Team bilden: Eine Reise durch die „Zwischenfusion" in der KI

Stellen Sie sich vor, ein Patient kommt in die Klinik. Um eine genaue Diagnose zu stellen, sammeln die Ärzte verschiedene Arten von Informationen:

  1. Bilder (Röntgen, MRT),
  2. Zahlen (Blutwerte, Alter, Genetik),
  3. Texte (Arztbriefe, Patientengespräche).

Früher haben Computer diese Daten oft getrennt betrachtet oder sie am Ende einfach zusammengeworfen. Diese neue Studie untersucht jedoch eine besonders clevere Methode, wie man diese Daten während des Denkprozesses der KI zusammenführt. Das nennt man „Intermediate Fusion" (Zwischenfusion).

Hier ist die Erklärung der Studie, unterteilt in einfache Bilder:

1. Das Problem: Drei Arten, ein Team zu bilden

Die Autoren vergleichen drei verschiedene Wege, wie eine KI verschiedene Datenquellen (Modalitäten) nutzen kann:

  • Frühe Fusion (Early Fusion): Das ist, als würde man alle Zutaten (Eier, Mehl, Zucker) sofort in einen Mixer werfen, bevor man überhaupt weiß, was man backen will. Die KI sieht nur einen großen, unstrukturierten Brei. Die feinen Details der einzelnen Zutaten gehen dabei oft verloren.
  • Späte Fusion (Late Fusion): Hier backt jeder Koch sein eigenes Kuchenstück separat. Der eine macht nur den Teig (Bilder), der andere nur die Füllung (Texte). Erst am Ende, wenn die Kuchen fertig sind, schmeckt ein Richter, welcher besser ist, und entscheidet. Die Köche haben sich aber nie unterhalten oder Ideen geteilt.
  • Zwischenfusion (Intermediate Fusion) – Der Gewinner: Das ist wie ein perfektes Kochteam. Jeder Koch bereitet seine Zutaten vor (Bilder werden analysiert, Texte werden gelesen), aber während sie kochen, tauschen sie sich ständig aus. Der Koch für die Bilder sagt: „Hey, hier sieht es etwas seltsam aus, schau mal auf den Text!" und der Text-Koch antwortet: „Ah, das erklärt das Bild!" Sie fusionieren ihre Erkenntnisse während des Prozesses, nicht erst am Ende. Das führt zu einem viel besseren Ergebnis.

2. Was die Forscher untersucht haben

Die Autoren haben sich 54 wissenschaftliche Studien angesehen, die genau diese „Zwischenfusion" in der Medizin anwenden. Sie wollten herausfinden:

  • Welche Daten werden kombiniert? (Meistens Bilder und Tabellen mit Patientendaten).
  • Wie bauen sie die KI? (Welche „Köpfe" denken über die Bilder nach, welche über die Zahlen?)
  • Wie verbinden sie diese Köpfe?

3. Die wichtigsten Entdeckungen (in Bildern)

  • Die Zutaten: Die häufigste Kombination ist Bild + Tabelle. Stellen Sie sich vor, ein MRT-Bild zeigt einen Tumor, und die Tabelle sagt, wie alt der Patient ist und welche Gene er hat. Zusammen ergibt das ein viel klareres Bild als getrennt.
  • Der Bauplan (Architektur): Die meisten Forscher nutzen für Bilder CNNs (spezialisierte KIs für Bilder) und für Zahlen FCNNs (spezialisierte KIs für Tabellen). Sie bauen also spezialisierte Abteilungen, die dann zusammenarbeiten.
  • Das Kleben (Fusion): Die einfachste Methode, die Daten zu verbinden, ist das Aneinanderreihen (wie Perlen auf eine Schnur). Das machen die meisten. Aber es gibt auch ausgefeiltere Methoden wie Aufmerksamkeit (die KI lernt, welche Information gerade am wichtigsten ist) oder Kalibrierung (die Daten werden gegenseitig abgeglichen).
  • Das große „Aber": Fehlende Daten. In der echten Welt fehlen oft Daten. Vielleicht hat ein Patient kein MRT, aber nur Blutwerte. Die Studie zeigt ein großes Problem: Die meisten dieser KI-Modelle brechen zusammen, wenn eine Zutat fehlt. Sie sind nicht robust genug für den echten Klinikalltag, wo nicht jeder Patient alle Tests macht.

4. Was fehlt noch? (Die Herausforderungen)

Die Autoren kritisieren, dass die Forschung noch nicht perfekt ist:

  • Black Box: Wir wissen oft nicht genau, warum die KI zu einer Entscheidung kommt. In der Medizin ist das aber lebenswichtig. Ärzte müssen verstehen können, ob die KI den Tumor wegen eines bestimmten Pixels oder wegen des Alters des Patienten erkannt hat.
  • Datenmangel: KI braucht riesige Mengen an Daten. In der Medizin sind diese oft schwer zu bekommen (wegen Datenschutz). Viele Modelle werden mit zu wenig Daten trainiert und funktionieren dann im echten Leben nicht so gut.
  • Vergleiche: Viele Studien sagen nur: „Unsere KI ist besser!" ohne zu beweisen, dass es nicht nur Zufall ist. Sie vergleichen oft nicht fair mit anderen Methoden.

5. Das Fazit: Ein neues Werkzeugkasten-Handbuch

Das Ziel dieser Studie war es, ein gemeinsames Wörterbuch und eine Landkarte für alle Forscher zu erstellen.

  • Sie haben eine neue Notation (eine Art Zeichensprache) entwickelt, damit jeder Forscher genau beschreiben kann, wie seine KI funktioniert.
  • Sie zeigen, dass die „Zwischenfusion" das größte Potenzial hat, um Krankheiten früher und genauer zu erkennen.
  • Aber: Damit diese Technik wirklich Patienten hilft, müssen die Modelle robuster werden (auch bei fehlenden Daten funktionieren) und verständlicher sein (damit Ärzte ihnen vertrauen können).

Zusammenfassend:
Diese Studie ist wie ein Baumeister-Handbuch für die nächste Generation medizinischer KI. Sie sagt uns: „Wir haben die besten Werkzeuge gefunden, um Bilder, Texte und Zahlen während des Denkens zu verbinden. Aber wir müssen noch lernen, wie man diese Werkzeuge so baut, dass sie auch dann funktionieren, wenn die Baustelle (die Patientendaten) unvollständig ist, und wir müssen dem Bauherrn (dem Arzt) genau erklären, wie das Gebäude steht."