Anatomical Accuracy of Generative AI for Congenital Heart Disease Illustrations: Gemini NanoBanana Versus ChatGPT Models in a Blinded Comparative Study

Eine verblindete Vergleichsstudie zeigt, dass zwar Gemini NanoBanana bessere anatomische Darstellungen von angeborenen Herzfehlern liefert als ChatGPT-Modelle, beide KI-Systeme jedoch in puncto Genauigkeit und Eignung für die medizinische Ausbildung deutlich hinter von Experten überarbeiteten Bildern zurückbleiben und daher nur unter fachlicher Aufsicht eingesetzt werden sollten.

Alhuzaimi, A., Alkanhal, A., Alruwaili, A. R. S., Alharbi, N. S., Alfares, F., Aldekhyyel, R. N., Binkheder, S., Temsah, A., Aljamaan, F., Shahzad, M., Albriek, A. Z., Alanazi, F. I., Alhindi, D. A., Al-khatib, S. M., Darweesh, A. A., Altamimi, I., Jamal, A., Saad, K., Alhasan, K., Al-Eyadhy, A., Malki, K. H., Temsah, M.-H.

Veröffentlicht 2026-02-23
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre
⚕️

Dies ist eine KI-generierte Erklärung eines Preprints, das nicht peer-reviewed wurde. Dies ist kein medizinischer Rat. Treffen Sie keine Gesundheitsentscheidungen auf Grundlage dieses Inhalts. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

🎨 Wenn KI Herzfehler malt: Ein Test, der die Wahrheit aufdeckt

Stellen Sie sich vor, Sie möchten jemandem beibringen, wie ein Herz funktioniert. Besonders bei Kindern mit angeborenen Herzfehlern ist das wie das Erklären eines hochkomplexen Uhrwerks, bei dem viele Zahnräder falsch sitzen oder fehlen. Um das zu verstehen, braucht man perfekte Zeichnungen.

Früher haben diese Zeichnungen nur menschliche Experten (Ärzte und Künstler) gezeichnet. Heute gibt es aber neue „Künstliche Intelligenzen" (KI), die Bilder aus Textbefehlen malen können. Die Frage war: Können diese KI-Künstler auch medizinisch korrekte Bilder von Herzen malen, oder malen sie nur hübsche Unsinn?

Das ist genau das, was diese Forschergruppe aus Saudi-Arabien herausfinden wollte.

🕵️‍♂️ Das Experiment: Ein blindes Geschmacks-Test

Die Forscher haben einen großen Wettbewerb veranstaltet. Sie haben 20 verschiedene Herzfehler (von einfachen bis zu sehr komplexen) genommen. Für jeden Fehler ließen sie Bilder von drei verschiedenen Quellen erstellen:

  1. Der menschliche Profi: Ein Bild, das von einem Arzt gezeichnet und dann von einer KI in einen einheitlichen Stil gebracht wurde (der „Goldstandard").
  2. Gemini NanoBanana: Eine KI von Google.
  3. ChatGPT (Version 5 und Bilder-Modell): Eine KI von OpenAI.

Dann luden sie 20 Ärzte ein (10 Herzspezialisten und 10 normale Ärzte), diese Bilder anzusehen. Die Ärzte wussten nicht, welches Bild von welcher KI stammte. Sie sollten bewerten:

  • Ist die Anatomie richtig? (Sind die Gefäße an der richtigen Stelle?)
  • Sind die Beschriftungen sinnvoll?
  • Sieht das Bild gut aus?
  • Kann man es im Unterricht benutzen?

📉 Das Ergebnis: „Hübsch, aber falsch"

Das Ergebnis war ernüchternd, aber wichtig:

1. Die menschlichen Bilder waren die Gewinner.
Wie erwartet waren die Bilder, die von Menschen (mit KI-Hilfe) erstellt wurden, die einzigen, die man sofort im Unterricht benutzen konnte. Sie waren anatomisch korrekt.

2. Gemini (NanoBanana) war der „Beste der Schlechten".
Die Google-KI schaffte es, Bilder zu malen, die etwas richtig waren (ca. 23 % der Bilder waren akzeptabel). Sie sah oft sehr professionell aus, aber wenn man genau hinsah, waren oft kleine, aber fatale Fehler drin (z. B. ein Gefäß, das in die falsche Richtung führt).

3. ChatGPT war eine Katastrophe.
Die Bilder von ChatGPT waren in fast 90 % der Fälle komplett falsch.

  • Die Metapher: Stellen Sie sich vor, Sie bestellen ein Bild von einem Haus. ChatGPT malte ein Haus, das aussieht wie ein echtes Haus, aber die Treppe führt ins Nichts, das Dach ist aus Fleisch und die Fenster sind an der falschen Seite. Es sieht auf den ersten Blick toll aus, aber wenn Sie dort wohnen würden, würden Sie sofort abstürzen.
  • In der Studie nannten die Ärzte diese Bilder oft „fabriziert" (erfunden). Die KI malte Herzen, die in der Natur gar nicht existieren.

🧠 Warum ist das gefährlich?

Das ist der wichtigste Punkt: KI-Bilder sind oft so schön, dass wir ihnen vertrauen.
Wenn ein Student ein Bild sieht, das wie ein Meisterwerk aussieht, denkt er: „Das muss stimmen!" Dabei lernt er dann eine falsche Anatomie.

  • Vergleich: Es ist wie ein Navigationsgerät, das Sie durch eine Stadt führt. Wenn es Ihnen sagt: „Fahren Sie geradeaus", aber eigentlich führt die Straße in einen Fluss, sind Sie schnell in Schwierigkeiten. Bei einem Herzfehler kann ein falsches Bild dazu führen, dass ein Arzt in der Zukunft eine falsche Diagnose stellt oder eine Operation falsch plant.

👨‍⚭️👩‍⚭️ Wer hat es besser gesehen?

Interessanterweise waren die Herzspezialisten strenger als die normalen Ärzte.

  • Die Spezialisten sahen sofort: „Hey, das Herzventil ist falsch gezeichnet!"
  • Die Nicht-Spezialisten fanden die Bilder oft hübscher und glaubten ihnen eher.
    Das zeigt: Je mehr man vom Thema weiß, desto weniger traut man der KI blind.

💡 Das Fazit für die Zukunft

Die Studie sagt uns nicht, dass wir KI verbieten sollen. Aber sie sagt: KI ist wie ein junger, talentierter Mal-Lehrling.

  • Sie kann schnell viele Skizzen machen (das ist super!).
  • Aber sie darf niemals allein arbeiten.
  • Ein erfahrener Meister (ein Arzt) muss jedes Bild genau prüfen, korrigieren und erst dann darf es in den Unterricht.

Kurz gesagt: Nutzen Sie KI, um Ideen zu bekommen oder Entwürfe zu machen. Aber vertrauen Sie niemals einem KI-Bild von einem menschlichen Organ, ohne dass ein Experte es vorher wie ein Sicherheitscheck durchgesehen hat. Sonst lernen wir das Falsche.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →