Anatomical Accuracy of Generative AI for Congenital Heart Disease Illustrations: Gemini NanoBanana Versus ChatGPT Models in a Blinded Comparative Study

⚕️

Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

🎨 De Grote AI-Kunstwedstrijd: Wie tekent het beste een hart?

Stel je voor dat je een klaslokaal hebt vol medische studenten. De leraar moet uitleggen hoe een hart met een aangeboren afwijking eruitziet. In het verleden trok de leraar zelf een plaatje of gebruikte hij een duur, perfect boek. Maar nu hebben we Generatieve AI (zoals ChatGPT en Gemini). Deze computers kunnen in een flits een plaatje maken van een hart.

De vraag is: Kunnen we deze AI-plaatjes vertrouwen? Of maken ze mooie plaatjes die er perfect uitzien, maar zijn ze medisch onzin?

Dit onderzoek van een team artsen uit Saudi-Arabië (en elders) heeft precies dit getest. Ze lieten twee populaire AI-systemen (Gemini NanoBanana en ChatGPT) plaatjes maken van 20 verschillende hartafwijkingen. Vervolgens keken 20 artsen (sommige hart-specialisten, anderen niet) naar de plaatjes en gaven ze een cijfer.

Hier is wat ze ontdekten, vertaald in alledaagse termen:

1. De "Mooie maar Leugenachtige" AI (ChatGPT)

De plaatjes die door ChatGPT werden gemaakt, waren als een fantasiefilm die er prachtig uitziet, maar de wetenschap negeert.

Het resultaat: De artsen vonden dat 86% van deze plaatjes volledig verzonnen was.
De metafoor: Het is alsof je een tekening maakt van een auto, maar de wielen zitten aan het dak en de motor zit in de kofferbak. Het lijkt op een auto, maar het werkt niet. Voor een arts die een hart moet uitleggen, is dit gevaarlijk. De AI maakte vaak de verkeerde bloedvaten, verkeerde kleppen en onmogelijke vormen.
Conclusie: Deze plaatjes zijn "leuk om naar te kijken", maar gebruik ze niet voor lesmateriaal. Ze zijn als een nepbankje in de tuin: het ziet eruit als hout, maar je valt erdoorheen als je erop gaat zitten.

2. De "Beter, maar nog steeds niet perfect" AI (Gemini NanoBanana)

Gemini deed het iets beter, maar was nog steeds niet goed genoeg om alleen te gebruiken.

Het resultaat: Ongeveer 23% van de plaatjes was medisch accuraat. Dat is veel beter dan ChatGPT, maar nog steeds niet genoeg.
De metafoor: Stel je voor dat je een kok hebt die een perfecte taart wil bakken. Gemini maakt een taart die er prachtig uitziet en de smaak is bijna goed, maar er zit een klein beetje zout in de suiker. Je kunt het eten, maar je moet eerst de suiker eruit halen en de suiker toevoegen.
De valkuil: De plaatjes van Gemini waren vaak mooier en aantrekkelijker dan de plaatjes van de menselijke artsen. Dit is gevaarlijk! Omdat ze er zo mooi uitzien, vertrouwen mensen ze te snel. Maar net als bij ChatGPT zitten er nog steeds fouten in de anatomie.

3. De "Gouden Standaard" (Mensen)

De plaatjes die door menselijke experts (artsen) werden aangepast, waren de enige die echt betrouwbaar waren.

Het resultaat: Bijna 50% van de menselijke plaatjes was direct goed te gebruiken.
De metafoor: Dit is de kwaliteitscontroleur in de fabriek. Ze maken geen plaatjes die "leuk" zijn om te zien, maar ze zorgen dat elke schroef, elk vat en elke klep op de juiste plek zit. Ze zijn misschien wat minder "glad" dan de AI, maar ze zijn waarheidsgetrouw.

🧠 De Belangrijkste Lesjes van het Onderzoek

1. "Mooi" betekent niet "Waar"
De AI-systemen waren erg goed in het maken van plaatjes die er aantrekkelijk uitzagen. Mensen vonden ze vaak mooier dan de menselijke plaatjes. Maar in de medische wereld is mooi gevaarlijk als het onjuist is. Het is alsof een nepbankje in de tuin zo mooi is dat je erop gaat zitten, en dan valt je erdoorheen.

2. Specialisten zien meer dan leken
De onderzoekers keken ook naar wie de plaatjes beoordeelden.

Hart-specialisten (de experts) waren veel kritischer. Ze zagen de fouten direct.
Niet-specialisten (andere artsen) vonden de plaatjes vaak mooier en beter dan ze waren.
De les: Als je geen expert bent, kun je makkelijk bedrogen worden door een mooie, maar onjuiste tekening. Je hebt een expert nodig om de "recept" te controleren voordat je het serveert.

3. AI is een "Schets", geen "Finaal Werk"
De beste manier om AI te gebruiken is niet om het plaatje direct te tonen aan studenten.

Goed gebruik: Gebruik AI om een ruwe schets te maken. "Kijk, hier is een idee voor een hart."
Fout gebruik: Het direct tonen aan studenten zonder controle.
De analogie: AI is als een rechercheur die een eerste bewijsstuk vindt. Het is een startpunt. Maar voordat je naar de rechter gaat (de studenten), moet een senior rechercheur (de expert) het bewijsstuk controleren op fouten.

🏁 Conclusie in één zin

Generatieve AI kan prachtige plaatjes van harten maken, maar ze zitten vol met medische fouten die studenten in de war kunnen brengen. Gebruik AI alleen als een hulpmiddel dat door een menselijke expert wordt gecontroleerd, nooit als de enige bron van waarheid.

Kortom: Laat de AI de potloden vasthouden, maar laat de menselijke arts de tekening controleren voordat hij aan het bord hangt.

Anatomical Accuracy of Generative AI for Congenital Heart Disease Illustrations: Gemini NanoBanana Versus ChatGPT Models in a Blinded Comparative Study

🎨 De Grote AI-Kunstwedstrijd: Wie tekent het beste een hart?

1. De "Mooie maar Leugenachtige" AI (ChatGPT)

2. De "Beter, maar nog steeds niet perfect" AI (Gemini NanoBanana)

3. De "Gouden Standaard" (Mensen)

🧠 De Belangrijkste Lesjes van het Onderzoek

🏁 Conclusie in één zin

1. Probleemstelling

2. Methodologie

3. Belangrijkste Resultaten

4. Kernbijdragen

5. Betekenis en Conclusie

Anatomical Accuracy of Generative AI for Congenital Heart Disease Illustrations: Gemini NanoBanana Versus ChatGPT Models in a Blinded Comparative Study

🎨 De Grote AI-Kunstwedstrijd: Wie tekent het beste een hart?

1. De "Mooie maar Leugenachtige" AI (ChatGPT)

2. De "Beter, maar nog steeds niet perfect" AI (Gemini NanoBanana)

3. De "Gouden Standaard" (Mensen)

🧠 De Belangrijkste Lesjes van het Onderzoek

🏁 Conclusie in één zin

1. Probleemstelling

2. Methodologie

3. Belangrijkste Resultaten

4. Kernbijdragen

5. Betekenis en Conclusie

Meer zoals dit

Causal Machine Learning for Comparative Effectiveness of GLP-1 RA versus SGLT2i in Heart Failure Using Real-World EHR Data

Association Between Hospital Tiers and Cardiogenic Shock Mortality: Mitigating the Transfer Penalty Through a Regionalized Hub-and-Spoke Model

The contribution of health behaviours to occupational class inequalities in cardiovascular disease: a longitudinal study of Finnish municipal employees

Fontan Subtype, Conduit Size, and Cardiac Morphologic Factors and Their Relationship to Exercise Capacity in the Fontan Circulation: A Single Ventricle Outcomes Network (SV-ONE) Study

Association between sleep quality and left ventricular structure in the Southall and Brent REvisited (SABRE) tri-ethnic study