Anatomical Accuracy of Generative AI for Congenital Heart Disease Illustrations: Gemini NanoBanana Versus ChatGPT Models in a Blinded Comparative Study

⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一场**“医学插画界的‘真假美猴王’大比拼”**。

想象一下，医生们需要给医学生讲解心脏里那些复杂得像迷宫一样的先天性疾病（比如心脏里少个洞、血管接反了等）。以前，这些图都是请专业的医学插画师，像画工笔画一样，一笔一划、严谨地画出来的，保证解剖结构分毫不差。

现在，大家想用**人工智能（AI）**来画这些图，因为 AI 画得快、便宜，还能“变”出各种角度。但这篇研究就是想知道：这些 AI 画出来的心脏图，到底能不能用？还是说它们只是“看着像那么回事，其实全是瞎编”的？

1. 比赛规则：谁在参赛？

研究者找了20 种不同的先天性心脏病，让三位“选手”来画：

选手 A（ChatGPT-5 和 ChatGPT-Images）： 代表目前很火的 OpenAI 系列。
选手 B（Gemini NanoBanana）： 代表谷歌的 Gemini 系列（注：这是论文中设定的未来版本，名字很有趣，叫“小香蕉”）。
选手 C（人类专家修改版）： 这是**“标准答案”**。由人类专家基于权威资料画好，再稍微用 AI 风格润色一下，作为对比的“黄金标准”。

评委团： 20 位医生（10 位是心脏专家，10 位是其他科室的医生）。他们被蒙住了眼睛，不知道哪张图是谁画的，只能凭感觉打分。

2. 比赛结果：惨烈的“翻车”现场

🏆 冠军：人类专家（选手 C）

表现： 只有人类画的图，才真正做到了**“解剖结构准确”**。
比喻： 就像一位老练的米其林大厨做的菜，色香味俱全，而且食材（心脏结构）完全对路。
数据： 接近一半的图被评委认为“完全准确”，可以直接拿来给学生上课。

🥈 亚军：Gemini NanoBanana（选手 B）

表现： 它是 AI 里**“最靠谱”**的。虽然也有错误，但比另外两个 AI 强很多。
比喻： 像是一个很有天赋但还没出师的新手厨师。菜摆盘很漂亮（看着很吸引人），但有时候会把盐当成糖，或者把鱼骨头画在奇怪的地方。
数据： 约 23% 的图被认为是准确的。虽然不能直接用，但稍微修改一下（比如把画错的血管改对），就能拿来用。

🥉 垫底：ChatGPT 系列（选手 A）

表现： 灾难现场。绝大多数图都是**“胡编乱造”**的。
比喻： 就像是一个喝醉了酒、还在做白日梦的画家。他画的心脏看起来色彩斑斓、非常逼真，但如果你仔细看，心脏可能长了三只耳朵，或者血管像意大利面一样乱缠在一起。
数据： 超过 85% 的图被判定为“完全错误”或“虚构”。如果学生照着这个学，以后给病人看病可能会把血管接反，后果不堪设想。

3. 一个有趣的发现：越“好看”越危险

研究发现了一个很讽刺的现象：

Gemini 画的图往往最漂亮、最吸引人（评委觉得它“颜值”最高）。
但是，它画得越漂亮，里面的解剖错误可能越隐蔽。
比喻： 这就像包装精美的假药。盒子做得比真药还好看，里面的药片颜色也调得很像，但吃下去不仅治不了病，还可能有毒。如果学生被“颜值”骗了，就会把错误的知识记在脑子里，以后很难纠正。

4. 专家 vs. 外行：谁的眼睛更毒？

心脏专科医生（专家）：眼光毒辣，一眼就能看出 AI 画的血管哪里接错了，给分很严。
非心脏医生（外行）：容易被“颜值”迷惑，觉得图挺好看就给了高分，没发现里面的硬伤。
比喻： 就像品酒师和普通游客。品酒师能尝出酒里是不是掺了水，而游客只觉得这酒瓶子好看、酒标漂亮，就以为是好酒。

5. 结论：AI 能当老师吗？

这篇论文给 AI 画医学图泼了一盆冷水，但也留了一扇窗：

❌ 不能直接当老师： 现在的 AI（哪怕是 Gemini）画的心脏图，绝对不能直接拿给学生看，也不能直接用来做手术指导。因为里面的错误太多了，会误导学生。
✅ 可以当“草稿纸”： AI 可以作为一个**“快速绘图助手”**。比如，医生可以告诉 AI：“帮我画个心脏草图，大概长这样。”然后，必须由人类专家拿着红笔，把画错的地方改对，把乱标的名字改正确，最后才能变成教学材料。

一句话总结

AI 画的心脏图，就像是用 3D 打印机打印出来的“塑料心脏”：看着挺像那么回事，甚至有点光泽，但你千万别拿它去给病人做手术，因为它里面没有真的血管和肌肉，全是“塑料”做的假象。

在医学教育里，“真实”永远比“好看”重要一万倍。AI 目前还只是个需要人类专家严格监管的“实习生”，绝不能让它独立上岗。

Anatomical Accuracy of Generative AI for Congenital Heart Disease Illustrations: Gemini NanoBanana Versus ChatGPT Models in a Blinded Comparative Study

1. 比赛规则：谁在参赛？

2. 比赛结果：惨烈的“翻车”现场

🏆 冠军：人类专家（选手 C）

🥈 亚军：Gemini NanoBanana（选手 B）

🥉 垫底：ChatGPT 系列（选手 A）

3. 一个有趣的发现：越“好看”越危险

4. 专家 vs. 外行：谁的眼睛更毒？

5. 结论：AI 能当老师吗？

一句话总结

1. 研究背景与问题 (Problem)

2. 研究方法 (Methodology)

3. 关键发现与结果 (Key Results)

4. 主要贡献 (Key Contributions)

5. 意义与结论 (Significance & Conclusion)

Anatomical Accuracy of Generative AI for Congenital Heart Disease Illustrations: Gemini NanoBanana Versus ChatGPT Models in a Blinded Comparative Study

1. 比赛规则：谁在参赛？

2. 比赛结果：惨烈的“翻车”现场

🏆 冠军：人类专家（选手 C）

🥈 亚军：Gemini NanoBanana（选手 B）

🥉 垫底：ChatGPT 系列（选手 A）

3. 一个有趣的发现：越“好看”越危险

4. 专家 vs. 外行：谁的眼睛更毒？

5. 结论：AI 能当老师吗？

一句话总结

1. 研究背景与问题 (Problem)

2. 研究方法 (Methodology)

3. 关键发现与结果 (Key Results)

4. 主要贡献 (Key Contributions)

5. 意义与结论 (Significance & Conclusion)

类似论文

Causal Machine Learning for Comparative Effectiveness of GLP-1 RA versus SGLT2i in Heart Failure Using Real-World EHR Data

Association Between Hospital Tiers and Cardiogenic Shock Mortality: Mitigating the Transfer Penalty Through a Regionalized Hub-and-Spoke Model

The contribution of health behaviours to occupational class inequalities in cardiovascular disease: a longitudinal study of Finnish municipal employees

Fontan Subtype, Conduit Size, and Cardiac Morphologic Factors and Their Relationship to Exercise Capacity in the Fontan Circulation: A Single Ventricle Outcomes Network (SV-ONE) Study

Association between sleep quality and left ventricular structure in the Southall and Brent REvisited (SABRE) tri-ethnic study