Consistency of AI-Generated Exercise Prescriptions: A Repeated Generation… — 通俗解释

⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇文章主要研究了一个非常有趣且重要的问题：当我们让同一个 AI（大语言模型）反复为同一个人开“运动处方”时，它给出的建议会保持一致吗？

想象一下，你走进一家餐厅，点了同一道菜。如果厨师是 AI，你点了 20 次“微辣宫保鸡丁”，端上来的 20 份菜，味道和样子应该差不多吧？如果有的特别咸，有的没放花生，那这家餐厅（AI）就不太靠谱。

这篇论文就是去测试这位"AI 健身教练”的稳定性。

1. 他们做了什么？（实验设计）

研究者找来了 6 个不同的人物画像（就像 6 个不同的顾客）：

3 位“生病的顾客”：比如患有糖尿病、膝盖关节炎或刚做完癌症手术的人。
3 位“健康的顾客”：比如想减肥或想练肌肉的年轻人。

然后，他们让 AI 模型（Gemini 2.5 Flash）针对这 6 个人，在完全相同的条件下，每人反复生成 20 次运动计划。总共生成了 120 份处方。

2. 他们怎么检查？（三个维度）

研究者像三个不同的“质检员”，从三个角度来检查这 120 份处方：

质检员 A（语义一致性）：看“话术”像不像
- 比喻：就像检查 20 份作文的“文风”和“大意”是否一样。
- 结果：AI 写得非常像！大部分时候，它说的话、用的词都高度相似（相似度高达 88%-94%）。这说明 AI 在“讲故事”方面很稳定。
质检员 B（结构一致性）：看“数字”准不准
- 比喻：就像检查菜里的盐放了多少克、油温多少度。这是运动处方的核心（FITT 原则：频率、强度、时间、类型）。
- 结果：这里出了点问题。
  - 频率（练几次）：比较稳定。
  - 强度（练多狠）：非常不稳定。特别是对于“练肌肉”（抗阻训练），AI 有 10%-25% 的时候竟然没写清楚具体要举多重（比如没写"1 次最大重量的 50%"），或者前后矛盾。
  - 有趣发现：对于病情复杂的病人（比如糖尿病 + 肥胖），AI 反而更“听话”，给出的建议更一致；而对于健康的年轻人（想练肌肉），AI 反而更“放飞自我”，给出的方案五花八门。
质检员 C（安全性）：看“警告”有没有
- 比喻：就像检查菜里有没有放“过敏原提示”或“小心烫口”的标签。
- 结果：AI 非常守规矩，100% 的处方里都包含了安全警告（比如“如果你感到头晕就停止”）。
- 但是：警告的篇幅不一样。给病情复杂的病人，AI 会啰嗦地写一大段安全提示；给健康人，它就写得简短些。

3. 核心结论是什么？（大白话总结）

AI 是个“话痨”，但也是个“数学家”：它写出来的文字风格很稳定，读起来像同一个人写的。但是，一旦涉及到具体的数字（比如“心率要达到多少”、“举多重”），它就开始“飘”了，每次生成的数字可能都不一样。
病情越复杂，AI 越谨慎：当病人情况很复杂（有各种病）时，AI 会被规则“框住”，不敢乱发挥，所以给出的方案比较一致。当面对健康人想练肌肉时，AI 觉得“可发挥空间很大”，结果反而给出了很多种不同的方案。
不能直接给病人用：虽然 AI 很聪明，也能写出看起来很专业的运动计划，但因为它的具体数字（强度）不稳定，如果直接让病人照着练，今天练轻了，明天练重了，可能会有受伤风险。

4. 这对我们意味着什么？

这就好比现在的 AI 健身教练，“大方向”是对的（比如告诉你糖尿病人要少动、多走路），但**“细节”还需要人类专家来把关**。

未来的建议：

不能直接把 AI 生成的数字（比如“每天跑 5 公里”）直接当成医嘱。
需要给 AI 加上更严格的“紧箍咒”（更具体的提示词），或者在 AI 生成后，必须由人类医生或教练审核一遍具体的数字，确认安全后再给病人。

一句话总结：
AI 写运动计划，“文风”很稳，但“数字”在飘。在让它真正上岗指导病人之前，还需要人类专家帮它把“尺子”量准。

Consistency of AI-Generated Exercise Prescriptions: A Repeated Generation Study Using a Large Language Model

1. 他们做了什么？（实验设计）

2. 他们怎么检查？（三个维度）

3. 核心结论是什么？（大白话总结）

4. 这对我们意味着什么？

1. 研究背景与问题 (Problem)

2. 研究方法 (Methodology)

3. 关键贡献 (Key Contributions)

4. 主要研究结果 (Key Results)

5. 研究意义与局限性 (Significance & Limitations)

Consistency of AI-Generated Exercise Prescriptions: A Repeated Generation Study Using a Large Language Model

1. 他们做了什么？（实验设计）

2. 他们怎么检查？（三个维度）

3. 核心结论是什么？（大白话总结）

4. 这对我们意味着什么？

1. 研究背景与问题 (Problem)

2. 研究方法 (Methodology)

3. 关键贡献 (Key Contributions)

4. 主要研究结果 (Key Results)

5. 研究意义与局限性 (Significance & Limitations)

类似论文