Consistency of AI-Generated Exercise Prescriptions: A Repeated Generation Study Using a Large Language Model

该研究通过重复生成实验评估了大语言模型(Gemini 2.5 Flash)在生成运动处方时的一致性,发现其语义层面高度一致,但在强度等关键量化指标上存在显著波动,表明在临床部署前仍需加强结构化约束与专家验证。

原作者: Kihyuk Lee

发布于 2026-04-14
📖 1 分钟阅读☕ 轻松阅读
⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇文章主要研究了一个非常有趣且重要的问题:当我们让同一个 AI(大语言模型)反复为同一个人开“运动处方”时,它给出的建议会保持一致吗?

想象一下,你走进一家餐厅,点了同一道菜。如果厨师是 AI,你点了 20 次“微辣宫保鸡丁”,端上来的 20 份菜,味道和样子应该差不多吧?如果有的特别咸,有的没放花生,那这家餐厅(AI)就不太靠谱。

这篇论文就是去测试这位"AI 健身教练”的稳定性。

1. 他们做了什么?(实验设计)

研究者找来了 6 个不同的人物画像(就像 6 个不同的顾客):

  • 3 位“生病的顾客”:比如患有糖尿病、膝盖关节炎或刚做完癌症手术的人。
  • 3 位“健康的顾客”:比如想减肥或想练肌肉的年轻人。

然后,他们让 AI 模型(Gemini 2.5 Flash)针对这 6 个人,在完全相同的条件下,每人反复生成 20 次运动计划。总共生成了 120 份处方。

2. 他们怎么检查?(三个维度)

研究者像三个不同的“质检员”,从三个角度来检查这 120 份处方:

  • 质检员 A(语义一致性):看“话术”像不像

    • 比喻:就像检查 20 份作文的“文风”和“大意”是否一样。
    • 结果:AI 写得非常像!大部分时候,它说的话、用的词都高度相似(相似度高达 88%-94%)。这说明 AI 在“讲故事”方面很稳定。
  • 质检员 B(结构一致性):看“数字”准不准

    • 比喻:就像检查菜里的盐放了多少克油温多少度。这是运动处方的核心(FITT 原则:频率、强度、时间、类型)。
    • 结果:这里出了点问题。
      • 频率(练几次):比较稳定。
      • 强度(练多狠):非常不稳定。特别是对于“练肌肉”(抗阻训练),AI 有 10%-25% 的时候竟然没写清楚具体要举多重(比如没写"1 次最大重量的 50%"),或者前后矛盾。
      • 有趣发现:对于病情复杂的病人(比如糖尿病 + 肥胖),AI 反而更“听话”,给出的建议更一致;而对于健康的年轻人(想练肌肉),AI 反而更“放飞自我”,给出的方案五花八门。
  • 质检员 C(安全性):看“警告”有没有

    • 比喻:就像检查菜里有没有放“过敏原提示”或“小心烫口”的标签。
    • 结果:AI 非常守规矩,100% 的处方里都包含了安全警告(比如“如果你感到头晕就停止”)。
    • 但是:警告的篇幅不一样。给病情复杂的病人,AI 会啰嗦地写一大段安全提示;给健康人,它就写得简短些。

3. 核心结论是什么?(大白话总结)

  1. AI 是个“话痨”,但也是个“数学家”:它写出来的文字风格很稳定,读起来像同一个人写的。但是,一旦涉及到具体的数字(比如“心率要达到多少”、“举多重”),它就开始“飘”了,每次生成的数字可能都不一样。
  2. 病情越复杂,AI 越谨慎:当病人情况很复杂(有各种病)时,AI 会被规则“框住”,不敢乱发挥,所以给出的方案比较一致。当面对健康人想练肌肉时,AI 觉得“可发挥空间很大”,结果反而给出了很多种不同的方案。
  3. 不能直接给病人用:虽然 AI 很聪明,也能写出看起来很专业的运动计划,但因为它的具体数字(强度)不稳定,如果直接让病人照着练,今天练轻了,明天练重了,可能会有受伤风险。

4. 这对我们意味着什么?

这就好比现在的 AI 健身教练,“大方向”是对的(比如告诉你糖尿病人要少动、多走路),但**“细节”还需要人类专家来把关**。

未来的建议

  • 不能直接把 AI 生成的数字(比如“每天跑 5 公里”)直接当成医嘱。
  • 需要给 AI 加上更严格的“紧箍咒”(更具体的提示词),或者在 AI 生成后,必须由人类医生或教练审核一遍具体的数字,确认安全后再给病人。

一句话总结
AI 写运动计划,“文风”很稳,但“数字”在飘。在让它真正上岗指导病人之前,还需要人类专家帮它把“尺子”量准。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →