📄 public and global health

Interactive Physical Activity Apps: Do the ABACUS and the MARS Measure Up? A Descriptive Analysis of Behaviour Change Taxonomies

这项研究通过对 17 款免费物理活动应用进行描述性分析，发现尽管这些应用在用户评分上表现良好且具备基础功能，但在行为改变技术（如数据导出、后果激励和障碍规划）的应用上存在显著不足，建议开发者在免费应用中整合更多基于证据的行为改变策略以提升健康效果。

原作者： Ori, E. M., Baay, C., Ester, M., Toohey, A. M.

发布于 2026-02-22

📖 1 分钟阅读☕ 轻松阅读

CC BY 4.0

原作者： Ori, E. M., Baay, C., Ester, M., Toohey, A. M.

原始论文采用 CC BY 4.0 许可（https://creativecommons.org/licenses/by/4.0/）。 ⚕️ 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。阅读完整免责声明

这篇论文就像是一次对手机应用商店里“免费健身教练”的大体检。

想象一下，你走进一家巨大的健身房（应用商店），里面挤满了成千上万个免费的私人教练（APP）。作者们想知道：这些教练到底靠不靠谱？它们是真的在教你科学运动，还是只是披着运动外衣的“推销员”？它们有没有用到那些真正能让人坚持运动的好方法？

为了搞清楚这些，作者们挑选了 17 个完全免费、不需要买手表、也不需要额外付费的健身 APP，给它们做了两个维度的“考试”：

1. 考试一：它们懂“行为心理学”吗？（ABACUS 量表）

这就好比给教练发一张**“改变习惯的秘籍清单”**。清单上有 21 条锦囊妙计，比如：“先了解你的身体状况”、“给你定个目标”、“当你偷懒时鼓励你”、“告诉你如果不运动会有什么后果”等等。

考试结果： 这些教练大多只拿到了及格分（平均 12.8 分，满分 21 分），没有一个是全科满分。
它们做得好的： 大多数教练都能**“摸底”（问你的年龄体重）、“教动作”（给你看视频）和“给反馈”**（告诉你练得怎么样）。这就像教练会帮你热身，也会纠正你的姿势。
它们做得差的： 很少有教练会**“告诉你如果不练会生病”（后果教育），也很少会“帮你把数据导出”，或者“教你怎么克服想偷懒的障碍”**。
比喻： 就像这些教练只负责带你做动作，却很少告诉你“为什么要做”或者“如果放弃会怎样”，更没教你怎么在不想动的时候逼自己一把。

2. 考试二：它们长得好看、好用吗？（MARS 量表）

这是给 APP 的**“颜值和体验评分”**。就像评价一家餐厅：装修好不好看？菜单好不好找？服务员态度怎么样？

考试结果： 这些 APP 的**“功能性”（好不好用、能不能点得动）得分很高，说明它们像一家装修豪华、菜单清晰的餐厅。但是，“主观质量”**（专家觉得它到底有没有用）得分最低。
有趣的现象： 虽然专家觉得它们“不够专业”，但普通用户在应用商店里给它们的评分却很高（平均 4.5 分，满分 5 分）。
为什么？ 作者发现，用户给高分往往是因为**“刚下载时的新鲜感”（蜜月期），或者因为“免费”和“容易上手”**。就像你刚去一家新餐厅，觉得菜色好看、不用排队，就给了五星好评，但可能还没吃到那道难吃的硬菜。

3. 最大的发现：商业动机 vs. 科学效果

这是论文最核心的“反转”：

商业陷阱： 所有的免费 APP 背后都有商业公司。很多 APP 虽然免费，但像个**“诱饵”**，先让你免费用，然后拼命推销付费的高级版、或者让你买昂贵的智能手表。
科学缺失： 很多大品牌的 APP（比如耐克训练俱乐部），虽然下载量巨大，但因为缺乏科学的“行为改变技巧”，专家给它们的评分反而不高。
比喻： 这就像有些健身房为了卖会员卡，免费送你一张精美的健身卡，里面全是漂亮的图片，但真正能帮你养成习惯的“私教课”却很少，或者需要额外掏钱。

总结：这对我们意味着什么？

免费是好事，但别全信： 这些免费 APP 确实让没钱去健身房的人有了运动的机会，这点很棒。
它们更像“工具”而非“教练”： 它们能帮你记录数据、教动作，但很难真正帮你“坚持”下来。它们缺少那些能深入人心的心理学技巧（比如告诉你不运动的后果，或者帮你规划如何克服障碍）。
未来的方向： 开发者们应该少一点“推销”，多一点“科学”。如果免费 APP 能真正运用行为科学的技巧，而不仅仅是为了卖货，它们就能真正帮助那些想运动却总是半途而废的人。

一句话总结：
现在的免费健身 APP 就像是一群**“长得漂亮、动作标准，但缺乏耐心教导你如何坚持的健身教练”**。它们能带你入门，但想真正养成终身运动的习惯，可能还需要我们自己在心里多问几个“为什么”，或者期待未来出现真正懂心理学的免费教练。

这是一份关于交互式免费体能活动（Physical Activity, PA）应用程序的详细描述性分析论文的技术总结。该研究评估了这些应用程序在行为改变技术（Behavior Change Techniques, BCTs）方面的应用情况、用户评分以及应用质量。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

背景： 尽管数字工具（如健身应用）在促进身体活动方面显示出潜力，且健身应用市场庞大，但大多数流行应用需要付费订阅或依赖昂贵的可穿戴设备，这限制了低社会经济地位人群的获取。
核心问题：
1. 目前公开可用的免费体能活动应用程序有多少？
2. 这些免费应用是否遵循了基于证据的行为改变技术（BCTs）？
3. 这些应用的行为改变特征与用户评分及应用质量之间存在何种关系？
4. 现有的免费应用是否真正基于行为科学原理开发，还是主要受商业动机驱动？

2. 研究方法 (Methodology)

本研究采用数字环境扫描（Digital Environmental Scan）和描述性内容分析的方法。

数据来源： 在 Google Play (Android) 和 Apple iTunes (iOS) 商店中搜索关键词“体能活动 (physical activity)"、“健身 (fitness)"和“运动 (exercise)"。
筛选标准：
- 纳入标准： 英语界面、针对成人（18 岁以上）、以体能活动为主要目标、具备双向交互性（用户可输入并获得反馈/计划）、完全免费（无强制付费订阅才能使用核心交互功能）。
- 排除标准： 需要付费订阅、仅单向信息展示、仅追踪步数等被动记录、需要外部硬件（如智能手表、哑铃）或特定设备。
样本量： 初始搜索 600 个应用，经去重和筛选后，最终纳入 17 个 符合所有标准的应用程序。
评估工具：
1. ABACUS (App Behaviour Change Scale)： 用于评估行为改变潜力。包含 21 个指标，分为四个类别：知识与信息、目标与计划、反馈与监控、行动。
2. MARS (Mobile App Rating Scale)： 用于评估应用质量。包含四个客观维度（参与度、功能性、美观性、信息质量）和一个主观质量评分。
数据分析： 使用描述性统计、皮尔逊相关系数以及线性回归分析，探讨应用评分（应用商店评分）与 ABACUS/MARS 评分之间的关系。

3. 主要发现 (Key Results)

A. 应用特征

商业属性： 所有 17 个应用均具有商业关联，主要针对成年人群体。
普及度： 下载量从 5 万到超过 1 亿不等，用户评分普遍较高（平均 4.5 ± 0.4 分，满分 5 分）。
更新频率： 52.9% 的应用在审查前一年内有过更新。

B. ABACUS 行为改变技术评估

总体得分： 没有应用涵盖所有 21 个 ABACUS 指标。得分范围在 8-18 分之间（平均 12.8 ± 2.4 分）。
最普遍的特征 (100% 存在)：
1. 收集基线信息（如年龄、体重）。
2. 提供体能活动教学内容（如视频、指导）。
3. 应用能向用户提供反馈。
4. 提供鼓励、提醒、促进习惯养成及允许日常活动练习。
最缺失的特征：
1. 数据导出功能 (0/17)。
2. 关于停止/继续活动的后果说明 (1/17, 5.9%)。
3. 障碍规划 (2/17, 11.8%)。
指南一致性： 仅 2 个应用（11.7%）明确符合国家的体能活动指南或展示相关专业知识。

C. MARS 质量评估

评分分布：
- 功能性 (Functionality) 得分最高（平均 4.2 ± 0.4），表明应用易用且导航清晰。
- 主观质量 (Subjective Quality) 得分最低（平均 3.5 ± 0.7），研究人员未强烈推荐这些应用用于推广。
焦点领域： 94.1% 的应用包含目标设定，58.8% 关注身体健康，41.2% 包含正念/冥想元素。
理论缺失： 没有任何应用使用基于证据的治疗技术（如认知行为疗法 CBT、接纳承诺疗法 ACT 或优势导向方法）。

D. 回归分析结果

应用商店评分预测： 只有聚合的 MARS 领域（即所有维度的综合）能显著解释应用商店用户评分的变异（调整后的 $R^2 = 0.54$ , $p=0.02$ ）。单个 MARS 领域或 ABACUS 领域与用户评分无显著相关性。
主观质量关联： ABACUS 的“反馈与监控”、“行动”类别以及总分与 MARS 的主观质量评分呈显著正相关。

4. 关键贡献 (Key Contributions)

填补空白： 这是首项专门针对免费且交互式的体能活动应用进行行为改变技术和质量评估的研究。
揭示差距： 发现尽管应用评分普遍较高，但它们缺乏关键的行为改变技术（如障碍规划、后果教育），且多受商业动机驱动，而非基于行为科学证据。
用户偏好与科学的错位： 研究表明，用户的高评分可能源于应用的易用性（功能性）和“蜜月期”效应，而非其是否真正基于有效的行为改变理论。
方法论验证： 成功应用 ABACUS 和 MARS 框架对免费应用进行了系统性分类和评估，为未来研究提供了基准。

5. 意义与局限性 (Significance & Limitations)

意义

健康公平性： 免费应用是改善低社会经济地位人群体能活动获取的重要途径。
开发建议： 开发者应更多地整合基于证据的行为改变技术（如障碍规划、后果教育），以提高长期依从性和健康结果，而不仅仅是追求商业转化。
政策启示： 需要开发更多免费、基于证据的工具，以解决全球体能活动不足的问题。

局限性

样本量小： 最终仅纳入 17 个应用，限制了统计功效。
时间敏感性： 应用市场变化快，研究结果可能随时间推移而失效（许多应用可能已下架或更改付费模式）。
语言限制： 仅搜索了英语应用，可能遗漏了其他语言的高质量免费应用。
商业干扰： 应用商店的排名可能受付费推广影响，导致样本偏差。
主观评分偏差： MARS 的主观质量评分由行为科学专家给出，可能与普通用户的实际感知存在差异。

结论

虽然现有的免费交互式体能活动应用在功能性和用户评分上表现良好，但它们在行为改变技术的深度和基于证据的设计方面存在显著不足。未来的应用开发需要在保持免费和易用的同时，更紧密地结合行为科学原理，以真正促进用户的长期行为改变和健康改善。