📄 health informatics

Population differences in wearable device wear time: Rescuing data to address biases and advance health equity

该研究利用"All of Us"项目中的 Fitbit 数据，首次系统揭示了人口学、社会经济及心理健康等因素对可穿戴设备佩戴时长的显著影响，指出传统合规阈值会加剧疾病人群的数据偏差，并据此提出了一套包含动态阈值与统计校正在内的灵活框架，以优化数据保留并推动数字健康研究的公平性。

原作者： Hurwitz, E., Connelly, E., Sklerov, M., Master, H., Hochheiser, H., Butzin-Dozier, Z., Dunn, J., Haendel, M. A.

发布于 2026-03-06

📖 1 分钟阅读☕ 轻松阅读

CC BY 4.0

原作者： Hurwitz, E., Connelly, E., Sklerov, M., Master, H., Hochheiser, H., Butzin-Dozier, Z., Dunn, J., Haendel, M. A.

原始论文采用 CC BY 4.0 许可（https://creativecommons.org/licenses/by/4.0/）。 ⚕️ 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。阅读完整免责声明

这篇论文就像是在给可穿戴设备（比如 Fitbit 智能手表）做了一次“体检”，发现了一个以前被大家忽略的大问题：不同人群戴手表的“勤快程度”不一样，而如果我们不处理好这个问题，就会在健康研究中产生巨大的偏见。

为了让你更容易理解，我们可以把这项研究想象成**“一场关于谁在认真跑步的马拉松”**。

1. 核心问题：为什么有些人“退赛”了？

想象一下，研究人员组织了一场马拉松（健康研究），让所有人戴上智能手表来记录跑步数据。

传统的做法（旧规则）： 研究人员规定：“如果你今天跑步时间少于 10 小时，你的数据就作废，直接扔掉，不算数。”
发现的问题： 研究人员发现，那些生病的人（比如抑郁症患者）、收入较低的人、或者女性，往往因为身体不舒服、太忙或者没动力，手表戴得没那么久。
后果： 如果直接按“少于 10 小时就扔掉”的旧规则，生病的人的数据会被大量丢弃（就像把那些因为生病跑不动的选手直接踢出比赛），而健康人的数据保留得很多。
- 比喻： 这就像是在研究“为什么大家跑得慢”，结果你把所有跑得慢的人都赶出赛场了，最后得出的结论是“大家都跑得很快”，这显然是错的，而且对生病的人不公平。

2. 研究发现：谁戴得久？谁戴得短？

研究人员分析了近 1.2 万名“跑者”（All of Us 项目参与者）的数据，发现了一些有趣的规律：

戴得久的人（“勤奋组”）： 男性、年纪大一点的人（60-70 岁）、收入高、学历高、有保险的人。他们更有可能把手表戴满一整天。
戴得短的人（“困难组”）： 女性、年轻人、收入低、学历低、没有保险的人。
最明显的差异（“生病组”）： 有抑郁症、焦虑症的人，或者被确诊患有这些疾病的人，他们戴手表的时间显著变短。
- 比喻： 这就像是一个人生病了，连起床都困难，更别提坚持戴手表记录数据了。这时候，“戴得短”本身就是一个重要的健康信号，而不是无效数据。

3. 最惊人的数据：旧规则有多“狠”？

研究做了一个对比：

对于健康人，如果按“每天戴满 10 小时”的标准，大概只有 21% 的天数被扔掉。
对于抑郁症患者，同样的标准下，竟然有 74.4% 的天数被扔掉了！
比喻： 这就像是在筛选“谁更努力”，结果把 3/4 的生病选手的数据都删光了，只留下了那些本来就很健康、很努力的选手。这样做出来的研究，完全无法代表真实世界，也帮不到那些最需要帮助的人。

4. 解决方案：如何“抢救”这些数据？

作者提出了一套新的“比赛规则”，不再简单粗暴地扔掉数据，而是用更聪明的方法：

方法 A：把“戴表时间”当作一个变量（协变量调整）。
- 比喻： 就像在计算跑步成绩时，不仅看跑了多远，还考虑到“你今天只穿了半天的鞋”。我们在分析时，把“戴了多久”这个因素算进去，而不是直接删掉没戴够时间的人。这样就能保留所有数据，同时修正偏差。
方法 B：算“速度”而不是“总里程”（指标归一化）。
- 比喻： 如果一个人只戴了 2 小时，走了 2000 步；另一个人戴了 10 小时，走了 10000 步。与其比总数，不如比“每小时走多少步”。这样即使戴的时间短，也能公平地比较谁更活跃。
方法 C：降低门槛（自适应阈值）。
- 比喻： 既然生病的人很难戴满 10 小时，那我们就把标准降到 6 小时或 8 小时，只要数据质量够好就行，尽量多保留一点数据。

5. 总结：为什么要关心这个？

这项研究告诉我们，可穿戴设备不仅是收集数据的工具，手表“戴没戴”这件事本身，就藏着关于健康状况的重要线索。

对科学界： 以后做研究，不能只盯着“健康人”的数据，要用更灵活的方法（比如上面的 A、B、C 方法）来保留生病人群的数据，否则研究结果会有偏差，甚至误导医生。
对社会公平： 如果一直用旧规则，低收入、生病、少数族裔群体的声音会被“静音”，医疗进步的红利他们就拿不到。新的方法能让这些“沉默的数据”重新发声，推动更公平的健康研究。

一句话总结：
以前我们因为有人“偷懒”没戴够时间就扔掉数据，结果把生病的人排除在外了；现在我们要学会**“理解他们的难处，用更聪明的数学方法把他们的数据留下来”**，这样我们的健康研究才能真正帮助到每一个人。

这是一份关于论文《Population differences in wearable device wear time: Rescuing data to address biases and advance health equity》（可穿戴设备佩戴时间的群体差异：挽救数据以解决偏差并促进健康公平）的详细技术总结。

1. 研究背景与问题 (Problem)

核心问题：可穿戴设备（如 Fitbit）通过连续监测数字生物标志物为个性化医疗带来了变革，但个体在设备佩戴时间（wear time）上的差异可能导致信号识别被掩盖或产生偏差。
现有局限：
- 目前缺乏一个全面的框架来理解不同人群（人口学、社会决定因素、健康状况等）中佩戴时间的差异。
- 现有的数字健康研究通常采用固定的“合规性”过滤标准（例如，每天佩戴时间 $\ge$ 10 小时），以剔除“不合规”数据。
- 偏差风险：这种严格的过滤标准会不成比例地剔除特定人群（如患有抑郁症、焦虑症或社会经济地位较低的人群）的数据。如果佩戴时间的减少本身就是疾病负担或症状严重程度的反映，那么剔除这些数据不仅丢失了临床意义，还引入了选择偏差（Selection Bias），导致研究结果无法代表真实世界，进而阻碍健康公平。
研究目标：系统性地表征可穿戴设备佩戴时间在不同人口学特征、社会决定因素（SDoH）、生活方式、心理健康症状及慢性病群体中的差异，并提出一种灵活的方法论框架来优化数据保留，减少偏差。

2. 方法论 (Methodology)

数据来源：
- 使用了“全人类”（All of Us, AoU）研究计划 v7 版本的受控数据集。
- 样本量：11,901 名参与者，拥有 Fitbit 数据、调查数据（COPE 调查）和电子健康记录（EHR）。
- 数据模型：自带设备（Bring-Your-Own-Device），参与者将已有的 Fitbit 数据链接到 AoU 门户。
统计分析：
- 指标定义：
  1. 佩戴天数百分比：有步数记录的天数 / 总潜在佩戴天数。
  2. 日均佩戴小时数：每天非零步数的小时数。
- 模型：使用线性回归（Linear Regression）和线性混合效应模型（Linear Mixed-Effects Models, LMM），以处理个体内的相关性（随机效应为 Person ID）。
- 协变量调整：所有模型均调整了年龄、性别、种族/民族、年收入、教育水平和医疗保险状态。
- 多重比较校正：使用 Bonferroni 校正。
分析维度：
- 人口学与 SDoH：年龄、性别、种族、收入、教育、保险。
- 心理健康：基于调查的抑郁、焦虑、快感缺失症状；基于 EHR 的重度抑郁症（MDD）和焦虑症（AD）诊断。
- 慢性病：基于 Phecodes 分类的各种慢性病类别。
- 时间动态：比较诊断前与诊断后的佩戴时间变化。
方法学评估框架：
为了展示不同数据处理方法的影响，作者对比了五种处理佩戴时间变异性的方法：
1. 标准合规过滤：仅保留 $\ge$ 10 小时/天的数据。
2. 协变量调整：保留所有数据，将每日佩戴小时数作为协变量纳入模型。
3. 指标归一化：将累积指标（如步数）除以佩戴小时数（如步数/小时）。
4. 倾向性评分匹配 (Propensity Score Matching)：基于佩戴时间分布匹配参与者。
5. 自适应阈值：测试 1-10 小时的不同阈值，寻找组间佩戴时间无显著差异的平衡点。

3. 关键发现 (Key Results)

A. 佩戴时间的群体差异

人口学因素：
- 年龄：佩戴时间随年龄增长而增加，60-70 岁组最高。
- 性别：男性佩戴时间显著高于女性（尽管女性样本量更大）。
- 社会经济地位：高收入、高学历人群佩戴时间更长。
- 种族/民族：西班牙裔/拉丁裔佩戴时间显著低于非西班牙裔白人。
- 保险：有保险者佩戴时间显著高于无保险者。
心理健康与疾病：
- 症状 vs. 诊断：抑郁、焦虑和快感缺失症状与佩戴时间减少相关。这种减少在临床诊断（如 MDD）后比仅基于症状的自我报告更为显著。
- 具体数据：MDD 患者日均佩戴时间比对照组少约 9.59 小时，佩戴天数百分比减少约 59.7%。
- 疾病特异性：不同疾病对佩戴时间影响不同。例如，烟草使用障碍患者佩戴时间减少，而神经系统疾病患者佩戴时间反而增加（可能反映了对持续监测的需求）。
- 时间效应：在确诊精神疾病后，佩戴时间显著下降，且这种下降幅度大于健康对照组随时间的自然下降趋势。

B. 标准过滤方法的偏差

数据丢失的不平等：
- 使用标准的 $\ge$ 10 小时/天阈值时，74.4% 的 MDD 患者数据天被剔除，而对照组仅为 20.9%。
- 这种差异导致疾病组的数据代表性严重受损，统计功效降低，并引入了系统性偏差。

C. 不同分析方法的效果对比（以 MDD 与步数关系为例）

标准过滤：显示出最大的组间步数差异（999 步/天），但这部分差异可能包含了未调整的佩戴时间变异带来的偏差。
协变量调整：保留了 100% 的数据，显示出的步数差异较小（796 步/天）但依然显著。这表明部分观察到的活动差异实际上是由佩戴时间不同引起的，而非纯粹的活动量差异。
指标归一化：证实了 MDD 患者在单位时间内的活动量（步数/小时）确实较低。
倾向性匹配：由于严重的匹配数据丢失（仅保留 7.1% 的数据），统计功效大幅下降，导致结果不再显著。
自适应阈值：即使在较低的阈值下，MDD 组与对照组的佩戴时间差异依然显著，说明单纯降低阈值无法完全消除组间差异，必须结合统计调整。

4. 主要贡献 (Key Contributions)

首次大规模系统性评估：利用 AoU 的大规模数据，首次全面量化了可穿戴设备佩戴时间在人口学、SDoH、心理健康和慢性病群体中的分布差异。
揭示“合规性”过滤的偏差：实证证明了广泛使用的 $\ge$ 10 小时阈值会不成比例地剔除患病人群（特别是精神疾病患者）的数据，导致严重的选择偏差和健康不平等。
提出灵活的方法论框架：
- 不再单一依赖“剔除不合规数据”，而是提出了包含协变量调整、指标归一化、倾向性匹配和自适应阈值在内的组合策略。
- 论证了将佩戴时间作为协变量是平衡统计功效、样本代表性和分析严谨性的最佳实践之一，能够“挽救”原本会被丢弃的有价值数据。
重新定义佩戴时间的意义：指出佩戴时间本身不仅是一个数据质量问题，更是一个具有临床意义的数字生物标志物（反映疾病负担、症状严重程度或治疗依从性）。

5. 意义与影响 (Significance)

健康公平：通过采用更包容的数据处理方法，可以减少对弱势群体（低收入、少数族裔、精神疾病患者）的系统性排斥，使数字健康研究更具代表性。
研究严谨性：为可穿戴设备研究提供了新的分析范式，避免因不当的数据清洗而扭曲临床结论（例如，错误地将佩戴时间减少归因于活动量减少，而忽略了疾病本身的影响）。
临床洞察：提示临床医生和研究者，可穿戴设备佩戴时间的突然减少可能是疾病恶化或治疗副作用的早期预警信号，应予以重视而非简单视为数据缺失。
未来方向：呼吁未来的研究在报告结果时进行敏感性分析（使用多种方法），并建议在研究设计阶段就考虑佩戴时间的变异，而不是事后过滤。

总结：该论文有力地论证了在可穿戴设备研究中，必须将“佩戴时间”视为一个关键的变量而非单纯的噪声。通过采用灵活的分析框架，研究者可以在保持科学严谨性的同时，最大限度地利用数据，从而推动更公平、更准确的数字健康研究。