When correcting for regression to the mean is worse than no correction at all

该研究指出,常见的回归均值校正方法存在偏差或高方差等缺陷,主张在缺乏对实验可重复性(即真实个体差异占总方差的比例)的清晰理解时,不应盲目校正数据,而应将未校正的粗斜率与基于可重复性推导出的结构零假设进行比较,以得出更稳健的统计结论。

原作者: José F. Fontanari, Mauro Santos

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读
⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇文章其实是在给科学家们(特别是生态学和生物学领域的)敲警钟:当我们试图研究“变化”时,很容易掉进一个名为“回归均值”的统计陷阱里。更糟糕的是,目前大家常用的“修正方法”,往往比不修正还要糟糕,甚至会制造出虚假的结论。

为了让你轻松理解,我们可以把这篇文章的核心思想比作**“给一个摇晃的秤称重”**。

1. 核心问题:为什么我们会看走眼?(回归均值)

想象一下,你有一群体重各不相同的猴子。你给它们称了一次重(第一次测量),然后让它们吃了一个月的特制饲料,再称一次(第二次测量)。

  • 现象: 你发现,那些第一次称重时特别重的猴子,第二次称重时体重变轻了(或者增加得很少);而那些第一次特别轻的猴子,第二次变重了(或者增加了很多)。
  • 直觉陷阱: 你可能会想:“哇!这说明饲料对瘦猴子效果特别好,对胖猴子效果不好,甚至让它们减肥了!”
  • 真相(回归均值): 其实,第一次称重时,那些“特别重”的猴子,很可能只是运气好,正好赶上了它们当天吃得最饱、或者秤稍微有点误差,导致读数偏高。它们真实的体重并没有那么重。第二次称重时,它们回归到了真实的平均水平,看起来就像是“变轻”了。
  • 结论: 这种“向平均值靠拢”的现象,就是回归均值(Regression to the Mean, RTM)。它不是生物学的奇迹,而是测量误差运气造成的假象。

2. 现有的“修正方法”为什么是错的?

科学家们早就知道这个陷阱,于是发明了一些数学公式来“修正”数据,试图找出真正的效果。这篇文章主要批评了两种流行的方法:

方法 A:Berry 等人的方法(像是一个“盲目自信的调音师”)

  • 做法: 这种方法试图通过观察数据的波动,自动调整结果,告诉我们要减去多少“运气成分”。
  • 比喻: 这就像是一个调音师,听到琴弦有点走音,就凭感觉用力去拧。
  • 问题: 这篇文章发现,这个调音师经常拧过头
    • 如果真实的生物效应是“没有差别”,它可能会强行算出“有巨大差别”。
    • 如果真实的生物效应是“负面的”,它可能会把它修正成“正面的”。
    • 结果: 用这种方法,你不仅没消除假象,反而可能制造出新的、更严重的假象。就像为了纠正一个错别字,把整句话都改错了。

方法 B:Blomqvist 的方法(像是一个“完美但昂贵的显微镜”)

  • 做法: 这种方法在理论上非常完美,能算出真实值。但它有一个致命的前提:你必须非常清楚你的秤有多不准(测量误差是多少)。
  • 比喻: 这就像你要用显微镜看细胞,但显微镜说明书上写着:“只有当你确切知道镜片上有多少灰尘时,你才能看清细胞。”
  • 问题: 在大多数生物学实验中,我们根本不知道那个“灰尘”(测量误差)具体是多少。
    • 如果你强行用这个公式,因为缺乏准确的误差数据,算出来的结果会像醉汉走路一样,上下剧烈摇摆(方差极大)。
    • 结果: 虽然理论上它是对的,但在实际操作中,它算出的结果可能比直接看原始数据还要不可靠

3. 作者的建议:别急着“修正”,先学会“怀疑”

既然修正方法要么乱改,要么没法用,作者提出了一个更聪明的策略:不要试图把数据“修”成完美的,而是直接拿原始数据和“预期的假象”做对比。

  • 新策略比喻:
    想象你在玩一个游戏,你知道游戏里有一个“作弊器”(测量误差)会让高分看起来变低,低分看起来变高。
    • 旧做法: 试图把作弊器拆了,还原真实分数(很难,且容易拆坏)。
    • 新做法(作者建议): 直接看原始分数,然后问自己:“如果完全没有作弊,只是纯运气,这个分数会是多少?”
    • 具体操作:
      1. 算出原始的“变化趋势”(斜率)。
      2. 估算一下你的实验**“可重复性”**(Repeatability)。简单说,就是如果你今天测一次,明天再测一次,结果能有多像?如果像得很少,说明误差很大。
      3. 关键一步: 看看你的原始结果,是不是比“纯运气造成的假象”还要离谱?
        • 如果原始结果和“纯运气假象”差不多,那就别瞎猜了,结论就是:没有特殊的生物效应。
        • 如果原始结果比“纯运气假象”还要极端得多,那才可能是真的生物效应。

4. 文中的两个真实案例

作者用两个真实的生物学故事来演示这个观点:

  1. 蜥蜴的热耐受性:

    • 旧结论: 以前认为,耐热性强的蜥蜴,耐热能力提升空间小(因为数据看起来是负相关的)。
    • 新发现: 作者重新分析后发现,这种“负相关”很可能完全是回归均值造成的假象。如果蜥蜴的测量误差稍微大一点,那个“负相关”就消失了。这意味着,那些耐热性强的蜥蜴,可能依然有巨大的适应潜力,之前的结论可能把物种判了“死刑”。
  2. 鸟的端粒(寿命指标):

    • 旧结论: 以前认为,初始端粒长的鸟,端粒缩短得更快(看起来像是一种“补偿”机制)。
    • 新发现: 经过分析,这种“缩短得快”的现象,完全可以用测量误差来解释。修正后的数据(用作者推荐的方法)显示,初始长度和缩短速度之间并没有显著关系。之前的“发现”可能只是统计学的幻觉。

总结:这篇文章想告诉我们什么?

  1. 小心“修正”: 在生物学研究中,盲目使用流行的统计公式去“修正”回归均值,往往比不修正更危险,会制造出虚假的科学发现。
  2. 承认误差: 任何测量都有误差。如果你不知道你的测量有多“准”(可重复性),你就无法确定你看到的变化是真实的,还是运气。
  3. 换个思路: 不要试图把数据“洗白”。相反,应该先算出“如果是纯运气,数据会是什么样”,然后看看你的真实数据是否显著地超出了这个范围。
  4. 核心金句: 如果没有对实验“可重复性”的清晰理解,任何关于“不同处理效果”的结论,在统计学上都是站不住脚的。

简单来说,作者是在呼吁科学家们:在急着下结论之前,先问问自己:“我看到的这个神奇现象,会不会只是我的尺子不准造成的?”

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →