Daily and Weekly Periodicity in Large Language Model Performance and Its Implications for Research

该论文通过为期三个月的纵向研究揭示,GPT-4o 在固定条件下的性能并非时间不变,而是存在显著的日度和周度周期性波动(约占总方差的 20%),这一发现挑战了现有研究对大语言模型性能稳定性的假设,并提示相关研究需重新考量其可靠性与可复现性。

原作者: Paul Tschisgale, Peter Wulff

发布于 2026-04-09
📖 1 分钟阅读☕ 轻松阅读

这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给大语言模型(LLM,比如 GPT-4o)做了一次长达三个月的“体检”,结果发现了一个令人惊讶的秘密:这些 AI 并不是时刻都保持同样的水平,它们的表现竟然会随着“时间”和“星期几”像潮汐一样涨涨跌跌。

为了让你轻松理解,我们可以把这篇论文的核心内容想象成这样一个故事:

1. 大家的误解:AI 是“永动机”吗?

以前,研究人员在使用 AI 做实验或写代码时,心里都有一个默认的假设:只要我用的模型版本一样、提示词(Prompt)一样、参数设置一样,AI 给出的答案质量就应该是一模一样的,就像一台精密的瑞士钟表,不管今天是周一还是周五,不管现在是上午还是深夜,它的走时精度永远不变。

这就好比你去买同一款面包,你假设不管什么时候去,面包师烤出来的面包口感、松软度都完全一样。

2. 科学家的发现:AI 也有“生物钟”和“疲劳期”

为了验证这个假设,两位德国科学家(Tschisgale 和 Wulff)设计了一个非常枯燥但严谨的实验:

  • 任务:让 GPT-4o 做一道物理题(关于电池和灯泡的电路题)。
  • 频率:每隔 3 小时做一次,每天做 10 次,连续做了 3 个月。
  • 条件:完全固定,就像给 AI 戴上了“紧箍咒”,不让它有任何发挥的余地。

结果让人大跌眼镜: AI 的得分并不是那条平滑的直线,而是一条波浪线

  • 每天的变化:就像人一样,AI 在一天中的不同时段表现不同。
  • 每周的变化:它在工作日(周一到周五)和周末的表现也不一样。
  • 相互作用:最有趣的是,周一的“白天”和周六的“白天”,AI 的表现截然不同。这就像是一个**“工作日模式”和一个“周末模式”**在互相打架,导致 AI 的状态忽高忽低。

3. 为什么会这样?(用“繁忙的餐厅”做比喻)

既然 AI 是代码,为什么会有这种波动?作者推测,这跟服务器负载有关。

想象一下,GPT-4o 是一家超级繁忙的米其林餐厅

  • 高峰期(工作日白天):全球几百万人同时点餐(发送请求)。厨房(服务器)忙得不可开交。为了不让顾客等太久,厨师长(系统管理员)可能会采取一些“急救措施”:
    • 把菜单简化(压缩提示词);
    • 让副厨(量化模型)来帮忙做部分菜;
    • 或者加快出餐速度,牺牲一点摆盘精美度(降低生成质量)。
    • 结果:这时候做出来的菜(AI 回答),虽然快,但可能没那么精致,甚至偶尔会出错。
  • 低谷期(深夜或周末):客人少了,厨师们可以慢工出细活,仔细检查每一道菜。
    • 结果:这时候做出来的菜,质量反而更高。

论文发现,这种由“客流量”引起的质量波动,竟然占据了 AI 表现差异的20%!这意味着,如果你只在工作日的中午去测一次 AI,你可能会觉得它“变笨了”;而如果你在周末的深夜去测,又可能觉得它“天才附体”。

4. 这对我们意味着什么?(“看天气穿衣”的启示)

这个发现对科学研究和使用 AI 的人提出了一个巨大的挑战:

  • 以前的研究可能“偏科”了:如果某篇论文只在一天的某个特定时间(比如周二上午 10 点)测试了 AI,然后宣称"AI 在这个任务上的准确率是 80%",这个结论可能是不准确的。因为换个时间,准确率可能只有 70% 或者高达 90%。这就像你只在一个晴朗的下午测量了气温,就断定“今天很热”,却忽略了晚上会降温。
  • AI 不是“客观真理”:以前我们觉得 AI 是客观的、稳定的工具。现在发现,它也会受“环境”(服务器负载)影响而波动。
  • 如何避免“踩坑”
    • 不要只测一次:就像不能只凭一次体检就断定身体健康一样,研究 AI 性能时,需要在不同时间、不同星期多次测试,取平均值。
    • 覆盖完整周期:如果你要做严谨的研究,最好至少覆盖整整一周(7 天),甚至更久,这样才能看到 AI 的“全貌”。
    • 警惕“时间偏差”:如果你用 AI 来给文章分类或做数据分析,要意识到,如果数据收集的时间段太短,结果可能会因为“时间运气”而带有系统性偏差。

总结

这篇论文告诉我们:AI 并不是一个静止不变的“黑盒子”,它更像是一个受环境影响的“活物”。 它的表现会随着一天中的时间和一周中的日子像潮汐一样涨落。

对于普通用户,这提醒我们:不要迷信某一次 AI 的回答,多试几次,或者在不同时间试试,可能会得到更全面的认识。 对于科研人员,这则是一个警钟:在评估 AI 能力时,必须把“时间”这个变量考虑进去,否则我们的研究结论可能就像在沙滩上盖房子,不够稳固。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →