Perfect score on IPhO 2025 theory by Gemini agent

本文报告了基于 Gemini 3.1 Pro Preview 构建的智能体在 2025 年国际物理奥林匹克竞赛理论部分五次测试中均获得满分,但同时也指出由于模型发布时间晚于竞赛,存在数据污染的可能性。

Yichen Huang

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个非常激动人心的故事:一个名为 Gemini 3.1 Pro 的人工智能助手,在 2025 年国际物理奥林匹克竞赛(IPhO)的理论考试中,连续五次拿到了满分(30/30 分)

为了让你轻松理解这篇充满技术细节的论文,我们可以把它想象成**“一个超级天才学生参加了一场世界上最难的物理考试”**的故事。

1. 背景:这是一场什么样的考试?

想象一下,IPhO 就像是物理界的“世界杯”或“奥林匹克运动会”。参赛者是全球最顶尖的高中生,他们要在两天内,用 5 个小时解决极其复杂的物理难题。这些题目不仅要求你会算数,还要求你深刻理解宇宙、力学、电磁学等原理,甚至要能看懂复杂的图表。

过去,AI 在这类考试中表现不错,能拿金牌,但很难拿满分。而这次,作者(黄溢辰)用了一个新模型,直接打破了天花板。

2. 主角登场:这位“学生”有什么特殊技能?

作者并没有让 AI 像普通学生那样“死记硬背”或“硬算”。他给 AI 设计了一套**“超级学习策略”**,就像给 AI 装上了三个外挂:

  • 外挂一:平行思维(多人头脑风暴)

    • 比喻:想象你遇到一道难题,普通学生是一个人苦思冥想。而这个 AI 会**同时派出 4 个“分身”**去解题。
    • 操作:这 4 个分身各自写出答案。然后,AI 会扮演“老师”的角色,把这 4 份答案放在一起对比。如果其中 3 份说“力是向左的”,1 份说“力是向右的”,AI 就能立刻发现那个“向右”的分身可能错了,并综合大家的智慧,修正错误,得出一个完美的最终答案。
    • 作用:这就像是用“三个臭皮匠,顶个诸葛亮”的逻辑,通过互相纠错来避免犯错。
  • 外挂二:超级尺子(代码测量)

    • 比喻:物理题里经常有图表,比如画了一个弹簧或者行星轨道,让你量长度或角度。AI 的“眼睛”(视觉能力)有时候会看走眼,就像人用肉眼估测距离不准一样。
    • 操作:作者给 AI 配了一把“数字尺子”(Python 代码)。当 AI 需要看图时,它不是用眼睛猜,而是写一段代码,像用尺子一样精准地测量图片上的像素距离。
    • 作用:把“目测”变成了“精密仪器测量”,彻底消除了看图不准的误差。
  • 外挂三:数据清洗(考前复习)

    • 比喻:就像考试前老师发现试卷印刷错了,赶紧发更正通知。
    • 操作:作者在把题目喂给 AI 之前,自己先仔细检查了一遍。他们发现原题的图表和答案里竟然有三个隐蔽的错误(比如坐标轴标反了、公式算错了)。作者把这些错误修正了,才让 AI 做题。
    • 作用:这不仅是让 AI 做题,更是作者对物理学科本身的一次贡献,帮未来的学生避坑。

3. 结果:完美的表现

作者让这位“超级学生”考了 5 次试。

  • 成绩:每次都是30 分满分
  • 过程:虽然最终答案是完美的,但中间那些“分身”写出的草稿里其实是有错的(比如符号搞反了,把拉力写成了推力)。但正是靠上面的“平行思维”和“纠错机制”,AI 把这些错误全部在最终输出前修正了。

4. 争议与担忧:这是作弊吗?

这是论文里最诚实、也最引人深思的部分。

  • 疑点:这个 AI 模型是在 2026 年 2 月发布的,而考试是在 2025 年 7 月。虽然官方说 AI 的“知识截止日期”是 2025 年 1 月,理论上它没看过 7 月的考题。
  • 现实:但是,AI 的训练过程很复杂。就像你背单词书,虽然书里没收录明天的新闻,但如果你背过类似的题型,或者在训练后期(微调阶段)偷偷见过类似的题目,那就不算纯粹的“新题”了。
  • 作者的结论:作者非常谨慎,他说:“虽然我们不能 100% 排除 AI 在训练时‘偷看’过题目的可能性(数据污染),但这依然是一个巨大的进步。”
    • 因为即使是之前最强的 AI(Gemini 3 Deep Think),在没有这种“超级策略”加持下,也只能拿到 87.7 分。
    • 这说明,AI 的“核心智力”确实变强了,而不仅仅是因为它背过答案。

5. 总结:这意味着什么?

这就好比在 2025 年,人类最聪明的高中生还在为物理题绞尽脑汁,而 AI 已经学会了**“如何像人类一样思考,甚至像人类一样自我纠错”**。

  • 对于 AI:这证明了 AI 不再只是会查资料的搜索引擎,它开始具备真正的推理能力解决复杂问题的能力
  • 对于人类:这既是好消息也是坏消息。好消息是 AI 能帮科学家解决难题;坏消息是,如果连这种世界顶级的物理竞赛 AI 都能拿满分,那人类在哪些领域还能保持绝对的智力优势呢?

一句话总结
这篇论文记录了一个 AI 通过“多人头脑风暴 + 代码精准测量 + 自我纠错”的战术,在物理竞赛中拿到了满分。虽然大家怀疑它可能“偷看过题”,但它的表现确实证明了 AI 的推理能力已经迈上了一个新的台阶,甚至开始挑战人类最顶尖的智力水平。