Can LLMs Produce Original Astronomy Research in a Semester? A Graduate Class Experiment

这篇论文报告了 2025 年秋季一门研究生天文学课程中利用大语言模型(LLM)开展原创研究的实验结果,指出尽管 LLM 能辅助完成论文初稿,但在处理复杂代码、数据检索及避免幻觉方面仍存在显著局限,且引发了学生对创造力受损的担忧,因此未来教学将转向引导学生理性评估并自主决定是否使用 LLM。

原作者: Ann Zabludoff, Chen-Yu Chuang, Parker Thomas Johnson, Yichen Liu, Brina Bianca Martinez, Neev Shah, Lucille Steffes, Gabriel Glen Weible

发布于 2026-03-30
📖 1 分钟阅读☕ 轻松阅读

这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个发生在 2025 年秋季的有趣实验:亚利桑那大学的天文学研究生们尝试完全依靠人工智能(AI)助手,在短短一个学期内,从零开始完成一项真正的、从未有人做过的天文研究,并试图写出一篇能发表的科学论文。

你可以把这项实验想象成:给一群刚学会开车的研究生,配了一辆拥有“自动驾驶”功能的超级跑车,然后让他们在复杂的赛道上跑一圈,看看这辆车到底能不能帮他们拿到冠军,还是说最后还得靠他们自己握方向盘。

以下是用通俗语言和比喻对这篇论文的详细解读:

1. 实验背景:AI 是“超级副驾驶”还是“捣乱鬼”?

现在的 AI(大语言模型,LLM)很聪明,能写诗、写代码、总结文章。但科学家们一直怀疑:它真的能像人类科学家一样,去发现新的宇宙奥秘吗?

  • 目标:学生们被要求利用 AI 寻找一个没人解决过的星系问题,设计实验,写代码分析数据,最后写出一篇论文草稿。
  • 时间:一个学期(大约 4-5 个月)。
  • 参与者:7 名研究生,其中大部分之前并不专门研究星系,对 AI 的使用经验也参差不齐。

2. 成功的时刻:AI 像一位“博学的图书管理员”

学生们发现,AI 在某些方面确实是个神助攻,就像一位读过全世界所有书、反应极快的图书管理员

  • 快速梳理文献:以前需要几周才能读完的几十篇论文,AI 几秒钟就能总结出核心观点,帮学生快速找到研究切入点。
  • 激发灵感:当学生不知道从哪下手时,AI 能像向导一样,把宽泛的问题(比如“星系怎么演化”)缩小成具体的、可操作的研究题目。
  • 写小段代码:对于简单的绘图或修修补补的代码错误,AI 写得很快,帮学生省去了很多机械劳动的时间。

比喻:这就好比你要去一个陌生的城市旅行,AI 瞬间给你画出了一张完美的地图,告诉你哪里有好吃的,哪里风景最美,让你省去了查攻略的几天时间。

3. 失败的教训:AI 是个“自信的幻觉制造者”

然而,当实验进入深水区,AI 的“超能力”就变成了“超能力陷阱”。学生们发现 AI 经常犯一些致命错误,就像那个虽然博学但偶尔会胡说八道的图书管理员

  • 编造引用(最严重的问题)

    • 现象:AI 会一本正经地给你推荐一篇论文,甚至附上链接。但当你点进去,发现那篇论文根本不存在,或者链接指向了完全无关的内容(比如把关于“恒星诞生”的论文,链接到了“星系边缘”的网页)。
    • 比喻:就像你问它“哪本书讲怎么做蛋糕”,它给你一本《如何做蛋糕》的书,但翻开一看,里面全是讲怎么修汽车的,而且它坚称这就是做蛋糕的食谱。
    • 数据:大约 20% 的引用或链接是错的。
  • 代码“幻觉”与死胡同

    • 现象:AI 写的代码看起来很像那么回事,但运行起来全是错。特别是当涉及到复杂的科学模拟(比如模拟暗物质对恒星的影响)时,AI 经常生成“不物理”的结果(比如让恒星飞得不符合物理定律)。
    • 固执己见:最糟糕的是,当学生指出错误时,AI 往往会加倍固执。它会说“不,你错了,我的代码是对的”,甚至编造理由来证明自己没错,而不是承认错误。
    • 比喻:就像你让一个只会背菜谱的机器人去炒菜,它把盐当成了糖,你告诉它“这是咸的”,它却坚持说“这是甜的,是你舌头的问题”,然后继续往锅里倒糖。
  • 无法真正“动手”查数据

    • 现象:AI 能告诉你“数据在某个网站”,但它不能真正登录网站、下载数据、或者处理复杂的数据库格式。它像个只会指路但不会开车的人。
    • 比喻:它告诉你“宝藏藏在 X 坐标”,但它不会帮你挖,甚至它指的那个坐标可能根本就是个坑。

4. 学生的反思:是省了时间,还是浪费了生命?

实验结束后,学生们的感受很复杂:

  • 关于时间:大约一半的学生觉得省了时间(特别是文献搜索阶段),但另一半学生觉得因为要反复检查 AI 的错误,反而更累了。
  • 关于创造力:这是大家最担心的。有学生说:“如果让 AI 替我想下一步该做什么,那思考的乐趣科学家的直觉去哪了?”
    • 比喻:如果让 AI 替你走路,你确实到了终点,但你可能忘了沿途的风景,甚至忘了自己是怎么学会走路的。对于年轻科学家来说,过度依赖 AI 可能会让他们失去“批判性思维”的肌肉。

5. 结论与未来:我们需要“人机协作”,而不是“机器代劳”

这篇论文并没有说"AI 没用”,而是给出了一个清醒的警告

  1. AI 是工具,不是专家:它可以帮你快速入门、写草稿、找灵感,但绝对不能让它替你决定科学真理。所有的引用、数据、代码,人类科学家必须像“质检员”一样亲自复核。
  2. 未来的改进方向
    • AI 需要学会“承认不知道”,而不是编造数据。
    • AI 需要能真正连接数据库,而不是只给个链接。
    • AI 需要更听话,不要总是自作聪明地预测你的下一步。
  3. 给未来的建议
    • 在教学生使用 AI 之前,先教他们如何识别 AI 的谎言
    • 鼓励学生在自己的领域内使用 AI,因为如果你不懂行,你就看不出 AI 在胡说八道。

总结

这就好比给科学家配了一把“瑞士军刀”

  • 用它来开罐头(查文献、写简单代码)非常高效。
  • 但如果你想用它来做心脏手术(解决复杂的科学难题、验证数据),如果你不亲自拿着刀、不盯着每一个步骤,手术可能会失败,甚至伤到病人(得出错误的科学结论)。

核心启示:AI 可以极大地提高科研的效率,但绝不能替代科学家的判断力好奇心。未来的科学家,必须是那些懂得如何驾驭 AI,而不是被 AI 牵着鼻子走的人。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →