Each language version is independently generated for its own context, not a direct translation.
这篇论文就像是一次对AI 写论文时的“编造参考文献”行为进行的超级大体检。
想象一下,你让一个非常聪明的学生(AI)帮你写一份关于“气候变化”或“人工智能”的学术报告,并让他列出参考书目。你本以为他会去图书馆查资料,结果发现,他有时候会一本正经地胡说八道,编造出一些看起来非常真实、格式完美,但根本不存在的论文和作者。
这篇论文的作者(M.Z. Naser 博士)为了搞清楚这件事有多严重,搞了一场大规模的“捉鬼行动”。
以下是这篇论文的通俗解读:
1. 这场“捉鬼行动”有多大?
作者找了 10 个 目前市面上最火的 AI 模型(比如 GPT-4o, Claude, Llama 等),让它们在不同的学科领域(如工程、医学、AI 本身)里生成参考文献。
- 总产量:它们一共“编造”或“引用”了 近 7 万条 参考文献。
- 大排查:作者把这些引用拿去三个巨大的学术数据库(CrossRef, OpenAlex, Semantic Scholar)里核对。
- 结果:发现这些 AI 的“撒谎率”差别巨大。有的 AI 很老实,撒谎率只有 11%;有的 AI 则是个“大骗子”,撒谎率高达 57%。
2. 核心发现:AI 为什么会撒谎?
🎭 发现一:AI 不会“主动”撒谎,是“被问”才撒谎的
这是一个非常有趣的发现。作者做了一个实验:如果不问 AI“请列出参考文献”,只是让它写文章,没有任何一个 AI 会主动编造参考文献。
- 比喻:这就像是一个厨师,如果你不让他“做一道菜”,他绝不会凭空变出一盘菜。只有当你明确说“给我列个菜单”时,他为了完成任务,才会开始瞎编。
- 结论:撒谎不是 AI 的“本性”,而是因为它太想满足你的要求了,于是开始“脑补”。
🕰️ 发现二:越“新”的东西,越容易编
如果你让 AI 找“最近 5 年”的热门研究,它的撒谎率比找“几十年前的经典老论文”要高得多。
- 比喻:AI 的大脑(训练数据)里存了很多老书,但新书可能还没完全读进去。当你要它找新书时,它记不住,为了交差,它就“现编”了一个听起来很像那么回事的新书名。
📚 发现三:不同领域的“撒谎”程度不同
- AI 和语言学领域:AI 最诚实,因为它的训练数据里全是这些内容。
- 土木工程领域:AI 最爱撒谎,因为这方面的专业资料在它的“大脑”里相对较少,它更容易“瞎编”。
3. 怎么识别和防止 AI 撒谎?(三个实用锦囊)
既然 AI 爱撒谎,我们该怎么办?作者给出了三个简单有效的“防骗指南”:
锦囊一:人多力量大(多模型共识)
如果你让 3 个不同的 AI 同时回答同一个问题,并且它们都引用了同一篇论文,那么这篇论文是真的概率高达 95.6%!
- 比喻:就像三个不同的侦探去查案,如果他们都指认同一个人是凶手,那这个人大概率就是凶手。如果只有一个人说,那可能是他在瞎编。
- 建议:写论文时,别只问一个 AI,多问几个,看它们“撞车”的引用。
锦囊二:事不过三(重复验证)
如果你让同一个 AI 把同一个问题问三遍,如果它三次都给出了完全一样的引用,那这篇论文是真的概率也很高(88.9%)。
- 比喻:如果一个人编故事,每次讲细节都不一样;但如果他每次讲的故事细节都一模一样,那说明这个故事是“背下来”的(真的存在),而不是现场瞎编的。
锦囊三:一眼识破(AI 检测器)
作者训练了一个小工具,不需要去查数据库,光看引用的文字特征就能判断真假。
- 怎么骗过它? 假的引用通常有一些“破绽”:
- 作者名字太短:真的论文通常有很多作者,假的引用往往只写一两个,或者名字看起来很奇怪。
- 没有"et al.":真的长论文通常会写“作者 A 等”,假的引用往往不敢写“等”。
- 年份太新:AI 编造时,喜欢编造最近一两年的论文。
- 比喻:这就像警察看假钞,虽然假钞印得很像,但纸张的纹理、水印的深浅(也就是作者名字的长度、年份的分布)总是有破绽的。这个小工具就是专门抓这些破绽的。
4. 一个令人惊讶的“退步”现象
作者发现,并不是 AI 越新就越聪明。
- OpenAI 的 GPT-5 比 GPT-4 进步巨大,撒谎少了 34%。
- 但是,Anthropic 的 Claude 4.5 却比 Claude 3.5 退步了,撒谎率反而增加了 8%。
- 结论:AI 的进化不是线性的。有时候为了安全或别的调整,反而让它在“编造文献”这件事上变得更不靠谱了。
5. 总结:这对我们意味着什么?
- 不要全信 AI:AI 生成的参考文献列表,必须人工核对。不能直接复制粘贴到论文里。
- 撒谎是“被诱导”的:只要你不让它列参考文献,它就不会编。
- 有办法防:
- 多问几个 AI,看它们是否“串通”(共识)。
- 多问几次同一个 AI,看它是否“背得出来”(重复)。
- 用作者开发的小工具先扫一遍,把明显的假引用过滤掉。
一句话总结:
AI 是个才华横溢但偶尔会“开小差”的学生。它不会无缘无故撒谎,但当你逼它交作业(列参考文献)时,它可能会为了完成任务而“蒙”你。作为老师(研究者),我们需要用“多人核对”和“细节检查”来防止它蒙混过关。