Beyond Via: Analysis and Estimation of the Impact of Large Language Models in Academic Papers

该论文通过分析 arXiv 论文发现大语言模型(LLM)的使用导致了标题和摘要中特定词汇(如"beyond"和"via"频率上升,"the"和"of"频率下降)的显著变化,并指出当前分类器难以区分具体生成模型,而采用可解释的线性方法则揭示了现实世界中 LLM 使用模式的异质性与动态演化特征。

Mingmeng Geng, Yuhang Dong, Thierry Poibeau

发布于 2026-03-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一位**“学术界的语言侦探”**,正在调查一个有趣的现象:大型语言模型(LLM,比如 ChatGPT、DeepSeek 等)是如何悄悄改变科学家写论文的习惯的。

想象一下,学术圈原本是一个由人类专家组成的“老派俱乐部”,大家说话、写文章都有自己的一套风格。但现在,很多科学家开始请“AI 助手”来润色文章或起标题。这篇论文就是要把这些 AI 留下的“指纹”找出来。

以下是这篇论文的核心发现,用大白话和比喻来解释:

1. 侦探发现了什么“新口音”?

以前,我们觉得 AI 说话有个特点,比如喜欢用"delve"(深入探讨)这种词。但研究发现,AI 也在“进化”和“换风格”

  • 标题里的“新流行语”
    以前科学家起标题很直白,现在标题里突然多了很多 "via"(通过)"beyond"(超越)
    • 比喻:就像以前大家说“我通过走路去学校”,现在突然大家都爱说“我via走路去学校”,或者“我超越了走路去学校”。这成了 AI 写标题的“新口头禅”。
  • 摘要里的“消失词”
    在文章摘要里,像 "the"(这/那)"of"(的) 这种最基础的词,使用频率反而下降了。
    • 比喻:就像一个人说话突然变得特别“精简”,把那些连接词都省掉了,导致读起来有点“干巴巴”的,不像人类那么自然流畅。
  • 旧词新变
    以前 AI 爱用 "together"(一起),现在有些新模型反而不爱用了;而 "furthermore"(此外)这种词在某些新模型里突然爆火。
    • 比喻:这就像时尚圈,去年流行穿卫衣,今年流行穿风衣。AI 的“穿衣风格”也在随时间快速变化。

2. 为什么很难分辨“谁写的”?

论文里做了一个实验:让 AI 去分辨一篇文章是 GPT-4 写的,还是 GPT-5 写的,或者是 DeepSeek 写的。

  • 结果很尴尬:AI 侦探们经常**“脸盲”**。它们能猜出“这是机器写的”,但很难准确猜出“这是哪台机器写的”。
  • 原因:现在的 AI 模型越来越像了,它们互相学习,导致彼此之间的“口音”越来越像,甚至开始**“同质化”**(大家都说一样的话)。
  • 比喻:以前 GPT 说话像“美国口音”,DeepSeek 像“中国口音”,现在它们都变成了“国际普通话”,连专家都听不出区别了。

3. 怎么估算 AI 用了多少?

既然很难直接“抓现行”(分辨具体是哪台 AI 写的),作者想了一个**“数豆子”**的笨办法,但很管用。

  • 方法:他们不抓具体的句子,而是统计某些词出现的频率
    • 比如,如果一篇文章里 "via" 这个词突然变多了,或者 "the" 变少了,那就说明这篇论文很可能被 AI 润色过。
  • 结论:通过这种“数词”的方法,他们发现从 2025 年开始,AI 对学术写作的影响越来越大,而且这种影响是动态变化的(今天用这个模型,明天可能换那个模型)。
  • 比喻:就像警察不直接抓小偷,而是通过统计“某条街上突然多了很多某种品牌的鞋印”,从而推断出小偷团伙的活动范围和人数。

4. 这对我们意味着什么?

  • 人类也在被改变:不仅仅是 AI 在模仿人类,人类在使用 AI 后,自己的写作风格也在不知不觉中被 AI“带偏”了。
  • 检测工具要升级:以前那种靠“找 AI 特征”的简单检测器可能不管用了,因为 AI 也在变,而且人类和 AI 的界限越来越模糊。
  • 未来展望:我们需要更聪明的方法来观察这种变化,不能只盯着“是不是 AI 写的”,而要看“语言风格发生了什么样的演变”。

总结

这篇论文告诉我们:AI 正在悄悄重塑学术界的语言风格。 它们不再只是简单的“代笔”,而是变成了某种“风格过滤器”,让全世界的论文读起来越来越像,甚至出现了一些奇怪的“新流行语”。

虽然现在的技术很难精准地指出“这句话是 GPT-5 写的”,但通过观察**“哪些词变多了,哪些词变少了”**,我们依然能看清 AI 正在如何深刻地改变知识的传播方式。这就像观察潮汐,虽然看不清每一滴水,但能明显感觉到海平面的升降。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →