Beyond Via: Analysis and Estimation of the Impact of Large Language Models in Academic Papers

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一位**“学术界的语言侦探”**，正在调查一个有趣的现象：大型语言模型（LLM，比如 ChatGPT、DeepSeek 等）是如何悄悄改变科学家写论文的习惯的。

想象一下，学术圈原本是一个由人类专家组成的“老派俱乐部”，大家说话、写文章都有自己的一套风格。但现在，很多科学家开始请“AI 助手”来润色文章或起标题。这篇论文就是要把这些 AI 留下的“指纹”找出来。

以下是这篇论文的核心发现，用大白话和比喻来解释：

1. 侦探发现了什么“新口音”？

以前，我们觉得 AI 说话有个特点，比如喜欢用"delve"（深入探讨）这种词。但研究发现，AI 也在“进化”和“换风格”。

标题里的“新流行语”：
以前科学家起标题很直白，现在标题里突然多了很多 "via"（通过） 和 "beyond"（超越）。
- 比喻：就像以前大家说“我通过走路去学校”，现在突然大家都爱说“我via走路去学校”，或者“我超越了走路去学校”。这成了 AI 写标题的“新口头禅”。
摘要里的“消失词”：
在文章摘要里，像 "the"（这/那） 和 "of"（的） 这种最基础的词，使用频率反而下降了。
- 比喻：就像一个人说话突然变得特别“精简”，把那些连接词都省掉了，导致读起来有点“干巴巴”的，不像人类那么自然流畅。
旧词新变：
以前 AI 爱用 "together"（一起），现在有些新模型反而不爱用了；而 "furthermore"（此外）这种词在某些新模型里突然爆火。
- 比喻：这就像时尚圈，去年流行穿卫衣，今年流行穿风衣。AI 的“穿衣风格”也在随时间快速变化。

2. 为什么很难分辨“谁写的”？

论文里做了一个实验：让 AI 去分辨一篇文章是 GPT-4 写的，还是 GPT-5 写的，或者是 DeepSeek 写的。

结果很尴尬：AI 侦探们经常**“脸盲”**。它们能猜出“这是机器写的”，但很难准确猜出“这是哪台机器写的”。
原因：现在的 AI 模型越来越像了，它们互相学习，导致彼此之间的“口音”越来越像，甚至开始**“同质化”**（大家都说一样的话）。
比喻：以前 GPT 说话像“美国口音”，DeepSeek 像“中国口音”，现在它们都变成了“国际普通话”，连专家都听不出区别了。

3. 怎么估算 AI 用了多少？

既然很难直接“抓现行”（分辨具体是哪台 AI 写的），作者想了一个**“数豆子”**的笨办法，但很管用。

方法：他们不抓具体的句子，而是统计某些词出现的频率。
- 比如，如果一篇文章里 "via" 这个词突然变多了，或者 "the" 变少了，那就说明这篇论文很可能被 AI 润色过。
结论：通过这种“数词”的方法，他们发现从 2025 年开始，AI 对学术写作的影响越来越大，而且这种影响是动态变化的（今天用这个模型，明天可能换那个模型）。
比喻：就像警察不直接抓小偷，而是通过统计“某条街上突然多了很多某种品牌的鞋印”，从而推断出小偷团伙的活动范围和人数。

4. 这对我们意味着什么？

人类也在被改变：不仅仅是 AI 在模仿人类，人类在使用 AI 后，自己的写作风格也在不知不觉中被 AI“带偏”了。
检测工具要升级：以前那种靠“找 AI 特征”的简单检测器可能不管用了，因为 AI 也在变，而且人类和 AI 的界限越来越模糊。
未来展望：我们需要更聪明的方法来观察这种变化，不能只盯着“是不是 AI 写的”，而要看“语言风格发生了什么样的演变”。

总结

这篇论文告诉我们：AI 正在悄悄重塑学术界的语言风格。 它们不再只是简单的“代笔”，而是变成了某种“风格过滤器”，让全世界的论文读起来越来越像，甚至出现了一些奇怪的“新流行语”。

虽然现在的技术很难精准地指出“这句话是 GPT-5 写的”，但通过观察**“哪些词变多了，哪些词变少了”**，我们依然能看清 AI 正在如何深刻地改变知识的传播方式。这就像观察潮汐，虽然看不清每一滴水，但能明显感觉到海平面的升降。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《Beyond Via: Analysis and Estimation of the Impact of Large Language Models in Academic Papers》（超越"Via"：大语言模型对学术论文影响的分析与估算）的详细技术总结。

1. 研究背景与问题 (Problem)

随着大语言模型（LLM）在学术写作中的普及，其影响力日益显著。然而，现有的研究多集中在检测“某段文本是否由 AI 生成”的二分类问题上，或者仅关注个别标志性词汇（如 "delve"）。本文旨在解决以下核心问题：

动态演变性： LLM 模型更新迅速（如从 GPT-3.5 到 GPT-5 nano），不同模型和提示词（Prompt）产生的语言风格差异巨大，且随时间动态变化。
检测局限性： 现有的多分类检测器（区分具体是哪个模型生成的）在真实场景下准确率较低，且难以区分人类写作与经过轻微修改的 AI 生成文本。
量化估算缺失： 缺乏一种可解释性强、能定量评估 LLM 在学术出版物（特别是 arXiv 论文）中实际使用比例和影响力演变的方法。

2. 方法论 (Methodology)

作者提出了一种基于词频分析的直观且可解释的线性回归框架，结合模拟实验来估算 LLM 的影响。

2.1 数据收集与预处理

数据来源： 使用 Kaggle 上更新的 arXiv 论文数据集（超过 290 万篇），涵盖 2015 年至 2026 年（预测）的数据。
模拟样本： 选取 2022 年 1 月至 10 月（ChatGPT 发布前）的 2,000 篇论文摘要作为基准。
LLM 模拟： 使用 9 种不同模型（GPT 系列、DeepSeek 系列、Gemini 系列、Claude 系列）和两种提示词（简短重写 vs. 深度编辑/角色设定），对基准摘要进行重写或标题生成，构建“人类 -AI"混合语料库。

2.2 核心算法：线性趋势建模与影响估算

基线建立： 假设在 LLM 出现前（2021 年及以前），词频随时间呈线性变化。利用线性回归拟合基线趋势 $f_w(t) = a_w + b_w t$ 。
偏差检测： 将 LLM 出现后的实际观测词频 $f^d_w(t)$ 与预测的基线词频 $f^{pred}_w(t)$ 进行对比，计算比率 $r_w(t)$ 。
混合模型估算： 假设观测文本是人类写作与不同 LLM 生成文本的混合体。通过求解优化问题（最小化观测比率与模型混合比率之间的误差），估算出不同模型在特定时间点的贡献比例 $\eta_{m,p}(t)$ $η_{m, p} (t)$ 。
- 公式核心： $r_w(t) \approx \eta_0(t) + \sum \eta_{m,p}(t) \frac{f^m_w}{f^0_w}$
- 其中 $\eta_0$ 代表人类写作比例， $\eta_{m,p}$ 代表特定模型和提示词的比例。

2.3 辅助分析

文本相似度： 使用 ROUGE (1, 2, L) 和 BERTScore 比较人类原文、不同提示词生成的 AI 文本之间的相似度。
分类实验： 尝试使用 BERT、GPT-2、T5、LLM2Vec 等模型进行多分类任务（区分不同 LLM 及人类文本），以验证检测的可行性。

3. 关键发现与结果 (Key Results)

3.1 词频模式的显著变化

标题特征： 新模型（如 DeepSeek, GPT-5）倾向于在标题中使用 "via" 和 "beyond"。这些词在 2025 年后的真实 arXiv 标题中频率显著上升，超出了线性预测趋势。
摘要特征：
- 停用词减少： 高频功能词 "the" 和 "of" 在摘要中的频率呈现明显下降趋势，表明 LLM 倾向于避免使用这些常见词。
- 词汇偏好演变： 旧模型偏好的词（如 "delve", "intricate"）在新模型中频率下降；而 "together" 等词经历了先降后升的波动，反映了新旧模型偏好的更替。
- 特定词激增： 除 GPT-5 Nano 外，多数模型强烈偏好使用 "furthermore"，导致该词在近期学术写作中频率异常升高。

3.2 模型同质化与分类困难

多分类性能低： 在区分不同 LLM 生成的文本时，分类器的准确率在多分类任务中显著下降（例如，区分 7 类或 13 类时，准确率远低于二分类）。
混淆矩阵分析： 人类文本常被误判为 LLM 生成（约 20% 的误报率），且不同模型生成的文本在特征空间上高度重叠，导致难以精确区分具体是哪个模型生成的。
同质化趋势： 随着模型迭代，不同 LLM 输出的文本相似度（ROUGE/BERTScore）逐渐增加，显示出“同质化”效应，使得基于黑盒分类器的检测越来越困难。

3.3 影响估算结果

动态增长： 估算显示，LLM 对 arXiv 摘要的影响在 2022 年底后开始显现，并在 2024-2025 年间显著增长。
异质性： 真实世界中的 LLM 使用是异质的，不同模型（GPT, DeepSeek, Claude 等）的使用比例随时间动态变化，并非单一模型主导。

4. 主要贡献 (Key Contributions)

提出了基于词频的线性估算框架： 摒弃了复杂的黑盒检测器，采用简单、可解释的线性回归方法，成功量化了 LLM 在学术写作中的渗透率。
揭示了 LLM 影响的动态演变： 证明了 LLM 对学术写作的影响不是静态的，而是随着模型版本更新（如从 GPT-3.5 到 GPT-5）和提示词策略的变化而不断演变。
指出了检测技术的局限性： 通过实验表明，在多分类场景下，现有的分类器难以准确区分具体模型，且人类写作与 AI 辅助写作的界限日益模糊，传统的“检测”思路面临挑战。
识别了新的语言指纹： 除了已知的 "delve"，发现了 "via", "beyond", "furthermore" 等作为新模型指纹的词汇，以及 "the", "of" 频率下降的普遍现象。

5. 意义与启示 (Significance)

监测工具升级： 传统的 AI 检测工具可能失效，学术界需要转向基于统计特征（如词频分布、停用词使用习惯）的宏观监测方法，以评估 AI 对科学文献的整体影响。
学术规范挑战： LLM 正在潜移默化地改变学术写作的风格（Style），这种“机器塑造人类”的现象可能导致学术语言的同质化，需要引起重视。
未来研究方向： 未来的研究应关注如何区分“人类主导的 AI 辅助”与“完全 AI 生成”，以及如何应对模型快速迭代带来的检测滞后问题。

总结： 该论文通过严谨的数据分析和模拟实验，揭示了 LLM 正在深刻且动态地重塑学术写作的语言习惯。它提醒我们，面对日益强大的 LLM，简单的“是/否”检测已不足以应对，需要更细致、动态且可解释的方法来理解和量化其社会与科学影响。