Death of the Novel(ty): Beyond n-Gram Novelty as a Metric for Textual Creativity

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给现在的 AI 写作能力做了一次“深度体检”，结果发现了一个令人惊讶的真相：AI 写出的东西，越“生僻”，往往越“离谱”。

为了让你轻松理解，我们可以把这篇论文的核心内容想象成一场关于**“烹饪”**的比喻。

1. 以前的误区：只要食材没吃过，就是好菜？

过去，人们评价 AI 写得有没有“创意”，主要看一个指标叫 "N-gram 新颖度”。

比喻：这就好比厨师做菜，如果一道菜里用的某种香料，在以前的几万亿本食谱里从来没出现过，大家就认为这道菜“很有创意”。
问题：论文作者（一群来自哥伦比亚大学等顶尖机构的专家）发现，这个标准太片面了。就像你往汤里加了一种从未见过的“蓝色粉末”，虽然它很新奇（Novelty），但如果这粉末有毒或者让汤变得难以下咽（缺乏 Appropriateness/实用性），那这能叫“好菜”吗？

2. 真正的创意：既要“新”，又要“对”

论文提出了一个更全面的创意定义，包含两个部分：

新颖性 (Novelty)：像上面说的，要有新意，让人眼前一亮。
恰当性 (Appropriateness)：这又分为两点：
- 讲得通 (Sensicality)：句子本身逻辑要通顺，不能是胡言乱语。
- 合语境 (Pragmaticality)：放在文章里要自然流畅，不能像突然在婚礼上有人大喊“快跑，着火了”（除非剧情需要，否则就是破坏气氛）。

比喻：真正的创意美食，不仅要食材独特（新颖），还要味道和谐、让人吃得开心（恰当）。如果只追求食材独特，做出来的可能是一碗“蓝色粉末汤”，虽然没人喝过，但根本没法吃。

3. 核心发现：AI 的“创意陷阱”

研究人员找来了 26 位专业作家（就像美食评论家），让他们像“显微镜”一样逐字逐句地阅读人类和 AI 写的小说片段，并打分。结果发现了两个惊人的现象：

现象一：91% 的“生僻”句子其实并不好。
那些被算法判定为“极其新颖”（在训练数据里从未出现过）的 AI 句子，有 91% 被人类专家认为是不创意的。
- 比喻：AI 为了追求“没吃过的新食材”，经常把“巧克力”和“辣椒”、“机油”和“草莓”强行拼在一起。虽然组合很新，但味道怪得让人想吐。
现象二：AI 越努力创新，越容易“翻车”。
研究发现，对于开源的 AI 模型来说，越追求生僻（高新颖度），句子就越不合逻辑、越不通顺。
- 比喻：这就好比一个新手厨师，为了展示自己懂行，拼命往菜里加各种没见过的奇怪调料，结果把整道菜做得无法入口。而人类作家在追求创意时，反而能保持味道和谐。

4. 人类 vs. 机器：谁更懂“创意”？

人类作家：更擅长写出既新颖又通顺的句子。
顶尖 AI（如 GPT-5, Claude 等）：虽然比以前的模型强，但相比人类，它们写出“真正创意句子”的概率还是低得多。它们更容易写出那种“看着很新，读着很怪”的句子。

5. 未来的希望：AI 也能当“评委”吗？

既然传统的“生僻度”指标不管用了，那能不能让 AI 自己来当评委，判断什么是好创意？

实验：研究人员训练了一些 AI 模型，让它们像人类专家一样去阅读文章，找出哪里写得有创意，哪里写得不通顺。
结果：
- 让 AI 找“有创意的句子”（正面），表现还不错，比瞎猜强很多。
- 让 AI 找“不通顺的句子”（负面），表现就很差。
- 比喻：AI 现在有点像“只会挑刺的挑剔食客”，它知道哪道菜是“新菜”，但很难分辨哪道菜是“难吃的怪菜”。不过，随着模型变强，它们正在慢慢学会像人类一样欣赏真正的创意。

总结

这篇论文告诉我们：不要盲目崇拜 AI 生成的“生僻词”或“新组合”。

真正的创意不是“为了不同而不同”，而是在讲得通、合逻辑的基础上，给人带来惊喜。目前的 AI 在追求“不同”时，往往牺牲了“讲得通”，所以我们在评估 AI 写作时，不能只看它是不是“没出现过”，更要看它是不是“写得对、写得妙”。

一句话概括：AI 写诗，别光看它用了多少生僻字，要看它是不是把“月亮”和“奶酪”拼成了一个让人想吃的月亮奶酪，而不是让人想吐的月亮奶酪。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的会议论文《DEATH OF THE NOVEL(TY): BEYOND n-GRAM NOVELTY AS A METRIC FOR TEXTUAL CREATIVITY》（新颖性的终结：超越 n-gram 新颖性作为文本创造力指标）。该论文深入探讨了当前大语言模型（LLM）评估中广泛使用的"n-gram 新颖性”指标的局限性，并提出了基于心理学定义的更全面的文本创造力评估框架。

以下是该论文的详细技术总结：

1. 研究问题 (Problem)

现有指标的缺陷：目前评估 LLM 文本创造力（Textual Creativity）的主流方法是基于n-gram 新颖性（即文本片段在预训练语料库中未出现的程度）。然而，心理学界对创造力的标准定义包含两个核心要素：新颖性（Novelty，原创性）和恰当性（Appropriateness，即合理性和实用性）。
核心矛盾：仅凭 n-gram 新颖性无法区分“有创意的表达”和“无意义的胡言乱语”。一个表达可能完全不在训练数据中（高新颖性），但在上下文中毫无逻辑（低恰当性）；反之，一个表达可能由常见词汇组成（低新颖性），但在特定语境下极具情感张力（高创造力）。
研究目标：量化 n-gram 新颖性与专家评估的创造力之间的关系，验证仅依赖新颖性指标是否会导致误判，并探索 LLM 作为评估者（LLM-as-a-Judge）的可行性。

2. 方法论 (Methodology)

2.1 数据构建与标注 (Data & Annotation)

定义操作化：将创造力定义为新颖性（Perceived Novelty）与恰当性（Appropriateness）的结合。其中，恰当性进一步细分为：
- 可理解性 (Sensicality)：表达本身在语义上是否通顺。
- 语用性 (Pragmaticality)：表达在上下文语境中是否自然、逻辑连贯。
数据收集：
- 来源：收集了 50 篇来自《纽约客》的虚构小说段落（人类文本），以及使用开源模型（OLMo 7B, OLMo-2 32B）和前沿闭源模型（GPT-5, Claude 4.1）生成的对应段落。
- 标注者：招募了 26 名专业作家（MFA 项目毕业生或出版作家）。
- 标注任务：采用**细读（Close Reading）**方法，将文本分割为“原子表达单元”。标注者需对预高亮的表达单元进行评分（可理解性、语用性、新颖性），并手动标记他们认为具有创造力的表达（需同时满足上述三个条件）。
- 规模：共收集了 8,618 个表达单元的标注，涵盖 2,783 个唯一表达。

2.2 新颖性度量 (Measuring Novelty)

使用 Infini-gram 工具包，基于万亿 token 级别的语料库计算 n-gram 概率。
使用 Perplexity (困惑度) 作为 n-gram 新颖性的代理指标（Perplexity 越高，新颖性越高）。

2.3 统计建模 (Statistical Modeling)

采用混合效应逻辑回归模型 (Mixed-effects Logistic Regression)。
因变量：表达是否被标记为“创造性”（同时满足可理解、语用、新颖）。
自变量：标准化后的困惑度（Perplexity）、生成来源（人类、OLMo、OLMo-2 等）。
随机效应：控制标注者个体差异和种子段落（话题）的差异。

2.4 LLM-as-a-Judge 评估

测试了多种模型（包括 GPT-5, Claude 4.5, Gemini 等）在零样本（Zero-shot）、少样本（Few-shot）和微调（Fine-tuned）设置下，识别“新颖表达”和“非语用表达”的能力。
在外部数据集（Style Mimic 和 Crowd Preferences）上验证 LLM 评分与人类偏好的一致性。

3. 主要发现与结果 (Key Results)

3.1 n-gram 新颖性不是可靠的创造力指标

高新颖性 $\neq$ 高创造力：研究发现，虽然高困惑度（高新颖性）与创造力呈正相关，但约 91% 的高新颖性表达（Top-quartile）被专家判定为不具创造力。
低新颖性 $\neq$ 无创造力：约 25% 的独特创造性表达具有较低的困惑度（即由常见词汇组成），说明 n-gram 新颖性会漏掉大量真正的创意。
结论：仅依赖 n-gram 新颖性会严重高估 AI 的创造力，因为它无法过滤掉无意义的胡言乱语。

3.2 新颖性与语用性的负相关 (Open-Source LLMs)

在开源模型（OLMo, OLMo-2）中，n-gram 新颖性与语用性（Pragmaticality）呈显著负相关。即模型试图生成更“新颖”的文本时，其表达在上下文中的逻辑性和自然度会下降。
相比之下，人类写作中未发现这种负相关。这表明 AI 在追求“新奇”时容易牺牲“合理”。

3.3 人类 vs. AI 的创造力差异

前沿闭源模型（GPT-5, Claude 4.1）和开源模型生成表达被判定为“创造性”的概率显著低于人类（Odds Ratio < 1）。
即使是最先进的模型，也更难产生真正符合“新颖 + 恰当”标准的创造性表达。

3.4 LLM-as-a-Judge 的表现

识别能力：推理模型（Reasoning Models）在识别“新颖表达”和“非语用表达”方面表现显著优于随机基线，但在识别“非语用表达”（写作缺陷）上仍面临挑战（F1 分数较低）。
偏好对齐：
- LLM 生成的新颖性评分与专家偏好高度一致（优于基于 n-gram 的 CREATIVITY INDEX 指标）。
- LLM 生成的语用性评分仅与大众（Crowd）偏好一致，与专家偏好不一致，这可能是因为 LLM 难以像专家那样精准识别复杂的语用错误。

4. 主要贡献 (Key Contributions)

理论批判：从心理学角度论证了单一 n-gram 新颖性指标在评估文本创造力时的不足，提出了“新颖性 + 恰当性”的双重评估框架。
大规模专家数据集：构建了包含 8,600+ 标注的专业作家细读数据集，涵盖了人类和多种 AI 生成的文本，提供了细粒度的可理解性、语用性和新颖性标签。
实证发现：揭示了开源 LLM 在生成高新颖性文本时，语用性显著下降的“权衡”现象，并量化了 AI 与人类在创造力产出上的差距。
评估工具验证：证明了基于 LLM-as-a-Judge 的新颖性评估比传统的 n-gram 统计指标更能反映专家的真实偏好，为自动化创造力评估提供了新方向。

5. 意义与启示 (Significance)

对评估标准的修正：呼吁社区停止单纯依赖 n-gram 新颖性（如 CREATIVITY INDEX）来衡量 AI 的创造力，转而采用包含语义合理性和语境适应性的多维指标。
对模型优化的指导：提示在训练或微调 LLM 时，如果仅优化新颖性（如通过降低重复率），可能会导致文本质量（语用性）的下降。未来的奖励模型（Reward Models）需要平衡新颖性与恰当性。
AI 写作工具的未来：在辅助写作场景中，应警惕 AI 生成的“伪创意”（高新颖但低语用），并开发能识别此类缺陷的评估工具。

总结：这篇论文通过严谨的实证研究，宣告了“唯新颖性论”在文本创造力评估中的终结，强调了语境恰当性对于真正创造力的不可或缺性，并为构建更智能、更符合人类审美的 AI 写作评估体系奠定了基础。