Death of the Novel(ty): Beyond n-Gram Novelty as a Metric for Textual Creativity

该论文通过大规模专家标注研究指出,单纯依赖 n-gram 新颖性作为文本创造力指标存在严重缺陷,因为它忽略了“恰当性”这一关键维度,且高 n-gram 新颖性往往与低实用性相关,因此建议采用结合人类专家判断或更先进的大模型评估方法来更准确地衡量文本创造力。

Arkadiy Saakyan, Najoung Kim, Smaranda Muresan, Tuhin Chakrabarty

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给现在的 AI 写作能力做了一次“深度体检”,结果发现了一个令人惊讶的真相:AI 写出的东西,越“生僻”,往往越“离谱”。

为了让你轻松理解,我们可以把这篇论文的核心内容想象成一场关于**“烹饪”**的比喻。

1. 以前的误区:只要食材没吃过,就是好菜?

过去,人们评价 AI 写得有没有“创意”,主要看一个指标叫 "N-gram 新颖度”

  • 比喻:这就好比厨师做菜,如果一道菜里用的某种香料,在以前的几万亿本食谱里从来没出现过,大家就认为这道菜“很有创意”。
  • 问题:论文作者(一群来自哥伦比亚大学等顶尖机构的专家)发现,这个标准太片面了。就像你往汤里加了一种从未见过的“蓝色粉末”,虽然它很新奇(Novelty),但如果这粉末有毒或者让汤变得难以下咽(缺乏 Appropriateness/实用性),那这能叫“好菜”吗?

2. 真正的创意:既要“新”,又要“对”

论文提出了一个更全面的创意定义,包含两个部分:

  1. 新颖性 (Novelty):像上面说的,要有新意,让人眼前一亮。
  2. 恰当性 (Appropriateness):这又分为两点:
    • 讲得通 (Sensicality):句子本身逻辑要通顺,不能是胡言乱语。
    • 合语境 (Pragmaticality):放在文章里要自然流畅,不能像突然在婚礼上有人大喊“快跑,着火了”(除非剧情需要,否则就是破坏气氛)。

比喻:真正的创意美食,不仅要食材独特(新颖),还要味道和谐、让人吃得开心(恰当)。如果只追求食材独特,做出来的可能是一碗“蓝色粉末汤”,虽然没人喝过,但根本没法吃。

3. 核心发现:AI 的“创意陷阱”

研究人员找来了 26 位专业作家(就像美食评论家),让他们像“显微镜”一样逐字逐句地阅读人类和 AI 写的小说片段,并打分。结果发现了两个惊人的现象:

  • 现象一:91% 的“生僻”句子其实并不好。
    那些被算法判定为“极其新颖”(在训练数据里从未出现过)的 AI 句子,有 91% 被人类专家认为是不创意的。

    • 比喻:AI 为了追求“没吃过的新食材”,经常把“巧克力”和“辣椒”、“机油”和“草莓”强行拼在一起。虽然组合很新,但味道怪得让人想吐。
  • 现象二:AI 越努力创新,越容易“翻车”。
    研究发现,对于开源的 AI 模型来说,越追求生僻(高新颖度),句子就越不合逻辑、越不通顺。

    • 比喻:这就好比一个新手厨师,为了展示自己懂行,拼命往菜里加各种没见过的奇怪调料,结果把整道菜做得无法入口。而人类作家在追求创意时,反而能保持味道和谐。

4. 人类 vs. 机器:谁更懂“创意”?

  • 人类作家:更擅长写出既新颖又通顺的句子。
  • 顶尖 AI(如 GPT-5, Claude 等):虽然比以前的模型强,但相比人类,它们写出“真正创意句子”的概率还是低得多。它们更容易写出那种“看着很新,读着很怪”的句子。

5. 未来的希望:AI 也能当“评委”吗?

既然传统的“生僻度”指标不管用了,那能不能让 AI 自己来当评委,判断什么是好创意?

  • 实验:研究人员训练了一些 AI 模型,让它们像人类专家一样去阅读文章,找出哪里写得有创意,哪里写得不通顺。
  • 结果
    • 让 AI 找“有创意的句子”(正面),表现还不错,比瞎猜强很多。
    • 让 AI 找“不通顺的句子”(负面),表现就很差。
    • 比喻:AI 现在有点像“只会挑刺的挑剔食客”,它知道哪道菜是“新菜”,但很难分辨哪道菜是“难吃的怪菜”。不过,随着模型变强,它们正在慢慢学会像人类一样欣赏真正的创意。

总结

这篇论文告诉我们:不要盲目崇拜 AI 生成的“生僻词”或“新组合”。

真正的创意不是“为了不同而不同”,而是在讲得通、合逻辑的基础上,给人带来惊喜。目前的 AI 在追求“不同”时,往往牺牲了“讲得通”,所以我们在评估 AI 写作时,不能只看它是不是“没出现过”,更要看它是不是“写得对、写得妙”。

一句话概括:AI 写诗,别光看它用了多少生僻字,要看它是不是把“月亮”和“奶酪”拼成了一个让人想吃的月亮奶酪,而不是让人想吐的月亮奶酪。