Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 CREATE 的新测试，旨在给大语言模型（LLM）进行一场“联想创造力”的考试。

为了让你轻松理解，我们可以把大语言模型想象成一个超级博学的图书管理员，而这篇论文就是设计了一套**“寻宝游戏”，来看看这位管理员能不能在浩瀚的知识海洋里，找到那些既准确又让人拍案叫绝的“隐藏线索”**。

以下是用通俗语言和比喻对这篇论文的解读：

1. 核心概念：什么是“联想创造力”？

想象一下，你手里有两张完全不相干的卡片：一张是**“达科塔·约翰逊”（一位好莱坞明星），另一张是“奇幻/科幻电影”**。

普通人的反应：可能会说“她演过《五十度灰》，那是现实题材，不是科幻。”（这就结束了，没创意）。
有创造力的反应：会像侦探一样思考：“等等！达科塔是安东尼奥·班德拉斯的继女，而班德拉斯演过《史瑞克》（奇幻电影）！或者，她和克里斯·埃文斯（美国队长）演过同一部电影，而美国队长是超级英雄（科幻）！”

CREATE 测试就是要求模型做这种“侦探”。它不考死记硬背（比如“达科塔演过哪部电影？”），而是考**“怎么把两个看似无关的东西，用有趣、独特且真实的方式连起来”**。

2. 游戏规则：不仅要“对”，还要“新”和“多”

在这个游戏中，模型需要生成多条连接路径。评分标准有两个关键点：

特异性（Specificity）：就像在人群中找朋友。如果两个人都是“美国人”，这个联系太宽泛了（像说“我和你是地球人”一样弱）。但如果联系是“她是某位著名导演的继女，而那位导演演过某部特定电影”，这种联系就很强、很独特。
多样性（Diversity）：模型不能只给一种答案。如果它给了 10 条路，结果全是“通过某部电影认识”，那就像是在同一个房间里转圈。好的模型应该能带你去不同的“房间”（比如通过家庭关系、通过共同奖项、通过慈善活动等）。

比喻：这就好比让厨师做一道菜。

普通模型：给你 10 种做法，全是“番茄炒蛋”，只是切法不同。
有创造力的模型：给你 10 种做法，有“番茄炒蛋”、“番茄意面”、“番茄汤”、“番茄酱拌饭”……而且每一种都做得很好吃（事实准确）。

3. 测试结果：现在的 AI 表现如何？

论文测试了目前最顶尖的 AI 模型（如 GPT-5, Gemini 等），发现了一些有趣的现象：

顶尖模型确实更强：最聪明的模型能找出更多、更独特的“隐藏线索”，得分最高。它们像是一个经验丰富的老侦探，能发现别人忽略的蛛丝马迹。
“想得多”不一定“做得好”：有些模型被设计成会“思考”更久（消耗更多算力/Token），但这并不保证它们能找到更有趣的答案。有时候，它们只是在原地打转，重复了同样的思路。
- 比喻：就像让一个学生做数学题，让他思考 1 小时并不一定比思考 10 分钟得出更巧妙的解法，他可能只是在反复检查同一个错误的步骤。
提示词（Prompt）的魔法有限：研究人员尝试了各种“魔法咒语”（比如告诉模型“请发挥创意！”），发现这只能带来一点点提升，并不能让模型突然变成天才。
事实与创意的平衡：有些模型为了追求“新奇”，编造了不存在的联系（幻觉）；而有些模型为了追求“准确”，只敢给最老套的答案。最好的模型能在“大胆联想”和“严守事实”之间找到完美的平衡点。

4. 为什么这很重要？

以前我们测试 AI，多是考它“能不能做对题”（比如数学、逻辑推理）。但真正的创造力往往发生在跨领域的连接中（比如把生物学和建筑学联系起来，产生新灵感）。

这篇论文就像是一个**“创造力沙盒”**：

它告诉我们，目前的 AI 虽然很博学，但在**“灵光一闪”**这种人类特有的能力上，还有很长的路要走。
它提供了一个标准，让我们能客观地衡量 AI 是否真的具备了辅助人类进行科学发现、艺术创作的能力，而不仅仅是像一个复读机。

总结

CREATE 就像给 AI 出了一道**“脑筋急转弯”，但不是那种有标准答案的题，而是看谁能把“达科塔·约翰逊”和“科幻电影”**之间最意想不到的桥梁搭得最结实、最漂亮。

目前的结论是：AI 已经很聪明了，能搭出不少桥，但离人类那种“灵光一现”的顶级创造力，还差那么一点点“灵魂”。 未来的研究需要教会 AI 如何像人类一样，在知识的海洋里进行更自由、更有趣的“冲浪”。

Each language version is independently generated for its own context, not a direct translation.

CREATE: 测试大语言模型的联想创造力

1. 研究背景与问题定义

核心问题：
创造力是科学发现、写作和创造性解决问题的核心能力，其中**联想推理（Associative Reasoning）**是关键组成部分，即在不同概念之间建立新颖且有意义的联系的能力。尽管近期研究致力于开发用于假设生成和科学发现的 AI 代理，但缺乏一个能够客观评估大语言模型（LLM）是否具备足够“创造力”的基准。现有的评估方法要么过于主观（如真实世界的复杂查询），要么过于抽象（如符号任务），无法反映模型在现实应用中的表现。

研究目标：
提出 CREATE（Testing LLMs for Associative Creativity），这是一个旨在评估 LLM 在现实世界实体间进行开放式联想能力的基准。该基准要求模型生成连接两个概念的多条路径，这些路径需具备高特异性（连接的独特性和紧密度）和高多样性（路径之间的差异性）。

2. 方法论

2.1 任务形式化

CREATE 将联想创造力建模为在知识图谱（Knowledge Graph）中寻找路径的问题。

输入：一个自然语言问题，询问两个现实世界实体（如“达科塔·约翰逊”和“出演过科幻/奇幻电影的人”）之间的连接方式。
输出：模型需生成一组连接路径 $U$ 。每条路径 $u$ 由一系列事实三元组 $(e_i, r_i, e_{i+1})$ 组成，形成从源实体到目标实体的链条。
约束：路径必须是结构上有效的（实体连续）且事实正确的。

2.2 评估指标

为了量化创造力，论文定义了两个核心维度，并组合成一个统一的**创意效用（Creative Utility）**指标：

质量（Quality, $f(u)$ ）：
- 基于特异性（Specificity）。特异性衡量一个关系在多大程度上是排他性的。例如，“继父”关系比“同国籍”关系更具特异性，因为前者涉及的实体集合更小。
- 路径的质量取决于其最弱三元组的特异性。公式为： $f(u) = I[\text{factuality}=1] \times \min(\sigma(\text{triples}))$ ，其中 $\sigma$ 是三元组的特异性得分。
- 事实性（Factuality）通过 LLM 作为裁判进行验证。
多样性（Diversity, $d(u_i, u_j)$ ）：
- 通过计算路径字符串表示之间的余弦距离来衡量。
- 使用一种变换函数 $g(x)$ 将距离映射到 $[0, 1]$ ，以区分轻微变体（距离<0.4）和实质性不同的路径（距离>0.7）。
创意效用（Creative Utility, $s(U)$ ）：
- 借鉴 NoveltyBench 的思路，定义为一个集合 $U$ 的效用总和。
- 公式： $s(U) = \max_{\tau} \sum_{i=1}^{|U|} \gamma^{i-1} f(u_{\tau(i)}) \min_{j<i} d(u_{\tau(i)}, u_{\tau(j)})$ 。
- 其中 $\gamma$ 是“耐心”参数（通常设为 0.7 或 0.9），控制对更多路径的容忍度。该指标鼓励模型生成既高质量又相互差异大的路径集合。
独特性（Distinctiveness, $\nu(u)$ ）：
- 衡量单个输出相对于所有模型生成的响应集合（Population）的偏离程度，即最小距离。

2.3 数据集构建

来源：基于 Wikidata 构建。
过程：
1. 选择特定的关系 - 类别对（如“演员 - 电影”）。
2. 从该类别中随机抽取两个实体。
3. 对其中一个实体扩展一个额外的信息边（One-hop relation），形成源路径。
4. 使用 LLM 将结构化三元组重写为自然语言查询（例如：“连接 Robbie Vinton 和一位画家的不同方式是什么？”）。
规模：包含 931 个自然语言查询，涵盖人物、基因、化学物质等，涉及电影、科学、政治等多个领域。

3. 实验设置

模型：评估了多种非思考型（Non-thinking）和思考型（Thinking）模型，包括 GPT-4.1, GPT-5, Claude-3/4.5, Gemini-3-pro, Qwen3, OLMo 等。
提示策略：
- Base Prompt：标准指令，要求生成多条路径。
- 变体：
  1. Be Creative：显式要求创造性。
  2. Verbalized Sampling：要求模型为每条路径分配概率分布以减少模式坍塌。
  3. Iterative：基于上一轮结果要求生成不同的答案。
  4. Resampling：独立多次采样。
推理预算：对思考型模型测试了不同的 Token 预算（如 16k, 32k）。

4. 主要结果

4.1 模型性能对比

前沿模型表现优异：GPT-5（中等推理预算）和 Gemini-3-pro 在创意效用得分上显著优于开源模型和其他闭源模型。
质量与多样性的权衡：
- Gemini-3-pro：在事实性过滤较宽松时得分最高，表现出极高的多样性，但事实性略低。
- GPT-5：在严格的事实性过滤下表现最好，能够平衡质量、多样性和事实准确性。
思考型模型并非万能：增加推理 Token 预算（如从 16k 到 32k）并不总是带来更高的分数。思考模型在搜索空间中的效率并未显著提升，有时甚至因为重复探索而浪费资源。

4.2 提示工程的影响

迭代（Iterative）和重采样（Resampling）：这两种方法最有效，能显著提升创意效用，因为它们直接增加了生成的路径数量。
“创造性”提示：显式要求“要创造性”对模型输出的分布影响很小，未能显著改变路径类型。
语言化采样（Verbalized Sampling）：由于增加了输出复杂性，导致生成的有效路径数量大幅减少。

4.3 事实性与效用的权衡

研究发现存在明显的事实性 - 效用权衡（Trade-off）。当放宽事实性要求时，Gemini-3-pro 的效用最高；但当要求路径完全事实正确时，GPT-5 的表现优于其他模型，而开源模型的表现则大幅下降。

4.4 独特性分析

尽管前沿模型能生成高质量路径，但在生成高度独特（即与其他模型或人类常见答案截然不同）的路径方面仍有局限。大多数模型倾向于生成符合常见模式的答案。
“迭代”提示策略在提升独特性方面效果最好，表明让模型明确知道之前的答案并尝试不同方向是有效的。

5. 关键贡献

首个针对联想创造力的客观基准：CREATE 填补了现有基准的空白，既利用了真实世界的知识（非合成任务），又通过知识图谱结构实现了客观评分。
统一的评估框架：提出了结合质量（特异性）和多样性（距离）的创意效用指标，能够量化模型在开放-ended 任务中的综合表现。
对“思考”机制的深入洞察：揭示了增加推理预算并不等同于提升创造力，当前的 AI 系统在概念空间搜索上仍存在效率瓶颈，且简单的提示工程（如“请发挥创意”）效果有限。
事实性与创造性的张力：展示了在追求创造性连接时，模型往往会在事实准确性上做出妥协，指出了未来改进的方向。

6. 意义与影响

推动 AI 辅助创造：该基准为开发能够辅助人类进行科学假设生成、头脑风暴和创意写作的 AI 工具提供了评估标准。
负责任的研究：通过抽象任务隔离具体下游应用，避免了直接宣称 AI 能替代人类创作者的过度炒作，同时强调了 AI 应作为人类创造力的补充工具。
未来方向：指出了当前模型在搜索概念空间时的局限性，呼吁开发更有效的搜索策略和推理机制，以真正实现机器辅助的创造性思维。

总结：CREATE 基准表明，虽然当前最先进的大语言模型在生成多样化且高质量的联想路径方面取得了显著进展，但在生成真正独特、非典型且完全事实正确的连接方面仍面临挑战。这为未来的模型架构设计和推理策略优化提供了明确的方向。

CREATE: Testing LLMs for Associative Creativity