CREATE: Testing LLMs for Associative Creativity

本文介绍了名为 CREATE 的新基准,旨在通过评估模型在概念间生成高特异性与高多样性关联路径的能力,来量化其联想创造力,并发现尽管前沿模型表现更优,但现有思维模型和提示方法在该任务上的提升仍有限。

Manya Wadhwa, Tiasa Singha Roy, Harvey Lederman, Junyi Jessy Li, Greg Durrett

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 CREATE 的新测试,旨在给大语言模型(LLM)进行一场“联想创造力”的考试。

为了让你轻松理解,我们可以把大语言模型想象成一个超级博学的图书管理员,而这篇论文就是设计了一套**“寻宝游戏”,来看看这位管理员能不能在浩瀚的知识海洋里,找到那些既准确又让人拍案叫绝的“隐藏线索”**。

以下是用通俗语言和比喻对这篇论文的解读:

1. 核心概念:什么是“联想创造力”?

想象一下,你手里有两张完全不相干的卡片:一张是**“达科塔·约翰逊”(一位好莱坞明星),另一张是“奇幻/科幻电影”**。

  • 普通人的反应:可能会说“她演过《五十度灰》,那是现实题材,不是科幻。”(这就结束了,没创意)。
  • 有创造力的反应:会像侦探一样思考:“等等!达科塔是安东尼奥·班德拉斯的继女,而班德拉斯演过《史瑞克》(奇幻电影)!或者,她和克里斯·埃文斯(美国队长)演过同一部电影,而美国队长是超级英雄(科幻)!”

CREATE 测试就是要求模型做这种“侦探”。它不考死记硬背(比如“达科塔演过哪部电影?”),而是考**“怎么把两个看似无关的东西,用有趣、独特且真实的方式连起来”**。

2. 游戏规则:不仅要“对”,还要“新”和“多”

在这个游戏中,模型需要生成多条连接路径。评分标准有两个关键点:

  • 特异性(Specificity):就像在人群中找朋友。如果两个人都是“美国人”,这个联系太宽泛了(像说“我和你是地球人”一样弱)。但如果联系是“她是某位著名导演的继女,而那位导演演过某部特定电影”,这种联系就很、很独特
  • 多样性(Diversity):模型不能只给一种答案。如果它给了 10 条路,结果全是“通过某部电影认识”,那就像是在同一个房间里转圈。好的模型应该能带你去不同的“房间”(比如通过家庭关系、通过共同奖项、通过慈善活动等)。

比喻:这就好比让厨师做一道菜。

  • 普通模型:给你 10 种做法,全是“番茄炒蛋”,只是切法不同。
  • 有创造力的模型:给你 10 种做法,有“番茄炒蛋”、“番茄意面”、“番茄汤”、“番茄酱拌饭”……而且每一种都做得很好吃(事实准确)。

3. 测试结果:现在的 AI 表现如何?

论文测试了目前最顶尖的 AI 模型(如 GPT-5, Gemini 等),发现了一些有趣的现象:

  • 顶尖模型确实更强:最聪明的模型能找出更多、更独特的“隐藏线索”,得分最高。它们像是一个经验丰富的老侦探,能发现别人忽略的蛛丝马迹。
  • “想得多”不一定“做得好”:有些模型被设计成会“思考”更久(消耗更多算力/Token),但这并不保证它们能找到更有趣的答案。有时候,它们只是在原地打转,重复了同样的思路。
    • 比喻:就像让一个学生做数学题,让他思考 1 小时并不一定比思考 10 分钟得出更巧妙的解法,他可能只是在反复检查同一个错误的步骤。
  • 提示词(Prompt)的魔法有限:研究人员尝试了各种“魔法咒语”(比如告诉模型“请发挥创意!”),发现这只能带来一点点提升,并不能让模型突然变成天才。
  • 事实与创意的平衡:有些模型为了追求“新奇”,编造了不存在的联系(幻觉);而有些模型为了追求“准确”,只敢给最老套的答案。最好的模型能在“大胆联想”和“严守事实”之间找到完美的平衡点。

4. 为什么这很重要?

以前我们测试 AI,多是考它“能不能做对题”(比如数学、逻辑推理)。但真正的创造力往往发生在跨领域的连接中(比如把生物学和建筑学联系起来,产生新灵感)。

这篇论文就像是一个**“创造力沙盒”**:

  • 它告诉我们,目前的 AI 虽然很博学,但在**“灵光一闪”**这种人类特有的能力上,还有很长的路要走。
  • 它提供了一个标准,让我们能客观地衡量 AI 是否真的具备了辅助人类进行科学发现、艺术创作的能力,而不仅仅是像一个复读机。

总结

CREATE 就像给 AI 出了一道**“脑筋急转弯”,但不是那种有标准答案的题,而是看谁能把“达科塔·约翰逊”“科幻电影”**之间最意想不到的桥梁搭得最结实、最漂亮。

目前的结论是:AI 已经很聪明了,能搭出不少桥,但离人类那种“灵光一现”的顶级创造力,还差那么一点点“灵魂”。 未来的研究需要教会 AI 如何像人类一样,在知识的海洋里进行更自由、更有趣的“冲浪”。