CREATE: Testing LLMs for Associative Creativity

この論文は、概念間の新颖かつ意味のあるつながりを生み出す「連想推論」能力を評価するためのベンチマーク「CREATE」を提案し、最先端モデルの創造的有用性を測定するとともに、思考モデルや創造的プロンプトの限界を示すことで、モデルの創造性向上に向けた新たな手法開発の基盤を提供しています。

Manya Wadhwa, Tiasa Singha Roy, Harvey Lederman, Junyi Jessy Li, Greg Durrett

公開日 Wed, 11 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

論文「CREATE」の解説:AI に「ひらめき」をテストする新しいゲーム

この論文は、**「AI(人工知能)が本当に『創造的』なのか?」**という問いに答えるための新しいテスト方法「CREATE」を紹介しています。

これまでの AI のテストは、「足し算ができるか」「文章を要約できるか」といった**「正解がある問題」が中心でした。しかし、本当の創造性(クリエイティビティ)とは、「正解のない世界で、意外なつながりを見つける力」**です。

この論文では、その力を測るために、AI に**「知識の迷路」**を解かせるという面白いゲームを考案しました。


🎮 ゲームのルール:「知識の迷路」を解け

Imagine(想像してみてください):
あなたは**「ダコタ・ジョンソン」という女優と、「ファンタジー映画に出演した人」というグループを、「どんな経路でつなげられるか」**考えるゲームをしています。

  • 普通の答え(退屈な道):
    「ダコタ・ジョンソンは『キャプテン・アメリカ』のクリス・エヴァンスと共演した。クリス・エヴァンスは『キャプテン・アメリカ』に出演した。」
    → これは正しいけど、誰でも思いつく「ありきたりな道」です。

  • 創造的な答え(ひらめきの道):
    「ダコタ・ジョンソンはアントニオ・バンデラスの義理の娘。アントニオ・バンデラスは『シュレック』に出演した。シュレックはファンタジー映画だ!」
    → これは少し意外で、「義理の娘」という関係と**「シュレック」という作品を結びつけた、「ひらめきのある道」**です。

CREATE テストの目的は、AI にこの「ありきたりな道」だけでなく、**「意外で面白い道」**をたくさん見つけてもらうことです。


📏 評価の物差し:2 つの基準

AI が作った答えは、2 つの基準で評価されます。

  1. 質(Quality):道が「しっかりしているか」

    • 嘘をついていないか?(事実か?)
    • 関係が「具体的」か?(「同じ国に住んでいる」のような曖昧なつながりではなく、「義理の娘」や「共演者」のようなハッキリしたつながりか?)
    • 例:「同じアメリカ人」は弱い道、「義理の娘」は強い道。
  2. 多様性(Diversity):道が「バラエティに富んでいるか」

    • 似たような答えを 10 個出すのではなく、全く違う角度からの答えを 10 個出せるか?
    • 例:すべて「映画の共演」でつなげるのではなく、「家族関係」「趣味」「出身地」など、様々な角度からつなげられるか?

この 2 つを合わせて**「創造的有用性(Creative Utility)」**というスコアで測ります。


🔍 実験の結果:AI は「天才」になれるか?

最新の AI(GPT-5 や Gemini など)にこのテストをやらせたらどうなったでしょうか?

✅ できたこと

  • トップクラスの AI は、人間が思いつくような「意外なつながり」を見つけられる。
    • 例:「ダコタ・ジョンソン」と「ファンタジー映画」を、単なる共演者だけでなく、**「義理の父親の出演作品」を通じてつなげるなど、「トリビア(雑学)」**レベルの知識を使えるようになりました。

❌ できなかったこと(課題)

  1. 「思考時間」を長くしても、ひらめきは増えない

    • 「もっと考えて!」と AI に時間をかけさせても、「ひらめき」の質は上がらないことがわかりました。AI は「考えるふり」をして、同じような答えを繰り返してしまう傾向があります。
    • メタファー: 料理人が包丁を振り回す回数を増やしても、新しいレシピが生まれるとは限りません。
  2. 「正しさ」と「ひらめき」のトレードオフ

    • 面白い答えを出そうとすると、**「嘘(ハルシネーション)」**を混じえてしまう AI がいました。
    • 逆に、「正しすぎる」AIは、安全な(退屈な)答えしか出せませんでした。
    • メタファー: 冒険家(ひらめき重視)は道に迷いやすく、慎重な学者(正しさ重視)は新しい土地に踏み出せない、というジレンマです。
  3. 「ひらめき」の限界

    • どの AI も、**「人間が思いつくような、本当にユニークな答え」にはまだ届いていません。AI は「既存の知識の組み合わせ」は得意ですが、「全く新しい発想」**はまだ苦手です。

💡 この研究が教えてくれること

この「CREATE」テストは、AI を**「単なる検索エンジン」から「創造的なパートナー」へ進化させるための道しるべ**になります。

  • 今の AI は「知識の引き出し」は開けられるが、「新しい絵を描く」のは苦手。
  • AI に「もっと考えて」と言っても、ひらめきは生まれません。 instead(代わりに)、**「違う角度から考えて」と指示したり、「人間と協力する」**仕組みが必要かもしれません。

結論

この論文は、「AI に創造性をテストする新しいゲーム」を作りました。
今の AI は、
「知識の迷路」を解くのは上手になりましたが、まだ「迷路そのものを変える」ような天才的なひらめきには至っていません。

しかし、このテストがあれば、AI がどうすればもっと「クリエイティブ」になれるかを、具体的に改善していくことができます。


一言で言うと:

「AI に『雑学クイズ』で意外な答えを出させて、その『ひらめき力』を測る新しいテストを作ったよ!今の AI は結構できるけど、まだ人間のような『天才的なひらめき』には届いてないね。」