Each language version is independently generated for its own context, not a direct translation.

論文「CREATE」の解説：AI に「ひらめき」をテストする新しいゲーム

この論文は、**「AI（人工知能）が本当に『創造的』なのか？」**という問いに答えるための新しいテスト方法「CREATE」を紹介しています。

これまでの AI のテストは、「足し算ができるか」「文章を要約できるか」といった**「正解がある問題」が中心でした。しかし、本当の創造性（クリエイティビティ）とは、「正解のない世界で、意外なつながりを見つける力」**です。

この論文では、その力を測るために、AI に**「知識の迷路」**を解かせるという面白いゲームを考案しました。

🎮 ゲームのルール：「知識の迷路」を解け

Imagine（想像してみてください）：
あなたは**「ダコタ・ジョンソン」という女優と、「ファンタジー映画に出演した人」というグループを、「どんな経路でつなげられるか」**考えるゲームをしています。

普通の答え（退屈な道）：
「ダコタ・ジョンソンは『キャプテン・アメリカ』のクリス・エヴァンスと共演した。クリス・エヴァンスは『キャプテン・アメリカ』に出演した。」
→ これは正しいけど、誰でも思いつく「ありきたりな道」です。
創造的な答え（ひらめきの道）：
「ダコタ・ジョンソンはアントニオ・バンデラスの義理の娘。アントニオ・バンデラスは『シュレック』に出演した。シュレックはファンタジー映画だ！」
→ これは少し意外で、「義理の娘」という関係と**「シュレック」という作品を結びつけた、「ひらめきのある道」**です。

CREATE テストの目的は、AI にこの「ありきたりな道」だけでなく、**「意外で面白い道」**をたくさん見つけてもらうことです。

📏 評価の物差し：2 つの基準

AI が作った答えは、2 つの基準で評価されます。

質（Quality）：道が「しっかりしているか」
- 嘘をついていないか？（事実か？）
- 関係が「具体的」か？（「同じ国に住んでいる」のような曖昧なつながりではなく、「義理の娘」や「共演者」のようなハッキリしたつながりか？）
- 例：「同じアメリカ人」は弱い道、「義理の娘」は強い道。
多様性（Diversity）：道が「バラエティに富んでいるか」
- 似たような答えを 10 個出すのではなく、全く違う角度からの答えを 10 個出せるか？
- 例：すべて「映画の共演」でつなげるのではなく、「家族関係」「趣味」「出身地」など、様々な角度からつなげられるか？

この 2 つを合わせて**「創造的有用性（Creative Utility）」**というスコアで測ります。

🔍 実験の結果：AI は「天才」になれるか？

最新の AI（GPT-5 や Gemini など）にこのテストをやらせたらどうなったでしょうか？

✅ できたこと

トップクラスの AI は、人間が思いつくような「意外なつながり」を見つけられる。
- 例：「ダコタ・ジョンソン」と「ファンタジー映画」を、単なる共演者だけでなく、**「義理の父親の出演作品」を通じてつなげるなど、「トリビア（雑学）」**レベルの知識を使えるようになりました。

❌ できなかったこと（課題）

「思考時間」を長くしても、ひらめきは増えない
- 「もっと考えて！」と AI に時間をかけさせても、「ひらめき」の質は上がらないことがわかりました。AI は「考えるふり」をして、同じような答えを繰り返してしまう傾向があります。
- メタファー： 料理人が包丁を振り回す回数を増やしても、新しいレシピが生まれるとは限りません。
「正しさ」と「ひらめき」のトレードオフ
- 面白い答えを出そうとすると、**「嘘（ハルシネーション）」**を混じえてしまう AI がいました。
- 逆に、「正しすぎる」AIは、安全な（退屈な）答えしか出せませんでした。
- メタファー： 冒険家（ひらめき重視）は道に迷いやすく、慎重な学者（正しさ重視）は新しい土地に踏み出せない、というジレンマです。
「ひらめき」の限界
- どの AI も、**「人間が思いつくような、本当にユニークな答え」にはまだ届いていません。AI は「既存の知識の組み合わせ」は得意ですが、「全く新しい発想」**はまだ苦手です。

💡 この研究が教えてくれること

この「CREATE」テストは、AI を**「単なる検索エンジン」から「創造的なパートナー」へ進化させるための道しるべ**になります。

今の AI は「知識の引き出し」は開けられるが、「新しい絵を描く」のは苦手。
AI に「もっと考えて」と言っても、ひらめきは生まれません。 instead（代わりに）、**「違う角度から考えて」と指示したり、「人間と協力する」**仕組みが必要かもしれません。

結論

この論文は、「AI に創造性をテストする新しいゲーム」を作りました。
今の AI は、「知識の迷路」を解くのは上手になりましたが、まだ「迷路そのものを変える」ような天才的なひらめきには至っていません。
しかし、このテストがあれば、AI がどうすればもっと「クリエイティブ」になれるかを、具体的に改善していくことができます。

一言で言うと：

「AI に『雑学クイズ』で意外な答えを出させて、その『ひらめき力』を測る新しいテストを作ったよ！今の AI は結構できるけど、まだ人間のような『天才的なひらめき』には届いてないね。」

Each language version is independently generated for its own context, not a direct translation.

CREATE: 大規模言語モデル（LLM）の連想創造性をテストする論文の技術的サマリー

本論文は、大規模言語モデル（LLM）の「連想創造性（Associative Creativity）」を評価するための新しいベンチマークCREATEを提案するものです。創造性の核心である「既知の概念間の新奇かつ意味のあるつながりを見つける能力」を、客観的な評価基準を用いて定量的に測定することを目指しています。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細をまとめます。

1. 問題定義と背景

創造性の評価難しさ: 従来の創造性評価タスク（例：代替用途タスク、遠隔連想テスト）は人間には負荷が高いですが、LLM にとっては比較的容易であり、また事前学習で既知のデータが含まれている可能性があります。一方、科学仮説の生成や研究アイデア出しなどの実世界タスクは評価が主観的でスケーラブルではありません。
既存ベンチマークの限界: 記号的な抽象タスクは現実の複雑さを反映せず、既存の知識ベースのベンチマーク（HotpotQA など）は「正解」が一つに定まっているため、創造的な多様性を評価できません。
CREATE の目的: 現実世界のエンティティ（人物、遺伝子、化学物質など）に基づき、知識グラフ上のパス（経路）を生成するタスクを通じて、**「高品質（Specificity）」かつ「多様（Diversity）」**な連想をモデルが生成できるかを評価する枠組みの構築。

2. 手法とフレームワーク

2.1 タスク定義

モデルは、2 つのエンティティ（例：ダコタ・ジョンソンとファンタジー映画の俳優）を結ぶ、複数の異なるパス（経路）を生成するよう求められます。

パスの構造: 知識グラフ上のトリプル（主体、関係、客体）の連鎖 $u = [(e_1, r_1, e_2), \dots]$ として表現されます。
制約: パスは構造的に有効であり、事実的（Factual）である必要があります。

2.2 評価指標

創造性を定量化するために、以下の 3 つの指標を組み合わせた**「創造的有用性（Creative Utility）」**を定義しています。

品質（Quality, $f(u)$ ）:
- 関係の**特異性（Specificity）**に基づきます。関係が一般的（例：「同じ国の市民」）か、排他的・具体的（例：「義理の父」）かを評価します。
- 各トリプルについて、その関係が成立するエンティティの集合サイズを推定し、集合が小さいほど（特異性が高いほど）スコアが高くなります。
- パス全体の品質は、そのパスに含まれる最も弱い（特異性が低い）トリプルで決まります。
多様性（Diversity, $d(u_i, u_j)$ ）:
- 生成されたパス同士の距離を測定します。パスの文字列表現の埋め込みベクトル間のコサイン距離を使用し、変換関数を通じて「実質的に異なる関係」かどうかを判断します。
創造的有用性スコア（ $s(U)$ ）:
- 品質と多様性を統合したスコアです。
- 式 (1) に示すように、パスを順序付けし、既に選択されたパスとの距離（多様性）と品質を考慮して、追加的なパスがもたらす限界効用を計算します。
- パラメータ $\gamma$ （忍耐度）により、ユーザーがより多くのアイデアを期待するか、高品質な少数を期待するかを調整可能です。
独自性（Distinctiveness, $\nu(u)$ ）:
- 生成されたパスが、既存のモデルや人間の一般的な出力パターンからどの程度離れているかを測る指標です。

2.3 データセット構築（CREATE Benchmark）

データソース: Wikidata を使用。
生成プロセス:
1. 特定の関係とカテゴリのペア（例：「キャストメンバー」「Goodfellas」）からエンティティの集合を抽出。
2. 集合内のエンティティ対をランダムに選択し、一方のエンティティからさらに 1 hops 先の関係（例：職業）を拡張。
3. 得られた構造を自然言語のクエリに変換（例：「ロビー・ヴィントンと画家を結ぶ方法は？」）。
規模: 12 の異なる関係カテゴリ、931 の自然言語クエリ、931 以上の検証済み接続。

3. 主要な貢献

CREATE ベンチマークの提案: 現実世界の知識に基づき、客観的な評価（事実性チェックと特異性スコアリング）が可能で、かつ創造的な多様性を要求する初のベンチマーク。
評価指標の定式化: 品質（特異性）と多様性を統合し、ユーザーの「忍耐（Patience）」パラメータを考慮した創造的有用性スコアの導入。
LLM の創造性に関する実証分析: 最先端モデルの性能、思考プロセス（Thinking Models）の効果、プロンプト戦略の影響を包括的に分析。

4. 実験結果と知見

4.1 モデル性能

最先端モデルの優位性: GPT-5、Gemini-3-pro などの最先端モデルは、オープンソースモデルや以前のモデルに比べて、高い創造的有用性スコアを達成しました。
思考モデル（Thinking Models）の限界: 推論トークン数（思考予算）を増やしても、必ずしもスコアが向上するわけではありません。特に、高品質で独自性の高いパスを見つける能力において、単に思考時間を増やすだけでは限界があることが示されました。

4.2 プロンプト戦略の影響

反復生成とリサンプリング: 「以前と異なる答えを生成せよ」と指示する反復（Iterative）や、温度パラメータを変えて複数回生成するリサンプリング（Resampling）が、創造的有用性を高める最も効果的な手法でした。
「創造的であること」の指示: 単に「創造的に」と指示するだけでは、モデルの出力分布に大きな変化をもたらさず、効果は限定的でした。

4.3 事実性と創造性のトレードオフ

事実性のフィルタリング: 事実性が厳しく評価される条件（すべてのトリプルが真であること）では、Gemini-3-pro は多様性が高くてもスコアが低下し、GPT-5 が事実性と創造性のバランスで優位に立ちました。
誤った推論: 多くのモデルは、事実性を犠牲にして多様なパスを生成しようとする傾向があり、事実性のフィルタリングを厳しくすると性能が急激に低下することが確認されました。

4.4 思考トレースの分析

思考モデルの推論トレースを分析したところ、ドメイン知識の活用やバックチェーン（逆方向の推論）などの戦略が見られました。しかし、同じエンティティやパスの繰り返しが多く、トークン効率の面で最適化されていないケースも確認されました。

5. 意義と結論

研究の進展: CREATE は、LLM が単なる知識の検索だけでなく、既存の概念を再構成して新しい洞察を生み出す「連想的創造性」を評価するための標準的なサンドボックスを提供します。
実用性: 科学仮説の生成や研究アイデア出しなど、人間の創造性を補完する AI アージェントの開発に向けた指針となります。
今後の課題: 現在のモデルは「高品質かつ多様な」解を生成する能力においてまだ限界があり、特に思考プロセスの効率化や、事実性を保ちながら創造性を高める手法の開発が求められています。

本論文は、LLM の創造性を「主観的な評価」から「構造化された知識グラフ上の評価」へと移行させる重要な一歩であり、AI による創造的タスクの自動化における課題と可能性を浮き彫りにしました。

CREATE: Testing LLMs for Associative Creativity