CreativeBench: Benchmarking and Enhancing Machine Creativity via Self-Evolving Challenges

本論文は、機械の創造性をコード生成タスクにおいて定量的に評価するためのベンチマーク「CreativeBench」を提案し、モデルのスケーリングがもたらす創造性の特性を分析するとともに、進化探索パターンを内包する推論時制御手法「EvoRePE」を開発して機械の創造性を向上させることを示しています。

Zi-Han Wang, Lam Nguyen, Zhengyang Zhao, Mengyue Yang, Chengwei Qin, Yujiu Yang, Linyi Yang

公開日 2026-03-13
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

創造的な AI を測る新しい「ものさし」:CreativeBench の解説

こんにちは!今日は、AI(人工知能)が「創造的」かどうかを測るための新しい実験台(ベンチマーク)について、わかりやすくお話しします。

この研究は、**「CreativeBench(クリエイティブベンチ)」**という名前です。

🎨 なぜ今、AI の「創造性」が必要なの?

これまでの AI は、インターネット上の膨大なデータ(本や記事、コードなど)を「丸暗記」して、それらを組み合わせて答えを出すのが得意でした。でも、データには限界があります。「もう新しいデータがない!」という壁にぶつかりつつあるのです。

そこで、AI に**「自分で新しいものを作り出す力」**を身につけさせようという動きが出てきました。まるで、料理人がレシピを覚えるだけでなく、自分で新しい料理を生み出すようになるようなものです。

しかし、ここで大きな問題が起きました。
「AI が作ったものが、本当に『創造的』なのか、それともただの『勘違い(ハルシネーション)』なのか、どうやって見分ければいいの?」

これまでは「正解かどうか」だけで評価されていましたが、創造性を測る「ものさし」がなかったのです。

🧪 CreativeBench とは?(2 つのテスト)

この論文では、AI の創造性を測るために、**「CreativeBench」**という新しいテストセットを作りました。これは、人間の創造性を心理学の理論に基づいて、2 つのタイプに分けてテストするものです。

1. 「組み合わせ」の創造性(Combo)

🎻 例:ジャズと料理を混ぜる
これは、**「知っていることを、新しい方法で組み合わせて、新しいものを作る」**能力です。

  • イメージ: 「地図の描き方」と「音楽の理論」を混ぜて、「音で道案内をするアプリ」を作るようなものです。
  • テスト方法: AI に、異なる分野のコードを混ぜて、新しい問題を解くように指示します。

2. 「探索」の創造性(Explore)

🧗 例:壁を越える新しいルート
これは、**「制限された中で、誰もやったことのない方法で問題を解決する」**能力です。

  • イメージ: 「階段は禁止」「エレベーターは禁止」というルールがあるビルで、どうやって 10 階に上がるか考えるようなものです。
  • テスト方法: AI に「このコードは使っちゃダメ」「この関数は禁止」という厳しいルール(制約)を次々と追加し、それでも正解を見つけられるか試します。

📏 3 つの重要なルール

このテストでは、AI が「ただの勘違い」ではなく「本当に創造的」かどうかを、以下の 3 つのルールで厳しくチェックします。

  1. 実行可能であること(正解)
    • 作ったコードが実際に動かないと、ただの「空想」です。サンドボックス(安全な実験室)で実際に動かして、正解か確認します。
  2. 新奇性(新しいこと)
    • 普通の答えとあまりに似ていてはダメです。「AI が普段使わないような、珍しい方法」で解けているか測ります。
  3. 創造性スコア
    • 最終的な点数は**「正解度 × 新奇性」**で計算します。
    • 正解だけど普通 → スコア低
    • 新奇だけど間違ってる → スコア低
    • 正解で、かつ新しい → スコア高!

🔍 発見された驚きの事実

このテストで最新の AI を試したところ、面白いことがわかりました。

  • 「大きくすればするほど、真面目になる」
    • AI のサイズを大きくすると、正解率は上がりますが、**「型にはまった正解」ばかり出すようになります。つまり、「正解はするけど、面白くなくなる(独創性がなくなる)」**という現象が起きました。
  • 「考える力(推論)は、制限された時に役立つ」
    • AI に「よく考えて」と指示すると、制限された問題(Explore)は解けるようになりますが、組み合わせ問題(Combo)にはあまり役立ちませんでした。

🚀 解決策:EvoRePE(エボ・レペ)

では、どうすれば AI をもっと創造的にできるのでしょうか?
著者たちは、**「EvoRePE」**という新しいテクニックを提案しました。

  • どんなもの?
    • AI が「進化」する過程で、どのように創造的な答えを出したかを観察し、その「創造性のパターン」を AI の頭の中(内部の信号)に**「注射」する**ような技術です。
  • 効果
    • AI に特別なトレーニングをさせなくても、この「創造性の注射」をするだけで、**「より独創的で、かつ正解なコード」**を生み出せるようになりました。まるで、AI に「もっと自由に考えろ!」という魔法のスイッチを入れるようなものです。

🌟 まとめ

この研究は、AI の未来にとって非常に重要です。

  • 問題: AI は「正解」は出せるが、「創造的」かどうかを測るものがなかった。
  • 解決: 「CreativeBench」という新しいテストで、AI の創造性を「正解度」と「新奇性」の掛け算で測れるようにした。
  • 発見: 大きい AI は正解するが、独創性が落ちる傾向がある。
  • 未来: 「EvoRePE」という技術で、AI に創造性を「注入」することで、より素晴らしい新しいアイデアを生み出せるようになるかもしれません。

これは、AI が単なる「計算機」から、人間のように「新しい世界を切り開くパートナー」に進化する第一歩と言えるでしょう。