InnoGym: Benchmarking the Innovation Potential of AI Agents

本論文は、AI エージェントの解決策の正しさだけでなくアプローチの独自性も評価する初のベンチマーク「InnoGym」を提案し、創造性と実用性の間に存在するギャップを明らかにしています。

Jintian Zhang, Kewei Xu, Jingsheng Zheng, Zhuoyun Yu, Yuqi Zhu, Yujie Luo, Lanning Wei, Shuofei Qiao, Lun Du, Da Zheng, Shumin Deng, Huajun Chen, Ningyu Zhang

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

InnoGym(イノジム):AI の「創造性」を測る新しい競技場

この論文は、AI(人工知能)が単に「正解」を出すだけでなく、「いかに独創的な方法で」問題を解決できるかを評価するための新しい基準と実験場「InnoGym(イノジム)」を紹介しています。

わかりやすくするために、**「料理コンテスト」**に例えて説明しましょう。


1. 従来の評価:「味」だけが重要だった

これまでの AI のテスト(ベンチマーク)は、**「料理が美味しくできたか(正解か)」**だけをチェックしていました。

  • 例: 「ステーキが焼ければ OK」。
  • 問題点: 誰かが使っている定番のレシピ(既存の方法)をそのまま真似して作ったステーキも、自分で新しい調味料を考案して作ったステーキも、「美味しい=正解」として同じ評価になっていました。
  • ここで見落としていたこと: 「同じ味でも、作っている過程(方法)が全く違う」という**「創造性」「革新性」**が評価されていませんでした。

2. InnoGym の登場:「味」と「レシピの独創性」の両方を測る

InnoGym は、AI に料理をさせる際、以下の2 つの指標で評価します。

  1. パフォーマンス(味): 既存のベストな料理よりも美味しくできたか?(「性能の向上」
  2. 新規性(レシピの独創性): 既存の料理人と全く違う方法で、新しいアプローチを試みたか?(「方法の革新」

【例え話】

  • A さん(AI): 定番のレシピを完璧に再現し、味も最高。
    • 評価: 味は最高だが、レシピは既存と同じ。→「真似上手」だが「革新者」ではない。
  • B さん(AI): 全く新しい調味料を混ぜて、前人未到の味を作ろうとしたが、焦げて失敗した。
    • 評価: 独創性は抜群だが、味は最悪。→「アイデアはあるが、実行力不足」。
  • C さん(AI): 既存のレシピとは全く違う調理法で、**「それまでより美味しく」かつ「誰もやったことのない方法」**で成功させた。
    • 評価: これが真の「イノベーション(革新)」! InnoGym はこの C さんを最も高く評価します。

3. 18 種類の「挑戦的な課題」

InnoGym には、現実世界のエンジニアリングや科学の分野から選りすぐられた18 の課題があります。

  • これらは「すでに完璧な答えがある問題」や「答えがわからない難問」ではなく、**「今の技術でもっと良くなる余地がある問題」**です。
  • 例: 円を正方形の中にできるだけ多く詰め込む問題や、薬の候補物質を見つける問題など。
  • これらの課題を解くために、AI は「iGym」という統一された実験室(環境)で、道具を使いながら長時間の試行錯誤を行います。

4. 実験結果:AI は「アイデア」はあるが「実行力」が弱い

研究者たちは、最新の AI たちをこの InnoGym でテストしました。結果は以下の通りでした。

  • 現状の AI は、人間のプロにはまだ敵わない。
    複雑な問題では、AI は正解にたどり着けないことが多いです。
  • 「独創的」でも「実用的」ではない。
    一部の AI は、驚くほど新しい方法(レシピ)を考え出しましたが、それが**「壊れやすく、安定しない」**ものでした。
    • 例え: 「新しい調理法で美味しいステーキを作ろうとしたが、火加減が難しくて毎回焦げてしまう」。
  • 重要な発見:
    今の AI の最大の課題は「新しいアイデアがないこと」ではなく、「素晴らしいアイデアを、確実で安定した形に落とし込む力(ロバスト性)」が不足していることです。

5. この研究の意義

InnoGym は、AI 開発者に以下を伝えています。

「ただ『正解』を出すだけでなく、『より良く、そして今までにない方法』で解決する力が、本当の AI の進化には必要だ。でも、そのためには『アイデア』だけでなく『確実な実行力』も両立させなければならないよ」

まとめ

InnoGym は、AI が**「天才的なアイデア」「確実な実行力」を兼ね備えているかどうかを測る、世界初の「AI 創造性オリンピック」**のようなものです。

これからの AI は、単なる「模倣者」や「失敗する発明家」ではなく、**「確実で革新的な解決策」を生み出す「真のイノベーター」**を目指さなければなりません。この研究は、そのための道しるべとなるものです。