Each language version is independently generated for its own context, not a direct translation.

InnoGym（イノジム）：AI の「創造性」を測る新しい競技場

この論文は、AI（人工知能）が単に「正解」を出すだけでなく、「いかに独創的な方法で」問題を解決できるかを評価するための新しい基準と実験場「InnoGym（イノジム）」を紹介しています。

わかりやすくするために、**「料理コンテスト」**に例えて説明しましょう。

1. 従来の評価：「味」だけが重要だった

これまでの AI のテスト（ベンチマーク）は、**「料理が美味しくできたか（正解か）」**だけをチェックしていました。

例：「ステーキが焼ければ OK」。
問題点： 誰かが使っている定番のレシピ（既存の方法）をそのまま真似して作ったステーキも、自分で新しい調味料を考案して作ったステーキも、「美味しい＝正解」として同じ評価になっていました。
ここで見落としていたこと： 「同じ味でも、作っている過程（方法）が全く違う」という**「創造性」や「革新性」**が評価されていませんでした。

2. InnoGym の登場：「味」と「レシピの独創性」の両方を測る

InnoGym は、AI に料理をさせる際、以下の2 つの指標で評価します。

パフォーマンス（味）： 既存のベストな料理よりも美味しくできたか？（「性能の向上」）
新規性（レシピの独創性）： 既存の料理人と全く違う方法で、新しいアプローチを試みたか？（「方法の革新」）

【例え話】

A さん（AI）： 定番のレシピを完璧に再現し、味も最高。
- → 評価： 味は最高だが、レシピは既存と同じ。→「真似上手」だが「革新者」ではない。
B さん（AI）： 全く新しい調味料を混ぜて、前人未到の味を作ろうとしたが、焦げて失敗した。
- → 評価： 独創性は抜群だが、味は最悪。→「アイデアはあるが、実行力不足」。
C さん（AI）： 既存のレシピとは全く違う調理法で、**「それまでより美味しく」かつ「誰もやったことのない方法」**で成功させた。
- → 評価： これが真の「イノベーション（革新）」！ InnoGym はこの C さんを最も高く評価します。

3. 18 種類の「挑戦的な課題」

InnoGym には、現実世界のエンジニアリングや科学の分野から選りすぐられた18 の課題があります。

これらは「すでに完璧な答えがある問題」や「答えがわからない難問」ではなく、**「今の技術でもっと良くなる余地がある問題」**です。
例：円を正方形の中にできるだけ多く詰め込む問題や、薬の候補物質を見つける問題など。
これらの課題を解くために、AI は「iGym」という統一された実験室（環境）で、道具を使いながら長時間の試行錯誤を行います。

4. 実験結果：AI は「アイデア」はあるが「実行力」が弱い

研究者たちは、最新の AI たちをこの InnoGym でテストしました。結果は以下の通りでした。

現状の AI は、人間のプロにはまだ敵わない。
複雑な問題では、AI は正解にたどり着けないことが多いです。
「独創的」でも「実用的」ではない。
一部の AI は、驚くほど新しい方法（レシピ）を考え出しましたが、それが**「壊れやすく、安定しない」**ものでした。
- 例え： 「新しい調理法で美味しいステーキを作ろうとしたが、火加減が難しくて毎回焦げてしまう」。
重要な発見：
今の AI の最大の課題は「新しいアイデアがないこと」ではなく、「素晴らしいアイデアを、確実で安定した形に落とし込む力（ロバスト性）」が不足していることです。

5. この研究の意義

InnoGym は、AI 開発者に以下を伝えています。

「ただ『正解』を出すだけでなく、『より良く、そして今までにない方法』で解決する力が、本当の AI の進化には必要だ。でも、そのためには『アイデア』だけでなく『確実な実行力』も両立させなければならないよ」

まとめ

InnoGym は、AI が**「天才的なアイデア」と「確実な実行力」を兼ね備えているかどうかを測る、世界初の「AI 創造性オリンピック」**のようなものです。

これからの AI は、単なる「模倣者」や「失敗する発明家」ではなく、**「確実で革新的な解決策」を生み出す「真のイノベーター」**を目指さなければなりません。この研究は、そのための道しるべとなるものです。

Each language version is independently generated for its own context, not a direct translation.

InnoGym: AI エージェントの革新性を評価するためのベンチマークとフレームワーク

技術的サマリー（日本語）

本論文は、大規模言語モデル（LLM）および AI エージェントの進歩を評価する際、従来の「正解かどうか」という基準だけでは不十分であるという問題意識から、**「革新性（Innovation）」**を体系的に評価するための新しいベンチマークとフレームワーク InnoGym を提案したものです。

以下に、問題定義、手法、主要な貢献、実験結果、および意義について詳細をまとめます。

1. 背景と問題定義

近年、LLM や AI エージェントはコード生成、数学的推論、科学的発見などの分野で顕著な進歩を遂げています。しかし、既存のベンチマークの多くは、最終的な答えの正解性（Correctness）のみを重視しており、その答えに至るまでのアプローチの多様性や独創性を見落としています。

現状の課題: 2 つのエージェントが同じ正解を出しても、その手法が全く異なっている場合、既存の評価体系ではその差異が評価されません。
本質的な問い: 真の革新とは、単に正解を出すことではなく、既存の手法とは異なる独創的なアプローチで、かつ性能向上をもたらすことです。
目的: AI エージェントが「正解」だけでなく、「いかに新しい方法で問題を解決するか」という革新性を発揮できるかを測定する枠組みの構築。

2. 提案手法：InnoGym フレームワーク

InnoGym は、タスクを 4 つの要素 $(P, S, V, D)$ で定義し、革新性を**「性能向上（Performance Gain）」と「新規性（Novelty）」**の 2 つの補完的な指標で定量化します。

2.1 革新性の定量化指標

性能向上（Performance Gain, $G$ ）:
- 既存の最良の既知解（ $S_{known}$ ）に対する性能の改善度を測定します。
- $G(s) = V(s) - V^*_{known}$ で定義され、正の値は人間を超える性能突破を示します。
新規性（Novelty, $N$ ）:
- 既存の既知解との手法上の差異（非類似度）を測定します。
- 実用的な解（Feasible solution）に対してのみ計算され、既存の解との距離 $D$ が大きいほど高スコアとなります。
- 距離 $D$ の計算には、Codex を用いた「エージェントによる評価（Agent-as-judge）」アプローチを採用し、解の核心戦略を抽出・比較します。

2.2 革新タスクの分類

タスクを以下の 3 つに分類し、InnoGym では特に**「改善可能なタスク（Improvable Tasks）」**に焦点を当てています。

解決済みタスク（Solved Problems）: 最適解が既知（例：MATH、SWE-Bench）。革新性は主に新規性で評価されます。
改善可能なタスク（Improvable Problems）: 既存解はあるが最適解は未定（例：機械学習コンペ、最適化問題）。性能向上と新規性の両方が評価対象となります。InnoGym はこのカテゴリに特化しています。
探索的タスク（Exploratory Problems）: 既知の実行可能解が存在しない（例：未解決の数学的予想）。0 から 1 の突破が求められます。

2.3 システム構成：iBench と iGym

iBench（ベンチマーク）:
- 現実世界の工学・科学分野から厳選された**18 の「改善可能なタスク」**を収録。
- 出典：NeurIPS コンペティション、KDD Cup、ROADEF、古典的な NP 困難問題など。
- 各タスクは、リソースの可用性、評価者の検証、ソリューションの収集、バリデーターの構築、データ分割など、厳格な 2 段階のフィルタリングと標準化プロセスを経て作成されました。
iGym（実行環境）:
- 多様なエージェントシステムを統一的に実行・評価するための SDK。
- 長期タスクにおけるロバストな回復機能、ネイティブな並行処理、一貫したツール管理を提供し、再現性と公平な比較を可能にします。

3. 主要な貢献

革新性の定義と測定フレームワーク: 性能向上と新規性を組み合わせ、AI エージェントの革新性を原理的に定義・測定する枠組みを提案。
InnoGym ベンチマークの導入: 実世界の工学・科学分野から 18 の標準化されたタスクを収集・構築した、初の革新性特化ベンチマーク。
iGym 実行環境の提供: 再現性が高く、長期にわたる評価を可能にする統一環境の構築。
包括的な実験と知見: 最先端のエージェントに対する体系的な実験を行い、現在のエージェントが抱える「堅牢性の欠如」と「革新性と有効性のギャップ」を浮き彫りにした。

4. 実験結果

DeepSeek-v3.1、GPT-5、Gemini-2.5-Pro などの基盤モデルを搭載した 3 つのエージェントフレームワーク（MLAB, CODEACT, AIDE）を用いた実験を行いました。

複雑なタスクにおける性能ギャップ:
- 既存のエージェントは、複雑でオープンエンドな問題において、人間の最先端（SOTA）を大幅に下回る性能しか発揮できませんでした。
- 複雑なデータ形式や要件を持つタスク（例：CDML, PTTALC）では、多くのエージェントが有効な実行可能な解を生成できませんでした。
堅牢性 vs 新規性:
- 一部の手法は高い新規性（Novelty）を示しましたが、実装の堅牢性（Robustness）が欠如していたため、実際の性能向上（Performance Gain）には結びつきませんでした。
- 重要な発見: 複雑なタスクにおいて、独創的なアイデアだけでは不十分であり、それを正確かつ堅牢に実装する能力がボトルネックとなっています。
フレームワーク間の差異:
- MLAB は性能向上と新規性の両面で他をリードしましたが、CodeAct や AIDE は複雑なファイル構造やツールの扱いにおいて劣っていました。
- 温度パラメータ（Sampling Temperature）の調整により、探索（新規性）と利用（性能）のトレードオフを制御できることが示されました。

5. 意義と結論

InnoGym は、AI エージェントの評価を「正解か否か」から「いかに革新的かつ効果的に問題を解決するか」へとシフトさせる重要な足掛かりとなります。

研究への示唆: 現在の AI エージェントは「創造性（新規性）」と「実用性（堅牢性・性能）」の間に大きなギャップを抱えています。真の革新を実現するには、独創的なアプローチを、実世界で機能する堅牢な実装へと変換する能力の向上が不可欠です。
将来展望: 本ベンチマークとフレームワークは、AI の創造的・革新的能力を体系的に評価するための標準的なプラットフォームを提供し、今後の AI 研究、特に科学発見や工学設計におけるエージェントの役割を深化させる基盤となります。

本論文は、単なる性能競争を超え、AI が「どのように」問題を解決するかというプロセスそのものの価値を評価する新たなパラダイムを提示しています。

InnoGym: Benchmarking the Innovation Potential of AI Agents