Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 物語：探偵と「複数の犯人」

1. 問題：同じ証拠から、犯人は一人だけとは限らない

科学の世界では、同じ観察結果（証拠）から、複数の異なる説明（仮説）が成り立つことがよくあります。これを専門用語で「未決定問題（Underdetermination）」と呼びますが、**「探偵が現場の証拠（血痕や足跡）を見て、犯人を特定しようとする」**場面を想像してください。

証拠： 窓ガラスが割れていて、泥の足跡が 3 つある。
可能性 A： 泥棒が 3 人入ってきた。
可能性 B： 泥棒は 1 人だが、靴を 3 回履き替えて入ってきた。
可能性 C： 泥棒は 2 人だが、1 人が 2 回入った。

これらはすべて「証拠」と矛盾しません。つまり、正解は一つではなく、複数の「正解」が存在するのです。

2. 従来のテストの限界：「正解なら OK」では不十分

これまでの AI のテストは、**「一つだけ正解を当てられたら合格」**というルールでした。
「犯人は A だ！」と答える AI が、たまたま A が正解だった場合、100 点満点です。
しかし、もし AI が「犯人は A だ！」と 100 回繰り返して答え、B や C といった他の可能性を全く考えなかったらどうでしょう？
**「正解は言えたけど、他の可能性を探索する能力はゼロ」**です。これでは、科学の進歩（新しい発見）には役立ちません。

3. 新しいテスト「HypoSpace」の登場

この論文では、AI を**「仮説の広場（HypoSpace）」**に放り込み、以下の 3 つの能力を測る新しいテストを作りました。

妥当性（Validity）： 出した答えが、証拠に矛盾していないか？（「犯人 A」は証拠と合っているか？）
独自性（Uniqueness）： 出した答えが、他の答えと被っていないか？（「犯人 A」を 100 回言っていないか？）
回復率（Recovery）： 存在する「すべての可能性」を、どれだけ網羅して見つけられたか？（A, B, C, D... と全て見つけられたか？）

4. 驚きの結果：AI は「偏った思考」に陥る

最新の AI（GPT-5 や Claude など）にこのテストをやらせたら、面白い（そして少し怖い）結果が出ました。

妥当性： 非常に高い。AI は「正解」を言える。
独自性・回復率： 問題が大きくなると、急激に悪化する。

【メタファー：お気に入りのレストラン】
AI は、**「お気に入りのレストラン（A）」を 100 回も 100 回も勧めてきます。「ここが正解だよ！」と自信満々です。
しかし、実は「正解」は A だけでなく、B, C, D, E... と 100 店舗あるのに、AI は「A しか知らない」か、「A に行き詰まって、他の店を探索する気力を失った」状態です。
これを論文では「モード崩壊（Mode Collapse）」**と呼びます。AI が、狭い範囲の正解に固執し、広大な可能性の海を探索できない現象です。

5. なぜそうなったのか？

AI は、訓練の過程で「確率の高い（よくある）答え」を選びがちに作られています。
「確率の高い正解（A）」を見つけるのは簡単ですが、「確率が低い正解（Z）」を見つけるには、何万回も試行錯誤する必要があります。
AI は「A」を見つけるだけで満足してしまい、「Z」を探すためのエネルギー（計算リソース）を節約しようとして、探索を放棄してしまうのです。

6. 解決策：あえて「難しい道」を強いる

研究者は、AI に**「複雑な仮説（Z）」と「単純な仮説（A）」をバランスよく探すよう、「難易度別リスト」を作って指示する実験を行いました。
これを「階層化デコーディング」**と呼びます。

結果： これにより、AI が「Z」のような難しい答えを見つけられる割合が向上しました。
意味： AI に「もっと多様な視点を持て」と強制的に指示することで、偏った思考を改善できる可能性があります。

7. 現実世界での検証

このテストは、単なるゲームではなく、**「酵母の遺伝子」という実際の生物学データでも試されました。
「この遺伝子の組み合わせで、細胞が死んだ。なぜか？」という問題に対し、AI は「正解（妥当な答え）」は言えても、「考えられるすべての原因」を網羅することはできませんでした。
これは、「AI が科学の助手になるには、まだ『多様な視点』を育む必要がある」**という重要な示唆を与えています。

💡 まとめ：この論文が伝えたいこと

科学の謎は「正解が一つ」ではない。 複数の答えが同時にあり得る。
今の AI は「正解」は言えるが、「多様な正解」を見つけるのが苦手。 お気に入りの答えに固執してしまう。
新しいテスト「HypoSpace」は、AI が「どれだけ広く考えられるか」を測るためのもの。
対策として、AI に「あえて難しい答えも探せ」と指示するだけで、改善が見込める。

この研究は、AI が単なる「答え合わせの機械」ではなく、**「未知の可能性を探索するパートナー」**になるために、何が必要かを教えてくれる重要な一歩です。

Each language version is independently generated for its own context, not a direct translation.

HypoSpace: 未決定性下における集合値仮説生成のための診断ベンチマーク

技術的サマリー（日本語）

本論文は、科学推論における「未決定性（Underdetermination）」、すなわち「同じ観測データに対して複数の異なる仮説が同等に整合的である」という状況に焦点を当て、大規模言語モデル（LLM）の仮説探索能力を評価するための新しい診断ベンチマーク**「HypoSpace」**を提案しています。

従来の科学推論ベンチマークが「単一の正解」の正しさを評価するのに対し、HypoSpace は「許容される仮説空間全体をいかに網羅的に探索・生成できるか」を定量的に測定することを目的としています。

1. 問題設定：未決定性と仮説空間の探索

多くの科学的推論問題（例：EEG ソースイメージング、遺伝子相互作用の解析など）は、観測データから一意の解を導き出すことができません。同じ観測結果を説明するメカニズム的に異なる複数の仮説が存在します。

課題: 現在の LLM ベンチマークは単一の正解を正答するか否かで評価されるため、モデルが「複数の有効な仮説を体系的に列挙し、多様性を保ちながら探索する能力」が検証されていません。
目標: LLM を「有限の仮説空間におけるサンプリング装置」と見なし、生成された仮説集合の妥当性（Validity）、独自性（Uniqueness）、**回復率（Recovery）**を厳密に測定する枠組みの構築。

2. 方法論：HypoSpace フレームワーク

2.1. 評価指標

HypoSpace は、仮説生成の性能を 3 つの補完的な指標で評価します。

妥当性 (Validity Rate, VR): 生成された仮説のうち、観測データと矛盾しない（有効な）仮説の割合。
独自性/新規性 (Uniqueness Rate, NR): 生成された仮説の中で、重複（意味的に等価なものを含む）を除いた独自の仮説の割合。
回復率 (Recovery Rate, RR): 事前に列挙された「すべての有効な仮説集合（Ground Truth）」のうち、モデルが実際に発見・生成できた割合。これが網羅性の指標となります。

2.2. 3 つの構造化タスク

LLM の挙動を厳密に検証するため、有効な仮説空間を**完全に列挙（Enumerate）**でき、かつ検証が決定論的に行える 3 つのタスクを定義しました。

因果推論 (Causal Inference): 介入（Perturbation）観測データから、整合するすべての有向非巡回グラフ（DAG）を推論するタスク。
重力制約付き 3D ボクセル再構成 (3D Voxel Reconstruction): 上方からの 2D 投影画像と重力（積み重ねの制約）に基づき、可能なすべての 3D 構造を再構成するタスク。
ブール遺伝子相互作用 (Boolean Genetic Interactions): 表現型の観測データから、遺伝子間の関係を記述するブール式（論理式）を提案するタスク。

これらのタスクでは、パラメータ（ノード数、グリッドサイズ、演算子の種類など）を調整することで、許容される仮説空間のサイズ $|H_O|$ を制御し、難易度を段階的に変化させます。

2.3. 評価プロトコル

LLM に特定のプロンプトを与え、 $N$ 個の独立した仮説を生成させます（通常 $N = |H_O|$ ）。
生成された仮説に対して、タスク固有の決定論的バリデーターで「有効性」をチェックします。
意味的に等価な表現を正規化（Canonicalization）し、重複を除去して「独自性」を判定します。
有効かつ重複のない仮説が、真の正解集合 $H_O$ の何割をカバーしているかで「回復率」を計算します。

3. 主要な貢献

理論的枠組みの提示:
- 未決定性下での LLM 評価を「集合値推論（Set-valued Inference）」として定式化し、正解性（Correctness）と探索能力（Exploration）を分離する 3 つの診断指標を導入しました。
- 「ピーク分布（Peaked Distribution）」を持つ生成モデルにおいて、有効な仮説の確率が偏っている場合、サンプリング予算が現実的な範囲では回復率（RR）が指数関数的に低下する（モード崩壊）ことを理論的に示しました。
制御された診断スイートの構築:
- 3 つの構造化タスクと、厳密な正解列挙、決定論的検証器を提供し、LLM による主観的評価（LLM-as-a-Judge）を排除した客観的な測定を可能にしました。
実証的発見:
- 最先端の推論モデル（Reasoning Models）であっても、仮説空間が大きくなるにつれて**「高妥当性・低回復率」**という一貫した失敗モード（モード崩壊）を示すことを発見しました。
- モデルは少数の「好まれる仮説」に集中し、空間の長尾（Tail）部分を探索できない傾向があります。
手法論的貢献（複雑度階層化デコーディング）:
- モード崩壊を緩和するためのトレーニング不要な手法として、「複雑度階層化デコーディング（Complexity-Stratified Decoding）」を提案しました。これは、モデルの生成を構造的複雑さ（エッジ数、演算子数など）ごとに層化し、単純な仮説だけでなく複雑な仮説も意図的に生成させるアプローチです。

4. 実験結果

モデル比較: GPT-5, Gemini-2.5-Pro, Claude-Opus-4, DeepSeek-R1 などの最先端モデルと、非推論モデル（GPT-4o, LLaMA-3.3-70B）を比較しました。
傾向:
- 妥当性 (VR): 多くのモデル（特に推論モデル）は、空間が小さくても大きくても高い妥当性を維持します。
- 独自性 (NR) と回復率 (RR): 仮説空間 $|H_O|$ が拡大するにつれて、すべてのモデルで急激に低下します。特にブール遺伝子相互作用タスクでは、空間が複雑になるにつれて回復率が 10% 未満にまで落ち込むモデルも存在しました。
- 推論モデルの優位性: 推論モデルは非推論モデルよりも NR/RR が優れていますが、それでも完全な網羅には至らず、モード崩壊は依然として顕著です。
複雑度階層化デコーディングの効果:
- この手法を適用することで、一部のモデル（GPT-4o や Claude-Opus-4 など）において、複雑な仮説の回復率が大幅に向上しました（例：Grok-4 で 0% から 17.2% へ）。
- ただし、強力なベースラインモデル（GPT-5 など）では、単純な仮説の生成が犠牲になるトレードオフも観測されました。

5. 実世界データへの適用

匿名化された酵母のベシクル輸送モジュール（6 つの遺伝子、単一/二重ノックアウトデータ）を用いた実証実験を行いました。

観測データが増えるにつれて、整合する仮説の集合 $|H^*|$ が縮小する様子を列挙で確認しました。
最先端モデルはこの実データに対しても高い妥当性を示しましたが、より弱いモデルは有効な仮説を 1 つも生成できませんでした（VR=0%）。これは、HypoSpace の指標が科学的推論の多面的な側面を捉えていることを示しています。

6. 意義と結論

HypoSpace は、LLM が科学的発見において「単一の正解」を出すだけでなく、「未決定性下で多様な可能性を体系的に探索する能力」を診断するための重要なツールです。

主要な知見: 現在の LLM は、有効な解を見つける能力（妥当性）は高いものの、解空間全体を探索する能力（回復率）が不足しており、特定の解に偏る「モード崩壊」が深刻な課題であることが明らかになりました。
将来展望: 単にサンプリング回数を増やすだけでは解決せず、サンプリング分布そのものを再構築する（例：複雑度階層化デコーディングのような戦略）ことが、科学的推論における LLM の能力向上に不可欠であることを示唆しています。

本論文は、科学支援 AI の安全性と信頼性を高めるために、モデルの挙動をより透明性高く評価する基盤を提供するものです。

HypoSpace: Evaluating LLM Creativity as Set-Valued Hypothesis Generators under Underdetermination