HypoSpace: Evaluating LLM Creativity as Set-Valued Hypothesis Generators under Underdetermination

この論文は、科学的推論における「不確定性」の条件下で、LLM が単一の正解ではなく複数の仮説セットを生成する能力を評価するための診断スイート「HypoSpace」を提案し、従来の正解率ベースの評価では見逃されるモード崩壊の現象を明らかにしています。

Tingting Chen, Beibei Lin, Zifeng Yuan, Qiran Zou, Hongyu He, Anirudh Goyal, Yew-Soon Ong, Dianbo Liu

公開日 Tue, 10 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 物語:探偵と「複数の犯人」

1. 問題:同じ証拠から、犯人は一人だけとは限らない

科学の世界では、同じ観察結果(証拠)から、複数の異なる説明(仮説)が成り立つことがよくあります。これを専門用語で「未決定問題(Underdetermination)」と呼びますが、**「探偵が現場の証拠(血痕や足跡)を見て、犯人を特定しようとする」**場面を想像してください。

  • 証拠: 窓ガラスが割れていて、泥の足跡が 3 つある。
  • 可能性 A: 泥棒が 3 人入ってきた。
  • 可能性 B: 泥棒は 1 人だが、靴を 3 回履き替えて入ってきた。
  • 可能性 C: 泥棒は 2 人だが、1 人が 2 回入った。

これらはすべて「証拠」と矛盾しません。つまり、正解は一つではなく、複数の「正解」が存在するのです。

2. 従来のテストの限界:「正解なら OK」では不十分

これまでの AI のテストは、**「一つだけ正解を当てられたら合格」**というルールでした。
「犯人は A だ!」と答える AI が、たまたま A が正解だった場合、100 点満点です。
しかし、もし AI が「犯人は A だ!」と 100 回繰り返して答え、B や C といった他の可能性を全く考えなかったらどうでしょう?
**「正解は言えたけど、他の可能性を探索する能力はゼロ」**です。これでは、科学の進歩(新しい発見)には役立ちません。

3. 新しいテスト「HypoSpace」の登場

この論文では、AI を**「仮説の広場(HypoSpace)」**に放り込み、以下の 3 つの能力を測る新しいテストを作りました。

  1. 妥当性(Validity): 出した答えが、証拠に矛盾していないか?(「犯人 A」は証拠と合っているか?)
  2. 独自性(Uniqueness): 出した答えが、他の答えと被っていないか?(「犯人 A」を 100 回言っていないか?)
  3. 回復率(Recovery): 存在する「すべての可能性」を、どれだけ網羅して見つけられたか?(A, B, C, D... と全て見つけられたか?)

4. 驚きの結果:AI は「偏った思考」に陥る

最新の AI(GPT-5 や Claude など)にこのテストをやらせたら、面白い(そして少し怖い)結果が出ました。

  • 妥当性: 非常に高い。AI は「正解」を言える。
  • 独自性・回復率: 問題が大きくなると、急激に悪化する

【メタファー:お気に入りのレストラン】
AI は、**「お気に入りのレストラン(A)」を 100 回も 100 回も勧めてきます。「ここが正解だよ!」と自信満々です。
しかし、実は「正解」は A だけでなく、B, C, D, E... と 100 店舗あるのに、AI は
「A しか知らない」か、「A に行き詰まって、他の店を探索する気力を失った」状態です。
これを論文では
「モード崩壊(Mode Collapse)」**と呼びます。AI が、狭い範囲の正解に固執し、広大な可能性の海を探索できない現象です。

5. なぜそうなったのか?

AI は、訓練の過程で「確率の高い(よくある)答え」を選びがちに作られています。
「確率の高い正解(A)」を見つけるのは簡単ですが、「確率が低い正解(Z)」を見つけるには、何万回も試行錯誤する必要があります。
AI は「A」を見つけるだけで満足してしまい、
「Z」を探すためのエネルギー(計算リソース)を節約しようとして、探索を放棄してしまう
のです。

6. 解決策:あえて「難しい道」を強いる

研究者は、AI に**「複雑な仮説(Z)」「単純な仮説(A)」をバランスよく探すよう、「難易度別リスト」を作って指示する実験を行いました。
これを
「階層化デコーディング」**と呼びます。

  • 結果: これにより、AI が「Z」のような難しい答えを見つけられる割合が向上しました。
  • 意味: AI に「もっと多様な視点を持て」と強制的に指示することで、偏った思考を改善できる可能性があります。

7. 現実世界での検証

このテストは、単なるゲームではなく、**「酵母の遺伝子」という実際の生物学データでも試されました。
「この遺伝子の組み合わせで、細胞が死んだ。なぜか?」という問題に対し、AI は「正解(妥当な答え)」は言えても、「考えられるすべての原因」を網羅することはできませんでした。
これは、
「AI が科学の助手になるには、まだ『多様な視点』を育む必要がある」**という重要な示唆を与えています。


💡 まとめ:この論文が伝えたいこと

  1. 科学の謎は「正解が一つ」ではない。 複数の答えが同時にあり得る。
  2. 今の AI は「正解」は言えるが、「多様な正解」を見つけるのが苦手。 お気に入りの答えに固執してしまう。
  3. 新しいテスト「HypoSpace」は、AI が「どれだけ広く考えられるか」を測るためのもの。
  4. 対策として、AI に「あえて難しい答えも探せ」と指示するだけで、改善が見込める。

この研究は、AI が単なる「答え合わせの機械」ではなく、**「未知の可能性を探索するパートナー」**になるために、何が必要かを教えてくれる重要な一歩です。