HypoSpace: Evaluating LLM Creativity as Set-Valued Hypothesis Generators under Underdetermination

Each language version is independently generated for its own context, not a direct translation.

1. 핵심 문제: "정답이 하나만 있는 게 아니다"

우리가 학교 시험을 볼 때는 보통 정답이 딱 하나입니다. 하지만 실제 과학이나 복잡한 문제에서는 관측된 사실 (증거) 에 맞는 설명이 여러 개일 수 있습니다.

비유: 밤하늘을 보고 "저게 뭐지?"라고 물었을 때, "우주선이다", "별이다", "비행기다" 모두 같은 빛으로 보일 수 있습니다.
문제: 기존 AI 벤치마크는 AI 가 **"정답 하나만 맞췄는지"**만 봅니다. 하지만 진짜 똑똑한 과학자는 **"정답이 여러 개일 수 있으니, 가능한 모든 설명을 찾아서 나열할 수 있는가?"**를 확인해야 합니다.

2. HypoSpace 란 무엇인가?

이 논문은 AI 를 **"가설을 뽑아내는 주사위"**처럼 취급합니다. AI 가 여러 번 주사위를 굴려서 (생성해서) 나올 수 있는 모든 가능한 설명을 얼마나 잘 찾아내는지 측정합니다.

이때 세 가지 점수를 매깁니다.

유효성 (Validity): "맞는 말인가?"
- AI 가 내놓은 설명이 관찰된 사실과 모순되지 않는지 확인합니다. (예: "우주선이다"라고 했을 때, 그 우주선이 실제로 그 빛을 낼 수 있는가?)
독창성 (Uniqueness): "중복되지 않는가?"
- AI 가 같은 말을 반복해서 하지 않고, 서로 다른 설명을 다양하게 내놓았는지 봅니다. (예: "우주선이다", "우주선이다", "우주선이다"라고 10 번 말하면 점수 0 점.)
회복률 (Recovery): "모든 가능성을 다 찾았는가?"
- 가장 중요한 부분입니다. 가능한 모든 설명 (가설의 공간) 이 100 개라면, AI 가 그중 100 개를 다 찾아냈는지, 아니면 1 개만 반복해서 찾았는지를 봅니다.

3. 실험 결과: AI 는 "편식"을 합니다

연구진은 AI 가 **세 가지 다른 미스터리 (인과관계 추리, 3D 블록 쌓기, 유전자 상호작용)**를 풀게 했습니다. 결과는 놀라웠습니다.

현상: 최신 AI 모델들은 **"정답을 맞추는 능력 (유효성)"**은 매우 뛰어납니다. 하지만 **"다양한 가능성을 찾아내는 능력 (회복률)"**은 떨어졌습니다.
비유:
- 가상의 가설 공간이 거대한 도서관이라고 칩시다.
- AI 는 도서관에 들어와서 **"정답 책"**을 찾는 데는 아주 빠릅니다.
- 하지만 한 번 찾은 책 (예: '우주선'이라는 책) 을 계속 반복해서 가져와서 보여줍니다.
- 도서관에 '별'이라는 책이나 '비행기'라는 책이 수천 권 더 있는데, AI 는 그걸 찾아내지 못합니다.
- 이를 논문에서는 **"모드 붕괴 (Mode Collapse)"**라고 부릅니다. AI 가 하나의 답에 꽂혀서 다른 가능성을 무시하는 현상입니다.

4. 왜 이런 일이 일어날까?

AI 는 훈련 과정에서 **"가장 확률이 높은 (가장 안전한) 답"**을 내놓도록 학습되었습니다.

비유: 식당에서 메뉴판이 100 개 있는데, AI 는 "가장 유명한 메뉴"인 '김치찌개'만 계속 시키는 것과 같습니다. '김치찌개'는 맛있고 (정답임) 틀릴 일이 없지만, '불고기'나 '파스타' 같은 다른 맛있는 메뉴는 절대 시도하지 않습니다.
가설 공간이 커질수록 (도서관이 커질수록), AI 는 더 좁은 범위 (김치찌개만) 에 갇히게 됩니다.

5. 해결책: "난이도별 탐색" (Stratified Decoding)

연구진은 AI 가 편식하지 않도록 돕는 간단한 방법을 제안했습니다.

방법: AI 에게 "너는 이제부터 단순한 답도 찾고, 복잡한 답도 찾아봐. 그리고 중간 난이도도 골고루 찾아봐"라고 지시하는 것입니다.
결과: 이 방법을 쓰니 AI 가 더 다양한 답을 찾아내는 능력이 조금씩 개선되었습니다. 하지만 여전히 완벽하지는 않습니다.

6. 결론: 왜 이 연구가 중요한가?

이 연구는 **"AI 가 과학을 할 수 있을까?"**라는 질문에 대해 중요한 통찰을 줍니다.

현재: AI 는 "정답 하나"를 맞출 때는 훌륭하지만, "모든 가능성을 탐색"하는 과학자의 역할에는 아직 부족합니다.
의의: 이 연구는 AI 를 단순히 "시험 점수"로 평가하는 것을 넘어, **"어떻게 생각하며, 얼마나 넓은 시야를 가졌는지"**를 진단하는 새로운 기준을 제시합니다.
미래: 앞으로 AI 가 과학적 발견을 돕기 위해서는, 정답을 맞추는 것뿐만 아니라 생각의 폭을 넓히는 기술이 필요하다는 것을 보여줍니다.

한 줄 요약:

"AI 는 정답을 맞추는 데는 천재지만, 가능한 모든 답을 찾아내는 '호기심'과 '탐색 능력'에서는 아직 인간처럼 넓게 생각하지 못합니다. 이 연구는 그 한계를 정확히 진단하고 개선하는 방법을 제시합니다."

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

불확정성 (Underdetermination) 문제: 많은 과학적 추론 문제는 동일한 관측 데이터에 대해 여러 개의 서로 다른 가설이 모두 일관되게 존재하는 '불확정성'을 가집니다. (예: EEG 소스 영상, 유전자 상호작용 등).
기존 벤치마크의 한계: 현재 대부분의 과학적 추론 벤치마크는 단일 정답 (Single-answer correctness) 에 초점을 맞추고 있습니다. 이는 모델이 하나의 올바른 해답을 찾는 능력은 평가하지만, 관측 데이터와 일치하는 모든 가능한 가설 집합 (Admissible Hypothesis Set) 을 체계적으로 탐색하고 커버하는 능력은 평가하지 못합니다.
핵심 질문: 대형 언어 모델 (LLM) 은 불확정성 하에서 가설 공간을 체계적으로 탐색할 수 있는가?
발견된 현상: 최신 LLM 들은 유효한 가설을 생성하는 능력 (Validity) 은 높지만, 가설 공간이 커질수록 다양한 가설을 생성하지 못하고 소수의 가설에 집중하는 '모드 붕괴 (Mode Collapse)' 현상을 보입니다.

2. 방법론: HypoSpace 프레임워크 (Methodology)

저자들은 LLM 을 유한한 가설 공간 위의 샘플러 (Sampler) 로 간주하고, 이를 평가하기 위해 HypoSpace라는 진단용 벤치마크를 제안했습니다.

2.1. 평가 지표 (Metrics)

LLM 의 가설 생성 능력을 세 가지 보완적인 지표로 측정합니다:

유효성 (Validity, VR): 생성된 가설 중 관측 데이터와 일치하는 비율 (정확도).
독창성/유일성 (Uniqueness, NR): 생성된 가설들 간의 중복을 제거한 비율 (중복성 제거 능력).
회복률 (Recovery, RR): 사전에 열거된 모든 유효한 가설 집합 ( $H_O$ ) 중 모델이 얼마나 많이 찾아냈는지 (전체 공간 커버리지).

2.2. 구성된 세 가지 구조화된 도메인

모든 도메인은 **결정론적 검증기 (Deterministic Validators)**와 정확히 열거 가능한 (Exactly Enumerable) 해답 공간을 가지며, 난이도 조절이 가능합니다.

인과 그래프 추론 (Causal Inference): 단일 노드 개입 (Intervention) 관측 데이터에 기반하여 모든 가능한 방향성 비순환 그래프 (DAG) 를 추론.
중력 제약 3D 보크셀 재구성 (Gravity-constrained 3D Voxel Reconstruction): 상단 투영 (Top-down projection) 과 중력 법칙 (아래에서부터 쌓임) 을 만족하는 3D 구조를 복원.
부울 유전자 상호작용 모델링 (Boolean Genetic Interaction): 표현형 관측 데이터를 바탕으로 유전적 상호작용을 설명하는 부울 논리식을 생성.

2.3. 실험 프로토콜

각 문제 인스턴스에 대해 모든 유효한 가설 집합 $H_O$ 를 사전에 열거합니다.
LLM 에게 $N$ 개의 가설을 샘플링하게 한 후, 검증기를 통해 유효성 (Validity) 을 확인하고, 태스크별 정규화기 (Canonicalizer) 를 통해 의미적 중복을 제거하여 유일성 (Uniqueness) 과 회복률 (Recovery) 을 계산합니다.

3. 주요 기여 (Key Contributions)

이론적 형식화: LLM 의 다중 가설 추론 능력을 '불확정성 하의 집합값 추론 (Set-valued inference)'으로 정의하고, 정확도와 탐색 능력을 분리하여 측정하는 첫 번째 체계적인 프레임워크를 제시했습니다.
통제된 진단 도구: 정확한 검증과 객관적인 커버리지 측정이 가능한 세 가지 구조화된 태스크를 구축했습니다.
실증적 발견: 최첨단 추론 모델 (Reasoning Models) 조차도 가설 공간이 커질수록 높은 유효성 (Validity) 을 유지하면서도 유일성 (Uniqueness) 과 회복률 (Recovery) 이 급격히 떨어지는 모드 붕괴 현상을 보임을 확인했습니다.
방법론적 기여: 단순한 점수 경쟁이 아닌, 모델의 샘플링 전략을 개선하기 위한 재사용 가능한 진단 프레임워크를 제공했습니다.

4. 실험 결과 및 분석 (Results & Analysis)

4.1. 일반적 경향

높은 유효성, 낮은 회복률: 모델들은 관측 데이터와 일치하는 가설을 잘 찾지만 (VR 높음), 전체 가설 공간의 대부분을 놓칩니다 (RR 낮음).
가설 공간 크기의 영향: 가설 공간의 크기 ( $|H_O|$ ) 가 증가할수록 회복률 (RR) 은 비선형적으로 급감합니다.
모델 비교: 추론 모델 (GPT-5, Gemini-2.5-Pro, Claude-Opus-4 등) 이 비추론 모델 (GPT-4o, LLaMA 등) 보다 성능이 좋지만, 난이도가 높아지면 모든 모델에서 모드 붕괴가 발생합니다.

4.2. 모드 붕괴의 원인 분석 (이론적 분석)

피크형 분포 (Peaked Generators): LLM 은 가설 공간 내에서 소수의 가설에 확률 질량을 집중시키는 경향이 있습니다.
수렴 속도: 모든 가설이 0 이 아닌 확률을 가진다 하더라도, 꼬리 부분 (Tail) 의 확률이 매우 작으면 전체 공간을 커버하기 위해 필요한 샘플 수 ( $N$ ) 는 기하급수적으로 커집니다. 즉, 현실적인 샘플링 예산으로는 전체 공간을 커버할 수 없습니다.

4.3. 해결 시도: 복잡도 계층화 디코딩 (Complexity-Stratified Decoding)

접근법: 모델이 자연스럽게 선호하는 단순한 가설만 생성하는 편향을 막기 위해, 가설의 구조적 복잡도 (예: 엣지 수, 연산자 수) 를 기준으로 계층을 나누고, 각 복잡도 수준별로 샘플링을 강제하는 방법입니다.
결과: 이 방법은 훈련 없이 (Training-free) 적용 가능하며, 특히 복잡한 가설 영역에서의 회복률을 일부 개선했습니다 (예: Grok-4 의 경우 복잡한 가설 회복률이 0% 에서 17.2% 로 상승). 하지만 일부 모델에서는 단순 가설의 성능이 떨어지는 트레이드오프가 발생했습니다.

4.4. 실세계 데이터 검증

실제 효모 (Yeast) 유전자 상호작용 데이터 (단일/이중 녹아웃 실험) 에 적용한 결과, 모델들이 여전히 모드 붕괴 경향을 보였으며, 이는 합성 데이터에서의 발견이 실세계 문제에서도 유효함을 입증했습니다.

5. 의의 및 결론 (Significance & Conclusion)

진단적 가치: HypoSpace 는 모델이 "정답을 맞히는가"가 아니라 "해답 공간을 얼마나 넓게 탐색하는가"를 측정하여, 과학적 추론 모델의 진정한 한계를 파악할 수 있게 합니다.
향후 방향: 단순히 샘플링 횟수를 늘리는 것보다, **샘플링 분포를 재구성 (Reshaping)**하거나 복잡도 기반 탐색 전략을 도입하는 것이 모드 붕괴를 완화하는 더 효과적인 방향임을 시사합니다.
과학적 안전성: 과학적 발견을 보조하는 AI 시스템의 신뢰성과 투명성을 높이고, 근거 없는 주장을 줄이는 데 기여할 수 있습니다.

이 논문은 LLM 이 과학적 불확정성 하에서 어떻게 작동하는지에 대한 깊은 통찰을 제공하며, 향후 더 강력한 과학적 추론 모델을 개발하기 위한 중요한 진단 도구로 자리 잡을 것입니다.