Budget-Sensitive Discovery Scoring: A Formally Verified Framework for Evaluating AI-Guided Scientific Selection

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 가 과학적 발견을 도와줄 때, 정말로 돈을 아껴주고 좋은 결과를 내는지 어떻게 정확히 측정할까?"**라는 질문에 대한 답을 제시합니다.

과학자들은 수많은 후보 물질이나 데이터 중에서 실험해 볼 가치가 있는 것만 골라내야 합니다. 하지만 실험 비용은 비싸기 때문에 (한 번 실험에 수천 달러), 예산 (Budget) 내에서 가장 좋은 것만 골라내는 것이 핵심입니다.

이 논문은 기존에 없던 새로운 **'예산 민감형 발견 점수 (BSDS)'**라는 측정 도구를 만들었고, 이를 이용해 **"최신 AI(대형 언어 모델, LLM) 가 기존 AI 보다 더 잘하는가?"**를 검증했습니다. 결과는 놀랍게도 **"아니요, 기존 AI 가 훨씬 잘합니다"**였습니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드리겠습니다.

1. 문제: "보물찾기" 게임의 함정

상상해 보세요. 거대한 모래밭 (수만 개의 화합물) 에서 금괴 (약효가 있는 물질) 를 찾아야 합니다. 하지만 당신은 100 개의 주사위만 던질 수 있는 예산이 있습니다.

기존의 측정법 (오류): "전체 모래밭에서 금괴를 얼마나 잘 찾았나요?"라고 묻습니다. (예: 전체 정확도)
- 문제점: 예산이 100 개뿐인데, 전체 모래밭의 1% 만 골라낸다면 이 점수는 의미가 없습니다. 중요한 건 **"예산 100 개로 골라낸 100 개 중 진짜 금괴가 몇 개인가?"**입니다.
이 논문의 새로운 측정법 (BSDS):
1. 실수 비용 (False Discovery): 금괴가 아닌 돌을 골라내면 실험 비용이 낭비됩니다. (벌점)
2. 포기 비용 (Abstention): "이건 모르겠어"라고 말하면 아까운 기회를 놓칩니다. (벌점)
3. 예산 제한: 100 개만 골라야 합니다.

이 세 가지를 모두 고려해서 점수를 매기는 것이 BSDS입니다. 이 점수 계산법은 수학적으로 완벽하게 증명되어 있어 (Lean 4 라는 도구로 검증됨), 누구도 속일 수 없습니다.

2. 실험: "초능력의 AI" vs "현실적인 AI"

연구팀은 39 명의 "탐정 (Proposer)"을 불러모아 모래밭에서 금괴를 찾게 했습니다.

현실적인 AI (Greedy-ML): 이미 3 만 개의 데이터를 공부한 경험 많은 베테랑 탐정입니다. (랜덤 포레스트 알고리즘)
초능력의 AI (LLM): 최신 대형 언어 모델들 (ChatGPT, Claude, Gemini 등). 이들은 화학 구조식 (SMILES) 을 보고 "이게 약일 것 같아!"라고 추측합니다.
- 0-shot: 아무 정보 없이 바로 추측.
- Few-shot: 예시 3 개만 보고 추측.
- Rerank: 베테랑 탐정이 추천한 목록을 다시 한번 검토.

3. 결과: 놀라운 반전

결과는 매우 명확했습니다.

베테랑 탐정 (기존 AI) 의 압승:
단순히 데이터를 학습한 기존 AI가 예산 내에서 가장 많은 금괴를 찾아냈습니다. (DQS 점수: -0.046)
초능력의 AI (LLM) 의 실패:
최신 AI 모델들은 **아무 정보 없이 추측할 때 (Zero-shot)**는 거의 무작위 추측 수준으로 실패했습니다.
- 재미있는 점: 베테랑 탐정이 추천한 목록을 다시 검토하게 해줘도 (Rerank), 오히려 혼란을 주어 점수가 더 떨어졌습니다. 마치 "전문가가 골라낸 최고의 메뉴를, 요리 지식이 부족한 사람이 다시 고르라고 했다가 망친 경우"와 같습니다.
왜 실패했을까?
LLM 은 화학 구조식을 텍스트로 읽을 뿐, 실제 분자의 3 차원 구조와 복잡한 화학 반응을 깊이 있게 이해하지 못합니다. 반면, 기존 AI 는 방대한 데이터를 통해 패턴을 정확히 학습했습니다.

4. 핵심 교훈: "새로운 것이 항상 좋은 것은 아니다"

이 연구는 과학계와 산업계에 중요한 메시지를 줍니다.

예산과 비용을 고려한 평가가 필요하다: 단순히 "AI 가 얼마나 똑똑해 보이느냐"가 아니라, **"실제 예산으로 쓸 때 얼마나 돈을 아껴주느냐"**가 중요합니다.
기존 기술의 위대함: 최신 AI 가 무조건 기존 AI 를 이기는 것은 아닙니다. 특히 데이터가 풍부하고 패턴이 명확한 분야에서는 간단하고 튼튼한 기존 모델이 훨씬 효과적입니다.
LLM 의 역할: 현재 LLM 은 단독으로 약을 찾거나 안전성을 판단하는 데는 부족합니다. 다만, 전문가의 도움을 받거나 (Few-shot), 특정 도구를 쓴다면 (RAG, 도구 사용) 미래에 가능성을 보일 수 있습니다.

5. 한 줄 요약

"거대한 모래밭에서 금을 찾을 때, 최신 AI 가 '아마도 여기겠지?'라고 추측하는 것보다, 이미 수많은 데이터를 공부한 '현실적인 AI'가 예산 내에서 훨씬 더 많은 보물을 찾아냅니다. 그리고 이를 정확히 측정할 수 있는 새로운 자 (BSDS) 를 만들었습니다."

이 논문은 AI 가 과학을 혁신할 때, 단순히 "멋진 이야기"에 현혹되지 않고 현실적인 비용과 효과를 엄격하게 따져봐야 함을 경고합니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

현황: 과학적 발견 (예: 신약 개발) 은 비용이 많이 드는 실험적 검증을 위해 AI 가 후보 물질을 선별하는 과정에 점점 더 의존하고 있습니다. 특히 LLM 이 과학적 가설을 생성하는 능력이 입증되고 있지만, 이러한 제안이 실제 실험 결과에 어떤 영향을 미치는지 평가할 수 있는 체계적인 프레임워크가 부재합니다.
기존 평가의 한계:
- 예산 무관성: 표준 분류 지표 (AUROC, F1 등) 는 모든 운영 지점을 통합하여 평가하므로, 실제 예산 제약 하에서 결정이 내려지는 특정 지점의 성능을 반영하지 못합니다.
- 비대칭적 비용 무시: 실험 슬롯을 낭비하는 '거짓 양성 (False Positive)'과 기회를 놓치는 '거짓 음성 (False Negative)'의 비용이 다르다는 점을 고려하지 않습니다.
- 거부 (Abstention) 옵션 부재: 불확실한 후보에 대해 선별을 유보하는 것이 오히려 바람직한 상황에서도 이를 평가할 수 있는 지표가 없습니다.
핵심 질문: 기존에 훈련된 ML 모델 (예: Random Forest) 이 이미 존재하는 상황에서, LLM 이 추가적인 가치를 제공할 수 있는가?

2. 방법론 (Methodology)

2.1 BSDS 및 DQS 프레임워크

저자들은 BSDS(Budget-Sensitive Discovery Score) 와 이를 예산 전체에 평균한 DQS(Discovery Quality Score) 를 제안했습니다.

수식적 정의:
$\text{BSDS}(B) = \text{HR@B} - \lambda \cdot \text{FDR@B} - \gamma \cdot (1 - \text{Cov@B})$
- $\text{HR@B}$ : 예산 $B$ 내에서의 회수율 (Recall).
- $\text{FDR@B}$ : 거짓 발견률 (False Discovery Rate).
- $\text{Cov@B}$ : 결정적 커버리지 (선정 또는 명시적 거부가 이루어진 비율).
- $\lambda$ : 거짓 양성에 대한 페널티 가중치 (실험 비용 대비).
- $\gamma$ : 거부 (Abstention) 에 대한 페널티 가중치 (기회 비용).
형식적 검증 (Formal Verification): 이 프레임워크의 20 가지 정리는 Lean 4 증명 보조기 (Proof Assistant) 를 통해 기계적으로 검증되었습니다. 이는 LLM 이 불완전하더라도 평가 지표 자체는 수학적으로 정확함을 보장합니다.
DQS: 특정 예산 포인트 하나를 선택하여 점수를 조작하는 것을 방지하기 위해, 다양한 예산 수준에서의 BSDS 평균값을 사용합니다.

2.2 실험 설정

데이터셋: MoleculeNet HIV (41,127 개 화합물, 활성 비율 3.5%) 를 주 데이터셋으로 사용했으며, Tox21, ClinTox 등 4 개의 추가 데이터셋과 자율주행 차량 (AV) 안전 시나리오 데이터셋으로 일반화성을 검증했습니다.
평가 대상 (39 개 제안자):
1. 기초선 (Baselines): 무작위 선택, RF 기반 Greedy-ML.
2. 메커니즘적 변형 (Mechanistic Ablations): 지식 기반, 검색 기반 (RAG 스타일), 생성 기반, 앙상블 등 11 가지.
3. LLM 제안자: 7 가지 모델 (ChatGPT, Claude, Gemini 등) 을 대상으로 Zero-shot 및 Few-shot (k=3) 모드, 그리고 Direct (SMILES 만 입력) 및 Rerank (ML 점수 보정) 모드를 평가. 총 28 가지 LLM 구성.
검증 방법: 1,000 번의 부트스트랩 (Bootstrap) 리플리케이트와 랜덤/스캐폴드 (Scaffold) 분할을 사용하여 통계적 유의성을 확보했습니다.

3. 주요 결과 (Key Results)

3.1 RF 기반 Greedy-ML 의 우위

단순한 Random Forest (RF) 기반 Greedy-ML 제안자가 모든 LLM 구성 및 MLP(다층 퍼셉트론) 재순위화 (Reranking) 변형보다 최고의 DQS(-0.046) 를 기록했습니다.
MLP 를 추가하여 RF 의 예측을 재순위화하는 것은 오히려 RF 의 판별력을 저하시켰습니다.
배포 시뮬레이션: 예산 50 개 실험에서 RF 기반 Greedy-ML 은 96% 의 히트율 (Hit Rate) 을 보인 반면, 가장 성능이 좋은 MLP 변형은 78% 에 그쳤습니다.

3.2 LLM 의 한계 (Marginal Value 부재)

Zero-shot 및 Few-shot 모두 실패: HIV 및 Tox21 데이터셋에서 어떤 LLM 구성도 기존 RF 기반 Greedy-ML 을 능가하지 못했습니다.
Direct 모드: SMILES 문자열만으로 활성을 예측하는 LLM 은 무작위 선택과 유사하거나 더 나쁜 성능을 보였습니다.
Rerank 모드: ML 모델의 예측을 기반으로 LLM 이 순서를 재조정하는 방식도 성능을 개선하지 못했습니다. 오히려 LLM 이 RF 의 판별력에 노이즈를 추가하여 DQS 를 감소시켰습니다.
결론: 기존에 훈련된 ML 모델이 존재하는 현실적인 배포 시나리오에서, LLM 은 추가적인 가치를 제공하지 못했습니다.

3.3 기존 지표와의 차별성

표준 가상 스크리닝 지표 (EF@1%, AUROC 등) 는 RF 기반 7 개 제안자에 대해 동일한 값을 산출했으나, BSDS/DQS는 이들을 명확하게 구분했습니다. 이는 예산 제약 하에서의 정밀도 - 재현율 - 거부 간의 트레이드오프를 포착했기 때문입니다.

3.4 일반화 및 민감도 분석

데이터셋 간 일반화: HIV, Tox21, ClinTox 등 5 개의 MoleculeNet 벤치마크 (활성 비율 0.18%~46.2%) 와 AV 안전 도메인에서 제안자 순위가 일관되게 유지되었습니다.
매개변수 민감도: $\lambda$ 와 $\gamma$ 값을 다양한 조합 (9x7 그리드) 으로 변경해도 제안자 순위는 안정적이었습니다 (Kendall $\tau \ge 0.636$ ).

4. 주요 기여 (Contributions)

형식적으로 검증된 평가 프레임워크: Lean 4 로 검증된 20 개의 정리를 통해, 예산 제약과 비대칭적 오류 비용을 동시에 고려하는 엄격한 평가 지표 (BSDS/DQS) 를 제시했습니다.
포괄적인 LLM 평가: 39 가지 제안 전략 (메커니즘적 변형 및 28 가지 LLM 구성) 을 대규모 부트스트랩을 통해 평가하여, 현재 LLM 이 약물 발견 파이프라인에 부가 가치를 더하지 못함을 실증했습니다.
새로운 통찰: 기존 지표로는 보이지 않던 예산 의존적 트레이드오프를 드러냈으며, LLM 이 ML 모델의 예측을 보정하는 것보다 오히려 성능을 저하시킬 수 있음을 보여주었습니다.

5. 의의 및 결론 (Significance)

이 연구는 AI 기반 과학적 발견의 평가 방식을 근본적으로 재정의합니다. 단순히 "모델이 얼마나 정확한가"가 아니라, "제한된 예산 하에서 실험 비용을 고려할 때 어떤 전략이 가장 효율적인가" 를 평가하는 새로운 기준을 제시했습니다.

특히, LLM 이 기존 ML 모델을 대체하거나 보완하지 못한다는 결론은 중요한 시사점을 줍니다. 현재 LLM 은 구조 - 활성 관계 (SAR) 를 SMILES 문자열만으로 추론하는 데 한계가 있으며, RAG(검색 증강 생성), 체인 오브 씽킹 (Chain-of-Thought), 도구 사용 (도킹 시뮬레이션 등) 과 같은 고급 기법이 도입되지 않는 한, 기존에 훈련된 ML 모델이 여전히 가장 강력한 베이스라인임을 보여줍니다.

이 프레임워크는 신약 개발뿐만 아니라 재료 과학, 안전 시나리오 우선순위 결정 등 예산과 오류 비용이 중요한 모든 과학적 발견 분야에 적용 가능한 엄격한 평가 도구로 자리 잡을 것으로 기대됩니다.