On the Reliability of AI Methods in Drug Discovery: Evaluation of Boltz-2 for Structure and Binding Affinity Prediction

Each language version is independently generated for its own context, not a direct translation.

🍳 1. 배경: "요리사"와 "지도"의 대결

신약 개발은 마치 새로운 요리를 개발하는 과정과 같습니다.

목표: 특정 질병을 치료하는 '열쇠' (약물) 를 찾아서, 몸속의 '자물쇠' (단백질) 에 정확히 꽂는 것입니다.
전통적인 방법 (물리 기반 시뮬레이션): 자물쇠와 열쇠의 모양, 무게, 마찰력 등을 정밀하게 계산하는 정밀한 공학자 같은 방식입니다. 매우 정확하지만, 계산하는 데 시간이 너무 오래 걸려서 수만 개의 후보를 한 번에 테스트하기 어렵습니다.
새로운 AI 방법 (Boltz-2): 수만 권의 요리책과 레시피를 학습한 천재 요리사입니다. 순식간에 "이 재료를 섞으면 맛이 날 것 같다"고 예측합니다. 매우 빠르지만, 그 예측이 실제로 입맛에 맞는지 (약효가 있는지) 검증이 필요합니다.

이 연구는 이 **천재 요리사 (Boltz-2)**가 실제로 얼마나 요리를 잘하는지, 그리고 그 예측이 **정밀 공학자 (ESMACS)**의 계산과 얼마나 일치하는지 확인해 보았습니다.

🔍 2. 실험 내용: 두 가지 목표 단백질로 테스트

연구진은 두 가지 다른 '자물쇠' (단백질) 를 대상으로 3 만 개 이상의 '열쇠' (후보 약물) 를 테스트했습니다.

코로나 바이러스 단백질 (3CLPro): 자물쇠 구멍이 넓고 모양이 애매한 경우.
암 치료 단백질 (TNKS2): 자물쇠 구멍이 좁고 명확한 경우.

연구진은 AI 가 예측한 **약물 위치 (구조)**와 **약효 (결합 에너지)**를 전통적인 방법으로 계산한 결과와 비교했습니다.

⚠️ 3. 주요 발견: AI 의 실수들 (비유로 설명)

① "자물쇠 구멍"을 잘못 찾았다 (구조 예측의 문제)

상황: AI 는 약물이 자물쇠 구멍에 꽂히는 모습을 예측했습니다.
결과:
- TNKS2 (좁은 구멍): 대부분 제자리에 꽂혔습니다.
- 3CLPro (넓은 구멍): AI 는 약물이 자물쇠 구멍이 아닌, 벽이나 천장에 붙어 있는 것처럼 엉뚱한 곳에 꽂히는 예측을 많이 했습니다.
- 비유: 마치 "이 열쇠는 문에 꽂혀야 하는데, AI 는 열쇠를 문고리 옆 벽에 꽂아라"라고 지시하는 것과 같습니다.

② "맛"을 못 구분했다 (약효 예측의 문제)

상황: AI 는 "이 약이 얼마나 잘 붙을지 (결합 친화도)" 점수를 매겼습니다.
결과: AI 는 **약한 약이나 강한 약이나 모두 비슷하게 "꽤 잘 붙을 것 같다" (-5~-8 kcal/mol)**라고 점수를 매겼습니다.
- 비유: 요리사가 "이 요리는 다 맛있어요"라고 말하지만, 실제로는 소금 없는 국과 진한 스프를 구분하지 못하는 상황입니다. 진짜 맛있는 요리 (효과적인 약물) 를 골라내는 데는 실패했습니다.

③ "화학 구조"를 잘못 그렸다 (분자 구조의 오류)

상황: AI 가 예측한 분자 구조를 자세히 보니, 원자 사이의 연결 방식이 실제와 달랐습니다.
- 예시: 고리 모양의 분자가 있어야 할 곳에 AI 는 고리를 너무 많이 뚫거나 (불포화), 반대로 고리를 채워버려서 (포화) 실제 화학 성질을 잃어버린 구조를 만들었습니다.
- 비유: 요리사가 레시피를 읽다가 "설탕 1 큰술"을 "소금 1 큰술"로 잘못 읽거나, 식재료를 반으로 잘라버리는 실수를 한 것과 같습니다.

④ "최고 100 개"도 실패했다

상황: AI 가 "이 100 개가 최고야!"라고 추천한 약물들을 다시 정밀하게 계산해 보았습니다.
결과: AI 가 추천한 순서와 실제 정밀 계산 결과 사이에는 전혀 상관관계가 없었습니다.
- 비유: AI 가 "이 100 명 중 1 등, 2 등, 3 등"을 뽑아주었는데, 실제로는 100 등부터 1 등까지 완전히 뒤죽박죽이었습니다.

💡 4. 결론: AI 는 '초고속 스크리너'일 뿐, '최종 심사관'은 아니다

이 연구의 결론은 다음과 같습니다.

속도는 좋지만, 정밀도는 부족합니다: AI 는 수만 개의 약물을 순식간에 훑어볼 수 있어 초기 후보를 걸러내는 (스크리닝) 데는 유용합니다.
하지만 신뢰할 수 없습니다: "이 약이 정말 효과가 있을까?"를 판단하는 최종 결정 단계에서는 AI 의 예측이 너무 부정확합니다. 물리 법칙을 기반으로 한 전통적인 계산 방법이 여전히 필요합니다.
왜 그럴까요? AI 는 방대한 데이터를 보고 "패턴"을 학습했지만, 분자 세계의 복잡한 **물리 법칙 (에너지, 힘, 전자 이동 등)**을 완전히 이해하지는 못합니다. 마치 "비행기가 날아다니는 사진"만 수만 장 보고 비행기를 만든다고 해서, 실제로 비행기가 날 수 있는 공기역학 원리를 이해하는 것은 아닙니다.

🚀 요약

"Boltz-2 같은 최신 AI 는 신약 개발의 '스피드'를 높여주지만, '정확함'을 보장하지는 못합니다. 따라서 AI 가 찾아낸 후보들을 최종적으로 검증하려면, 여전히 정밀한 물리 기반 계산 (과학적 검증) 이 필수적입니다."

이 연구는 AI 기술이 발전했음에도 불구하고, **과학적 엄밀함 (물리 법칙)**을 대체할 수는 없음을 다시 한번 일깨워줍니다.

Each language version is independently generated for its own context, not a direct translation.

이 논문은 약물 발견 분야에서 최근 주목받고 있는 AI 기반 도구인 Boltz-2의 신뢰성을 평가한 연구입니다. 특히 단백질 - 리간드 구조 예측과 결합 친화도 (binding affinity) 예측 능력에 초점을 맞추어, 기존 물리 기반 방법론 (Physics-based methods) 과의 비교를 통해 그 한계와 가능성을 분석했습니다.

다음은 논문의 기술적 요약입니다.

1. 연구 배경 및 문제 제기 (Problem)

AI 의 약물 발견 현황: AlphaFold 2 의 성공 이후 AI 가 약물 발견을 혁신할 것이라는 기대가 높았으나, 아직 규제 승인을 받은 'AI 발견 약물'은 없습니다.
핵심 과제: 약물 개발 파이프라인의 효율성을 높이기 위해서는 단백질 - 리간드 구조와 결합 에너지를 신속하고 정확하게 예측하는 것이 필수적입니다.
기존 방법의 한계:
- 분자 도킹 (Docking): 고속이지만 정확도가 낮고, 단일 시뮬레이션은 초기 조건에 민감하여 통계적 불확실성이 큽니다.
- 물리 기반 방법 (ESMACS 등): 높은 정확도를 제공하지만 계산 비용이 매우 커 대규모 스크리닝에 적용하기 어렵습니다.
Boltz-2 의 등장: Boltz-2 는 AI 효율성과 물리 기반 정밀도를 결합한 '코-폴딩 (co-folding)' 접근법을 사용하여, 단일 프레임워크 내에서 구조와 결합 친화도를 동시에 예측한다고 주장합니다. 그러나 대규모 데이터셋에 대한 검증과 물리 기반 방법과의 정량적 비교는 부족했습니다.

2. 연구 방법론 (Methodology)

연구팀은 두 가지 대규모 데이터셋을 사용하여 Boltz-2 를 평가했습니다.

데이터셋:
- 3CLPro (SARS-CoV-2 주 프로테아제): 16,780 개의 화합물
- TNKS2 (Tankyrase 2): 21,702 개의 화합물
비교 대상 (Benchmark):
- 구조 예측: 전통적인 분자 도킹 (Docking) 결과 및 X-선 결정 구조와 비교.
- 에너지 예측: 물리 기반 앙상블 시뮬레이션인 ESMACS (Enhanced Sampling of Molecular Dynamics with Approximation of Continuum Solvent) 를 통해 도출된 결합 자유 에너지 ( $\Delta G$ ) 와 비교.
평가 지표:
- 구조적 정확도: RMSD (평균 제곱근 편차), LDDT (국소 거리 차이 테스트).
- 에너지적 정확도: 피어슨 상관계수 (r), 스피어만 순위 상관계수 ( $\rho$ ).
- 심층 분석: Boltz-2 가 선정한 상위 100 개 화합물에 대해 정밀한 ESMACS (FG-ESMACS) 시뮬레이션을 수행하여 상관관계를 재검증했습니다.

3. 주요 결과 (Key Results)

A. 구조 예측의 신뢰성 (Structural Prediction)

단백질 구조: 3CLPro 의 경우 X-선 구조와 매우 유사한 단일 구조를 예측했으나, TNKS2 의 경우 1.0~1.8 Å 범위의 다양한 구조적 변이가 관찰되었습니다.
리간드 결합 자세 (Pose):
- 3CLPro: 많은 리간드가 실험적으로 확인된 결합 부위가 아닌 다른 부위에 결합하는 것으로 예측되었습니다 (RMSD 및 LDDT 값이 높음).
- TNKS2: 대부분의 화합물이 올바른 결합 부위에 위치했으나, 일부는 방향이 잘못되거나 회전된 자세를 예측했습니다.
- 결론: Boltz-2 는 결합 부위를 찾는 능력은 있으나, 리간드의 정확한 방향성 (orientation) 과 국소적 토폴로지를 정밀하게 해결하는 데 한계가 있습니다.
신뢰도 점수 (Confidence Score): 모델이 예측한 신뢰도 점수는 전반적으로 매우 높게 분포 (0.8 이상) 하여, 낮은 신뢰도 예측을 걸러내는 데는 한계가 있었습니다 (과신 현상).

B. 결합 친화도 예측 (Binding Affinity Prediction)

전체 데이터셋 상관관계:
- ESMACS 와 Boltz-2 예측치 간의 상관관계는 약간에서 중간 수준에 그쳤습니다 (TNKS2: r=0.45, 3CLPro: r=0.24).
- Boltz-2 는 대부분의 화합물에 대해 -5~-8 kcal/mol 사이의 좁은 범위로 결합 친화도를 예측하는 '회귀 (regression to the center)' 현상을 보였습니다. 이는 실제 비결합체 (decoys) 와 히트 (hits) 를 구분하는 민감도가 부족함을 의미합니다.
상위 100 개 화합물 분석 (Top-100 Analysis):
- Boltz-2 가 선정한 상위 100 개 화합물과 ESMACS 가 선정한 화합물의 겹침은 극히 적었습니다 (우연히 겹칠 확률보다도 낮음).
- 상관관계 붕괴: 상위 100 개 화합물에 대해 ESMACS 와 Boltz-2 예측치 간의 상관관계는 거의 0 에 수렴했습니다.
- 화학적 구조 오류: Boltz-2 가 예측한 리간드 구조에서 포화도 (saturation) 및 프로톤화 상태의 오류가 발견되었습니다 (예: 포화 고리가 방향족으로 예측되거나, 불포화 결합이 포화되는 등). 이는 결합 에너지 계산의 근본적인 오류로 이어집니다.

4. 주요 기여 및 결론 (Key Contributions & Conclusion)

Boltz-2 의 한계 규명: Boltz-2 는 초기 스크리닝 단계에서 속도가 빠르다는 장점이 있으나, 리드 식별 (Lead Identification) 단계에 필요한 에너지 분해능 (energetic resolution) 이 부족함을 입증했습니다.
물리 기반 방법의 필요성: AI 모델이 학습 데이터의 통계적 패턴에 의존하는 반면, 실제 분자 인식은 비선형적이고 불연속적인 물리 법칙을 따릅니다. 특히 '활동성 절벽 (activity cliff)'과 같은 복잡한 현상을 AI 만으로 예측하는 것은 한계가 있으며, 물리 기반 방법론 (ESMACS 등) 을 통한 검증 및 정제가 필수적임을 강조했습니다.
구조적 오류의 영향: AI 가 생성한 구조의 화학적 정확도 (포화도, 입체화학 등) 가 부정확할 경우, 이를 기반으로 한 에너지 예측은 신뢰할 수 없음을 보여주었습니다.

5. 의의 (Significance)

이 연구는 AI 기반 약물 발견의 현재 상태를 비판적으로 성찰하는 중요한 사례입니다. Boltz-2 와 같은 최신 '기초 모델 (Foundation Model)'이 구조 예측에는 유용할지라도, 결합 친화도 예측과 같은 정량적 의사결정에는 아직 물리 기반 시뮬레이션을 대체할 수 없음을 명확히 보여줍니다. 향후 약물 발견 파이프라인에서는 AI 의 고속 스크리닝 능력과 물리 기반 방법의 정밀한 검증 능력을 상호 보완적으로 결합하는 접근이 필요함을 시사합니다.