On the Reliability of AI Methods in Drug Discovery: Evaluation of Boltz-2 for Structure and Binding Affinity Prediction

본 논문은 신약 개발 분야에서 AI 기반 도구인 Boltz-2 의 신뢰성을 평가한 결과, 초기 스크리닝 속도는 빠르지만 결합 친화도 예측의 에너지적 정밀도가 부족하여 리드 화합물 식별에는 물리 기반 방법의 보완이 필수적임을 밝혔습니다.

Shunzhou Wan, Xibei Zhang, Xiao Xue, Peter V. Coveney

게시일 Mon, 09 Ma
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍳 1. 배경: "요리사"와 "지도"의 대결

신약 개발은 마치 새로운 요리를 개발하는 과정과 같습니다.

  • 목표: 특정 질병을 치료하는 '열쇠' (약물) 를 찾아서, 몸속의 '자물쇠' (단백질) 에 정확히 꽂는 것입니다.
  • 전통적인 방법 (물리 기반 시뮬레이션): 자물쇠와 열쇠의 모양, 무게, 마찰력 등을 정밀하게 계산하는 정밀한 공학자 같은 방식입니다. 매우 정확하지만, 계산하는 데 시간이 너무 오래 걸려서 수만 개의 후보를 한 번에 테스트하기 어렵습니다.
  • 새로운 AI 방법 (Boltz-2): 수만 권의 요리책과 레시피를 학습한 천재 요리사입니다. 순식간에 "이 재료를 섞으면 맛이 날 것 같다"고 예측합니다. 매우 빠르지만, 그 예측이 실제로 입맛에 맞는지 (약효가 있는지) 검증이 필요합니다.

이 연구는 이 **천재 요리사 (Boltz-2)**가 실제로 얼마나 요리를 잘하는지, 그리고 그 예측이 **정밀 공학자 (ESMACS)**의 계산과 얼마나 일치하는지 확인해 보았습니다.


🔍 2. 실험 내용: 두 가지 목표 단백질로 테스트

연구진은 두 가지 다른 '자물쇠' (단백질) 를 대상으로 3 만 개 이상의 '열쇠' (후보 약물) 를 테스트했습니다.

  1. 코로나 바이러스 단백질 (3CLPro): 자물쇠 구멍이 넓고 모양이 애매한 경우.
  2. 암 치료 단백질 (TNKS2): 자물쇠 구멍이 좁고 명확한 경우.

연구진은 AI 가 예측한 **약물 위치 (구조)**와 **약효 (결합 에너지)**를 전통적인 방법으로 계산한 결과와 비교했습니다.


⚠️ 3. 주요 발견: AI 의 실수들 (비유로 설명)

① "자물쇠 구멍"을 잘못 찾았다 (구조 예측의 문제)

  • 상황: AI 는 약물이 자물쇠 구멍에 꽂히는 모습을 예측했습니다.
  • 결과:
    • TNKS2 (좁은 구멍): 대부분 제자리에 꽂혔습니다.
    • 3CLPro (넓은 구멍): AI 는 약물이 자물쇠 구멍이 아닌, 벽이나 천장에 붙어 있는 것처럼 엉뚱한 곳에 꽂히는 예측을 많이 했습니다.
    • 비유: 마치 "이 열쇠는 문에 꽂혀야 하는데, AI 는 열쇠를 문고리 옆 벽에 꽂아라"라고 지시하는 것과 같습니다.

② "맛"을 못 구분했다 (약효 예측의 문제)

  • 상황: AI 는 "이 약이 얼마나 잘 붙을지 (결합 친화도)" 점수를 매겼습니다.
  • 결과: AI 는 **약한 약이나 강한 약이나 모두 비슷하게 "꽤 잘 붙을 것 같다" (-5~-8 kcal/mol)**라고 점수를 매겼습니다.
    • 비유: 요리사가 "이 요리는 다 맛있어요"라고 말하지만, 실제로는 소금 없는 국진한 스프를 구분하지 못하는 상황입니다. 진짜 맛있는 요리 (효과적인 약물) 를 골라내는 데는 실패했습니다.

③ "화학 구조"를 잘못 그렸다 (분자 구조의 오류)

  • 상황: AI 가 예측한 분자 구조를 자세히 보니, 원자 사이의 연결 방식이 실제와 달랐습니다.
    • 예시: 고리 모양의 분자가 있어야 할 곳에 AI 는 고리를 너무 많이 뚫거나 (불포화), 반대로 고리를 채워버려서 (포화) 실제 화학 성질을 잃어버린 구조를 만들었습니다.
    • 비유: 요리사가 레시피를 읽다가 "설탕 1 큰술"을 "소금 1 큰술"로 잘못 읽거나, 식재료를 반으로 잘라버리는 실수를 한 것과 같습니다.

④ "최고 100 개"도 실패했다

  • 상황: AI 가 "이 100 개가 최고야!"라고 추천한 약물들을 다시 정밀하게 계산해 보았습니다.
  • 결과: AI 가 추천한 순서와 실제 정밀 계산 결과 사이에는 전혀 상관관계가 없었습니다.
    • 비유: AI 가 "이 100 명 중 1 등, 2 등, 3 등"을 뽑아주었는데, 실제로는 100 등부터 1 등까지 완전히 뒤죽박죽이었습니다.

💡 4. 결론: AI 는 '초고속 스크리너'일 뿐, '최종 심사관'은 아니다

이 연구의 결론은 다음과 같습니다.

  1. 속도는 좋지만, 정밀도는 부족합니다: AI 는 수만 개의 약물을 순식간에 훑어볼 수 있어 초기 후보를 걸러내는 (스크리닝) 데는 유용합니다.
  2. 하지만 신뢰할 수 없습니다: "이 약이 정말 효과가 있을까?"를 판단하는 최종 결정 단계에서는 AI 의 예측이 너무 부정확합니다. 물리 법칙을 기반으로 한 전통적인 계산 방법이 여전히 필요합니다.
  3. 왜 그럴까요? AI 는 방대한 데이터를 보고 "패턴"을 학습했지만, 분자 세계의 복잡한 **물리 법칙 (에너지, 힘, 전자 이동 등)**을 완전히 이해하지는 못합니다. 마치 "비행기가 날아다니는 사진"만 수만 장 보고 비행기를 만든다고 해서, 실제로 비행기가 날 수 있는 공기역학 원리를 이해하는 것은 아닙니다.

🚀 요약

"Boltz-2 같은 최신 AI 는 신약 개발의 '스피드'를 높여주지만, '정확함'을 보장하지는 못합니다. 따라서 AI 가 찾아낸 후보들을 최종적으로 검증하려면, 여전히 정밀한 물리 기반 계산 (과학적 검증) 이 필수적입니다."

이 연구는 AI 기술이 발전했음에도 불구하고, **과학적 엄밀함 (물리 법칙)**을 대체할 수는 없음을 다시 한번 일깨워줍니다.