How to make the most of your masked language model for protein engineering

이 논문은 가변 언어 모델 (MLM) 을 활용한 단백질 공학을 위해 확률적 빔 서치를 제안하고, 항체 치료제 개발을 위한 대규모 실험을 통해 샘플링 방법의 선택이 모델 선택만큼이나 중요함을 입증했습니다.

Calvin McCarter, Nick Bhattacharya, Sebastian W. Ober, Hunter Elliott

게시일 Thu, 12 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 인공지능 (AI) 을 이용해 더 좋은 '항체 (Antibody)' 약물을 만드는 방법에 대한 연구입니다. 항체는 우리 몸의 면역 체계가 세균이나 바이러스를 잡기 위해 만드는 '요정' 같은 단백질인데, 이를 약으로 쓰려면 아주 정교하게 다듬어야 합니다.

이 논문은 "이미 만들어진 AI 모델 (언어 모델) 을 어떻게 쓰면 더 좋은 약을 빨리 찾을 수 있을까?"라는 질문에 답합니다.

핵심 내용을 일상적인 비유로 설명해 드릴게요.


1. 상황: 거대한 도서관과 낡은 지도

상상해 보세요. **거대한 도서관 (단백질 서열의 세계)**이 있습니다. 이 도서관에는 수조 권의 책 (단백질 서열) 이 있는데, 그중에서 정말 좋은 약이 되는 책이 아주 드뭅니다.

우리는 이미 **훌륭한 AI 비서 (언어 모델)**를 하나 가지고 있습니다. 이 비서는 수백만 권의 책을 읽어서 "이런 책들은 보통 괜찮아"라고 감을 잡았습니다. 하지만 문제는 이 비서가 어떻게 '새로운 책'을 추천해 줄지에 대한 방법이 아직 명확하지 않았다는 점입니다.

기존 방법들은 비서에게 "한 글자만 바꿔서 새로운 책 만들어봐"라고 시켰습니다. 하지만 이 방식은 비효율적이었고, 가끔은 완전히 엉망인 책을 만들어내기도 했습니다.

2. 해결책: "한 번에 전체를 훑어보는 스캐닝" (Stochastic Beam Search)

저자들은 새로운 방법을 제안합니다. 한 글자씩 바꾸는 게 아니라, 한 번에 전체 문맥을 보고 "이 책이 얼마나 잘 쓰였는지"를 점수 매겨서 가장 좋은 책들을 골라내는 방식입니다.

  • 비유:
    • 기존 방법 (Gibbs Sampling): 요리사가 "소금 좀 더 넣을까? 후추는?" 하며 한 번에 한 가지 재료만 바꿔보는 방식입니다. 시간이 많이 걸리고, 맛없는 요리가 나올 확률이 높습니다.
    • 새로운 방법 (Stochastic Beam Search): 요리사가 "이 요리의 전체 맛을 평가해 보자"라고 합니다. 그리고 가장 유망한 5~10 가지 레시피를 동시에 준비해서, 그중에서 가장 맛있는 것만 다음 단계로 넘깁니다.
    • 핵심: 이 방법은 AI 가 "한 글자만 바뀐 모든 가능성"을 순식간에 평가할 수 있다는 사실을 이용합니다. 마치 스마트폰 카메라가 여러 장의 사진을 한 번에 찍고 가장 선명한 것만 고르는 것과 같습니다.

3. 실험 결과: "비서의 능력보다 '검색 방법'이 더 중요했다!"

저자들은 이 새로운 방법을 실제 항체 약물 개발 프로젝트에 적용해 보았습니다. 결과는 놀라웠습니다.

  • 모델 vs 방법: "어떤 AI 비서를 쓰느냐"도 중요하지만, "비서를 어떻게 활용하느냐 (검색 방법)"가 훨씬 더 중요했습니다.
  • 성공률: 새로운 검색 방법을 쓰면, 실험실에서 실제로 작동하는 항체를 찾을 확률이 훨씬 높아졌습니다. 특히, 100% 성공을 거둔 경우도 있었습니다.
  • 재미있는 발견: 항체 전문으로 훈련된 AI 가 아니라, 일반적인 단백질 데이터로 훈련된 AI(ESM-2) 를 썼는데도, 새로운 검색 방법을 쓰면 아주 훌륭한 결과를 냈습니다. 즉, 잘못된 도구 (방법) 를 쓰면 좋은 재료 (모델) 도 낭비가 된다는 뜻입니다.

4. 추가 전략: "목표에 맞는 나침반" (Multi-Objective Optimization)

약물을 만들 때 중요한 것은 '효과'뿐만 아니라 '안전성', '만드는 비용', '안정성' 등 여러 가지입니다.

  • 비유: 단순히 "맛있는 음식"만 찾는 게 아니라, "맛있으면서도 칼로리가 낮고, 재료비도 싼" 음식을 찾아야 합니다.
  • 이 논문은 AI 가 여러 목표를 동시에 고려하도록 돕는 **나침반 (가이드)**을 제시했습니다. 예를 들어, "효과가 좋은 것"과 "인체에 안전한 것" 사이에서 균형을 잡는 수학적 방법을 썼습니다.
  • 그 결과, 단순히 좋은 것뿐만 아니라 실제 실험실에서 성공할 확률이 높은 '완벽한 후보'들을 찾아낼 수 있었습니다.

5. 결론: 무엇을 배울 수 있을까?

이 논문의 핵심 메시지는 다음과 같습니다.

  1. 방법이 모델보다 중요하다: 아무리 똑똑한 AI 모델을 써도, 그걸 어떻게 활용하느냐 (검색 알고리즘) 가 성공을 좌우합니다.
  2. 전체 평가가 빠르고 정확하다: 한 글자씩 바꾸는 게 아니라, 전체를 점수화해서 고르는 방식이 훨씬 효율적입니다.
  3. 현실적인 목표 설정: AI 가 만들어낸 후보들을 실험실로 보내기 전에, "만들 수 있는가?", "안전한가?"를 함께 고려해야 실패를 줄일 수 있습니다.

한 줄 요약:

"더 좋은 항체 약을 만들기 위해, AI 비서에게 "한 글자씩 바꿔봐"라고 시키는 대신, **"전체적인 맛을 보고 가장 유망한 레시피 10 가지를 동시에 골라내라"**라고 지시하는 것이 훨씬 빠르고 성공적입니다."

이 연구는 앞으로 신약 개발 속도를 획기적으로 높여줄 수 있는 중요한 '나침반'이 될 것입니다.