How to make the most of your masked language model for protein engineering

Each language version is independently generated for its own context, not a direct translation.

이 논문은 인공지능 (AI) 을 이용해 더 좋은 '항체 (Antibody)' 약물을 만드는 방법에 대한 연구입니다. 항체는 우리 몸의 면역 체계가 세균이나 바이러스를 잡기 위해 만드는 '요정' 같은 단백질인데, 이를 약으로 쓰려면 아주 정교하게 다듬어야 합니다.

이 논문은 "이미 만들어진 AI 모델 (언어 모델) 을 어떻게 쓰면 더 좋은 약을 빨리 찾을 수 있을까?"라는 질문에 답합니다.

핵심 내용을 일상적인 비유로 설명해 드릴게요.

1. 상황: 거대한 도서관과 낡은 지도

상상해 보세요. **거대한 도서관 (단백질 서열의 세계)**이 있습니다. 이 도서관에는 수조 권의 책 (단백질 서열) 이 있는데, 그중에서 정말 좋은 약이 되는 책이 아주 드뭅니다.

우리는 이미 **훌륭한 AI 비서 (언어 모델)**를 하나 가지고 있습니다. 이 비서는 수백만 권의 책을 읽어서 "이런 책들은 보통 괜찮아"라고 감을 잡았습니다. 하지만 문제는 이 비서가 어떻게 '새로운 책'을 추천해 줄지에 대한 방법이 아직 명확하지 않았다는 점입니다.

기존 방법들은 비서에게 "한 글자만 바꿔서 새로운 책 만들어봐"라고 시켰습니다. 하지만 이 방식은 비효율적이었고, 가끔은 완전히 엉망인 책을 만들어내기도 했습니다.

2. 해결책: "한 번에 전체를 훑어보는 스캐닝" (Stochastic Beam Search)

저자들은 새로운 방법을 제안합니다. 한 글자씩 바꾸는 게 아니라, 한 번에 전체 문맥을 보고 "이 책이 얼마나 잘 쓰였는지"를 점수 매겨서 가장 좋은 책들을 골라내는 방식입니다.

비유:
- 기존 방법 (Gibbs Sampling): 요리사가 "소금 좀 더 넣을까? 후추는?" 하며 한 번에 한 가지 재료만 바꿔보는 방식입니다. 시간이 많이 걸리고, 맛없는 요리가 나올 확률이 높습니다.
- 새로운 방법 (Stochastic Beam Search): 요리사가 "이 요리의 전체 맛을 평가해 보자"라고 합니다. 그리고 가장 유망한 5~10 가지 레시피를 동시에 준비해서, 그중에서 가장 맛있는 것만 다음 단계로 넘깁니다.
- 핵심: 이 방법은 AI 가 "한 글자만 바뀐 모든 가능성"을 순식간에 평가할 수 있다는 사실을 이용합니다. 마치 스마트폰 카메라가 여러 장의 사진을 한 번에 찍고 가장 선명한 것만 고르는 것과 같습니다.

3. 실험 결과: "비서의 능력보다 '검색 방법'이 더 중요했다!"

저자들은 이 새로운 방법을 실제 항체 약물 개발 프로젝트에 적용해 보았습니다. 결과는 놀라웠습니다.

모델 vs 방법: "어떤 AI 비서를 쓰느냐"도 중요하지만, "비서를 어떻게 활용하느냐 (검색 방법)"가 훨씬 더 중요했습니다.
성공률: 새로운 검색 방법을 쓰면, 실험실에서 실제로 작동하는 항체를 찾을 확률이 훨씬 높아졌습니다. 특히, 100% 성공을 거둔 경우도 있었습니다.
재미있는 발견: 항체 전문으로 훈련된 AI 가 아니라, 일반적인 단백질 데이터로 훈련된 AI(ESM-2) 를 썼는데도, 새로운 검색 방법을 쓰면 아주 훌륭한 결과를 냈습니다. 즉, 잘못된 도구 (방법) 를 쓰면 좋은 재료 (모델) 도 낭비가 된다는 뜻입니다.

4. 추가 전략: "목표에 맞는 나침반" (Multi-Objective Optimization)

약물을 만들 때 중요한 것은 '효과'뿐만 아니라 '안전성', '만드는 비용', '안정성' 등 여러 가지입니다.

비유: 단순히 "맛있는 음식"만 찾는 게 아니라, "맛있으면서도 칼로리가 낮고, 재료비도 싼" 음식을 찾아야 합니다.
이 논문은 AI 가 여러 목표를 동시에 고려하도록 돕는 **나침반 (가이드)**을 제시했습니다. 예를 들어, "효과가 좋은 것"과 "인체에 안전한 것" 사이에서 균형을 잡는 수학적 방법을 썼습니다.
그 결과, 단순히 좋은 것뿐만 아니라 실제 실험실에서 성공할 확률이 높은 '완벽한 후보'들을 찾아낼 수 있었습니다.

5. 결론: 무엇을 배울 수 있을까?

이 논문의 핵심 메시지는 다음과 같습니다.

방법이 모델보다 중요하다: 아무리 똑똑한 AI 모델을 써도, 그걸 어떻게 활용하느냐 (검색 알고리즘) 가 성공을 좌우합니다.
전체 평가가 빠르고 정확하다: 한 글자씩 바꾸는 게 아니라, 전체를 점수화해서 고르는 방식이 훨씬 효율적입니다.
현실적인 목표 설정: AI 가 만들어낸 후보들을 실험실로 보내기 전에, "만들 수 있는가?", "안전한가?"를 함께 고려해야 실패를 줄일 수 있습니다.

한 줄 요약:

"더 좋은 항체 약을 만들기 위해, AI 비서에게 "한 글자씩 바꿔봐"라고 시키는 대신, **"전체적인 맛을 보고 가장 유망한 레시피 10 가지를 동시에 골라내라"**라고 지시하는 것이 훨씬 빠르고 성공적입니다."

이 연구는 앞으로 신약 개발 속도를 획기적으로 높여줄 수 있는 중요한 '나침반'이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

최근 다양한 단백질 언어 모델 (Protein Language Models, PLMs) 이 출시되었으나, 이를 원하는 생물학적 특성을 최적화하기 위해 어떻게 가장 효과적으로 샘플링 (샘플링) 해야 하는지에 대한 연구는 상대적으로 부족합니다. 특히 항체 치료제 개발과 같은 실제 캠페인에서는 다음과 같은 한계가 존재합니다.

기존 샘플링 방법의 비효율성: 기존 단백질 최적화를 위한 MLM(마스킹 언어 모델) 샘플링 알고리즘은 대부분 '돌연변이 중심 (mutation-centric)' 접근법 (예: Gibbs 샘플링, 디노이징 샘플링) 을 사용합니다. 이는 시퀀스의 특정 위치를 마스킹하고 순차적으로 복원하는 방식으로, 계산 비용이 높고 ( $O(EL^3)$ ), 비현실적이거나 기능이 없는 시퀀스를 생성할 가능성이 높습니다.
다중 목적 최적화의 어려움: 결합 친화도, 발현성, 안정성 등 추가적인 스코어링 함수 (Scoring Functions) 를 활용하여 모델을 유도 (Guidance) 하려는 시도가 있으나, 기존 방법은 미분 불가능한 함수를 처리하거나 부분적으로 마스킹된 시퀀스를 입력으로 요구하는 등 제약이 많습니다.
평가 부재: 샘플링 알고리즘의 성능을 체계적으로 평가한 연구가 거의 없으며, 모델 선택보다 샘플링 방법의 선택이 실제 성능에 더 큰 영향을 미칠 수 있음에도 불구하고 이 분야는 충분히 탐구되지 않았습니다.

2. 방법론 (Methodology)

저자들은 시퀀스 중심 (Sequence-centric) 접근법을 제안하여 기존 한계를 극복했습니다.

가. 확률적 빔 서치 (Stochastic Beam Search, SBS) 활용

핵심 아이디어: MLM 에 돌연변이를 생성하도록 요청하는 대신, MLM 을 통해 전체 시퀀스의 의사-로그-가능도 (Pseudo-Log-Likelihood, PLL) 를 평가하여 탐색 문제로 변환합니다.
계산 효율성: 전체 시퀀스의 PLL 을 계산하는 것은 비용이 많이 들지만, 한 번 계산된 PLL 을 기반으로 단일 치환 (1-edit) 이웃 시퀀스들의 PLL 을 근사적으로 매우 빠르게 계산할 수 있습니다.
- 기존 돌연변이 중심 방식: $O(L^3)$ (각 위치마다 전방향 통과 필요)
- 제안된 방식: $O(L^2)$ (와일드타입 마진 근사법 활용)
- 결과: 기존 방법 대비 $20EL$ 배의 속도 향상.
다양성 확보: 빔 서치에 구름블 노이즈 (Gumbel noise) 를 추가하여 시퀀스 가능성과 다양성 사이의 균형을 맞춥니다.

나. 무기울기 (Gradient-Free) 다중 목적 최적화 (MOO)

제안된 프레임워크는 MLM 과 추가 스코어링 함수를 모두 '블랙박스'로 취급합니다.
Smooth Tchebycheff Scalarization (STS) 및 Pareto 비우세 정렬 (NDS) 을 사용하여 여러 목적 함수 (예: 결합력, 발현성, 인간성 등) 를 동시에 최적화합니다.
이 방식은 미분 가능한 함수뿐만 아니라 OASis 퍼센타일 (면역원성 위험 점수) 이나 등전점 (pI) 과 같은 비미분 가능하고 완전한 시퀀스가 필요한 스코어에도 적용 가능합니다.

3. 주요 기여 (Key Contributions)

새로운 샘플링 알고리즘 제안: 단백질 엔지니어링을 위한 효율적이고 유연한 확률적 빔 서치 (SBS) 방법론을 제안했습니다. 이는 전체 시퀀스 평가를 기반으로 하여 계산 효율성과 생성 품질을 동시에 달성합니다.
체계적인 실험 평가:
- In silico (컴퓨터 시뮬레이션): 9 개의 MLM 과 3 개의 CLM 을 다양한 샘플링 알고리즘과 결합하여 평가했습니다.
- In vitro (실험실 검증): 실제 항체 치료제 개발 캠페인 (Fab 및 scFv) 에서 13 가지 방법론을 비교 평가했습니다. 이는 단백질 생성 모델 연구에서 드문 실제 실험 데이터 (Wet-lab validation) 기반의 벤치마크입니다.
새로운 통찰 도출: 모델의 선택보다 샘플링 알고리즘의 선택이 성능에 더 큰 영향을 미칠 수 있음을 입증했습니다. 또한, 일반 단백질로 훈련된 모델 (ESM-2) 이도 항체 최적화에 매우 효과적임을 보였습니다.

4. 실험 결과 (Results)

가. In silico 결과

모델 성능: AbLang-2(항체 특화) 와 ESM-2-650M(일반 단백질) 이 다양한 기준에서 우수한 성능을 보였습니다.
샘플링 비교: 제안된 빔 서치가 Gibbs 샘플링보다 예측된 합성 가능성 (Synthesizability) 과 다양성 측면에서 우위를 점했습니다.

나. In vitro 결과 (실제 실험)

성공률: 제안된 빔 서치 방법은 Gibbs 샘플링을 사용한 모든 모델 (Sapiens, ESM2, AbLang2) 에서 더 높은 성공률 (합성 및 결합 QC 통과) 을 기록했습니다.
지도 학습 (Supervision) 의 효과:
- 학습된 분류 모델을 사용하여 생성된 시퀀스를 필터링하거나 순위를 매기면 성공률이 크게 향상되었습니다.
- 특히 STS 기반 다중 목적 최적화 (STS MOO Guidance) 를 적용한 AbLang2 모델은 100% 의 성공률을 달성했습니다.
결합 친화도: 성공률이 높은 방법들은 성공한 항체들의 결합 친화도 (KD) 도 더 높았습니다.
발현량 (Yield): 유도 (Guidance) 방법을 사용하면 발현량의 분산이 줄어들고, 특히 고수준 발현을 보이는 시퀀스가 증가했습니다.
기타 발견:
- AbLang2 는 인간 항체 데이터로 훈련되었음에도 '인간성 (Humanness)'이 낮게 나왔으며, ESM-2 는 항체 데이터로 훈련되지 않았음에도 높은 인간성을 보였습니다.
- Gibbs-argmax 는 Sapiens 모델에서 높은 발현성 bias 를 보였으나, Gibbs 샘플링은 모델의 선호도와 일치하지 않는 시퀀스를 생성하는 경향이 있었습니다.

5. 의의 및 결론 (Significance & Conclusion)

이 논문은 단백질 언어 모델을 활용한 치료제 개발에서 샘플링 전략의 중요성을 부각시켰습니다.

실용적 권고사항:
1. 라벨 데이터가 가능하다면 지도 학습 (Supervision) 을 순위 매김 및 유도 (Guidance) 에 반드시 활용해야 합니다.
2. 항체 엔지니어링에는 ESM-2-650M 또는 AbLang-2 모델이 적합합니다.
3. 기존 Gibbs 기반 샘플링 대신 제안된 확률적 빔 서치 (Stochastic Beam Search) 를 사용해야 합니다.
4. 다중 목적 최적화 시 Smooth Tchebycheff Scalarization (STS) 이 Pareto 정렬보다 더 나은 결과를 제공할 수 있습니다.
5. 지도 학습 기반 유도 시 원치 않는 부작용 (예: 인간성 저하) 이 발생할 수 있으므로 주의가 필요합니다.

결론적으로, 이 연구는 단백질 설계 분야에서 모델 아키텍처의 발전만큼이나 효율적이고 지능적인 샘플링 알고리즘의 개발이 필수적임을 증명하며, 실제 의약품 개발 파이프라인에 즉시 적용 가능한 방법론을 제시했습니다.