A Generative Neuro-Symbolic AI for Protein Sequence Design

⚕️

이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"EffieDes"**라는 새로운 인공지능(AI) 시스템을 소개합니다. 이 시스템은 단백질을 설계하는 방식을 완전히 바꿔놓았습니다.

단백질 설계란, 마치 레고 블록으로 복잡한 구조물을 만드는 것과 같습니다. 우리는 원하는 모양 (구조) 을 먼저 정하고, 그 모양을 유지할 수 있는 가장 적합한 블록 (아미노산) 순서를 찾아야 합니다.

기존의 AI 들은 이 일을 할 때 "한 번에 하나씩" 블록을 끼워 넣는 방식 (자동 회귀 방식) 을 썼습니다. 마치 글을 쓸 때 "다음 단어는 뭐가 올까?"라고 생각하며 한 글자씩 타이핑하는 것과 비슷합니다. 이 방식은 빠르지만, **"먼 미래를 내다보지 못한다"**는 치명적인 단점이 있습니다.

EffieDes는 이 문제를 해결하기 위해 **"생각하는 AI(신경망)"**와 **"논리적으로 추론하는 AI(상징적 AI)"**를 합친 혼합형 (Neuro-Symbolic) 시스템을 개발했습니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드리겠습니다.

1. 기존 방식의 문제점: "실수한 후 후회하는 건축가"

기존의 AI (예: ProteinMPNN) 는 한 번에 하나씩 블록을 쌓는 건축가와 같습니다.

상황: 100 층짜리 빌딩을 짓는데, 1 층 블록을 고를 때 "지금 가장 잘 어울리는 블록"을 고릅니다.
문제: 1 층을 너무 잘 고른 줄 알았는데, 50 층을 지어보니 1 층 블록 때문에 50 층이 무너질 수 있다는 걸 깨닫습니다. 하지만 이미 1 층은 다 쌓아놓은 상태라 되돌릴 수 없습니다.
결과: 전체 구조가 불안정해지거나, 원하는 기능 (예: 특정 바이러스를 잡는 능력) 을 발휘하지 못합니다. 이를 논문에서는 **"앞을 내다보지 못함 (lack of 'think ahead')"**이라고 표현합니다.

2. EffieDes 의 혁신: "전체 청사진을 보는 마스터 건축가"

EffieDes 는 전체 빌딩의 청사진을 한눈에 보며 최적의 블록 조합을 계산하는 마스터 건축가입니다.

두 가지 능력의 결합:
1. 신경망 (EffieNN): 수많은 빌딩 (단백질 구조) 을 보고 "어떤 블록이 어디에 있으면 튼튼할까?"에 대한 **직관 (경험)**을 배웁니다.
2. 자동 추론 (toulbar2): 그 직관을 바탕으로 수학적 논리를 사용해, "이 블록을 여기에 쓰면 저 블록이 안 쓰여야 하고, 동시에 A 조건과 B 조건도 만족해야 한다"는 복잡한 제약 조건을 한 번에 해결합니다.
비유:
- 기존 방식은 주사위를 굴려서 블록을 쌓는다면, EffieDes 는 모든 경우의 수를 계산해서 "이 조합이 가장 완벽하다!"라고 확신하는 블록을 선택합니다.
- 마치 스도쿠를 풀 때, 한 칸을 채운 후 다른 칸이 막히면 다시 돌아가서 고치는 것이 아니라, 처음부터 전체 규칙을 고려해 정답을 찾아내는 것과 같습니다.

3. 실제 성과: "어둠 속의 보물 찾기"

이 시스템이 얼마나 강력한지 두 가지 실험으로 증명했습니다.

A. 서로 다른 두 친구가 오직 서로만 만나게 하기 (BMC-H 단백질)

목표: 두 종류의 단백질 (A 와 B) 이 만들어졌을 때, A 는 A 와, B 는 B 와는 만나지 않고 오직 A 와 B 만 만나서 하나의 완벽한 6 각형 구조를 이루게 하려는 것입니다. (자연계에서는 같은 종류끼리만 모이는 경우가 대부분이라 매우 어렵습니다.)
결과: 기존 AI 는 A 와 B 가 서로 만나기보다 자기들끼리 뭉치는 실수를 많이 했습니다. 하지만 EffieDes 는 논리적 제약을 적용해, A 와 B 가 서로만 만나도록 설계한 단백질 14 개 중 **12 개 (86%)**가 실험실에서 완벽하게 작동했습니다. (기존 방식은 20% 만 성공)

B. 변이 바이러스를 잡는 새로운 나노바디 (SARS-CoV-2)

목표: 코로나바이러스의 새로운 변이 (XBB.1.16) 에만 딱 맞는 '나노바디 (작은 항체)'를 새로 설계하는 것입니다. 기존에 있던 항체는 이 변이를 잡지 못했습니다.
방법: 완전히 새로운 모양 (Backbone) 을 만들어낸 뒤, EffieDes 가 그 모양에 맞는 최적의 아미노산 순서를 찾아냈습니다.
결과: 9 개의 후보 중 EffieDes 가 설계한 1 개만 실험실에서 변이 바이러스를 잡았습니다. 게다가 기존 항체보다 더 강력하게 (높은 친화력) 잡았으며, 인간 세포 수용체 (ACE2) 와의 결합을 막는 능력도 뛰어났습니다.

4. 왜 이것이 중요한가요?

이 연구는 **"데이터가 없는 상황에서도 창의적인 설계가 가능하다"**는 것을 보여줍니다.

기존 AI: "내가 본 데이터 (자연계에 있는 단백질) 와 비슷한 것"만 만들어냅니다. 새로운 것을 만들려면 더 많은 데이터를 학습시켜야 합니다.
EffieDes: "논리"와 "물리 법칙"을 결합했기 때문에, 자연계에 존재하지 않는 완전히 새로운 설계도 가능합니다. 마치 "자연에 없는 새로운 레고 조합"을 만들어낼 수 있는 것입니다.

요약

이 논문은 단백질 설계라는 어려운 퍼즐을 풀 때, **"한 번에 하나씩 찍어맞추는 방식"**에서 **"전체 그림을 보고 논리적으로 최적해를 찾는 방식"**으로 전환해야 한다고 주장합니다.

EffieDes는 이 새로운 방식을 통해, 자연계에 없던 새로운 기능을 가진 단백질을 빠르고 정확하게 설계할 수 있게 해주었습니다. 이는 향후 새로운 백신 개발, 정밀 의약품, 환경 정화 효소 등을 만드는 데 혁신적인 도구가 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem)

기존 방법론의 한계: 현재 최첨단 단백질 역접힘 (Inverse Folding) 도구들은 대부분 자기회귀적 (Auto-regressive) 샘플링 (예: ProteinMPNN) 에 의존합니다. 이는 "다음 토큰 예측 (Next-Token Prediction)" 방식으로, 서열을 한 번에 하나씩 생성합니다.
핵심 결함: 이러한 방식은 선제적 사고 (Thinking ahead) 능력이 부족합니다. 단백질의 기능은 국소적인 상호작용뿐만 아니라 멀리 떨어진 잔기들 간의 복잡한 장기 의존성 (Long-range inter-residue dependencies) 에 의해 결정되는데, 자기회귀 모델은 초기 선택이 나중의 중요한 상호작용 (예: 수소 결합 네트워크) 을 방해할 수 있음에도 불구하고 이를 되돌아보지 못하고 (Backtracking 불가), 국소 최적해 (Local Minima) 에 갇히기 쉽습니다.
제약 조건 적용의 어려움: 기능적 단백질 설계에서는 특정 모티프 보존, 아미노산 구성 제한, 대칭성, 다중 상태 (Multi-state) 설계 등 복잡한 제약 조건이 필요합니다. 자기회귀 모델은 이러한 전역적 제약을 적용하기 위해 모델을 재학습하거나 확률 분포를 임의로 조작해야 하며, 이는 서열의 유효성을 보장하지 못합니다.

2. 방법론 (Methodology)

EffieDes 는 딥러닝의 예측 능력과 자동 추론 (Automated Reasoning) 의 논리적 정밀도를 결합한 신경 - 상징적 (Neuro-Symbolic) 접근법을 사용합니다.

A. EffieNN (신경망 구성 요소)

입력: 목표 단백질의 백본 (Backbone) 3D 구조.
출력: 특정 백본에 대한 적합도 지형 (Fitness Landscape) 을 인코딩한 Potts 모델 (Effie).
작동 원리:
- SE(3) 불변의 백본 특징을 추출하여 잔기 쌍 $(i, j)$ 간의 상호작용 점수 $E_{ij}$ 를 예측합니다.
- 이는 전체 서열의 에너지 점수 $E(s|B)$ 를 pairwise 항의 합으로 분해하여 정의합니다: $E(s|B) = \sum_{i<j} E_{ij}(s_i, s_j|B)$ .
- E-PLL (Enhanced Pseudo-Log-Likelihood) 손실 함수를 사용하여 훈련함으로써, 기존 PLL 이 처리하기 어려웠던 높은 에너지 (불리한 상호작용) 항을 정확하게 학습합니다.
- Rosetta 나 Osprey 와 같은 물리 기반 설계 도구와 호환되는 수학적 형태를 가집니다.

B. toulbar2 (상징적 추론 구성 요소)

최적화 엔진: 학습된 Potts 모델을 기반으로 최대 사후 확률 (Maximum A Posteriori, MAP) 문제를 해결합니다.
알고리즘:
- 정확한 최적화 (Exact Optimization): 복잡한 제약 조건 하에서 최적의 서열을 보장합니다.
- LR-BCD (Low-Rank Convex Relaxation): 대규모 문제에 대해 확장성을 확보하면서도 유한 시간 내 최적화 보장을 제공합니다.
- 제약 조건 통합: 아미노산 구성, 구조적 대칭성, 다중 상태 설계 (Positive/Negative design) 등을 재학습 없이 전역 최적화 과정에 직접 논리적 제약으로 추가할 수 있습니다.

3. 주요 기여 및 성과 (Key Contributions & Results)

A. 고품질 서열 예측 및 자연 서열 회복 (NSR)

EffieDes 는 단일 체인 단백질의 자연 서열 회복률 (NSR) 에서 Rosetta(17.9%) 및 기존 딥러닝 기반 Potts 모델들을 능가하는 **33.0%**의 성능을 보였습니다.
AlphaFold 를 이용한 구조 예측 신뢰도 (pLDDT) 에서도 자연 서열보다 높은 점수를 기록하여, EffieDes 가 구조 정보를 더 효과적으로 인코딩함을 입증했습니다.

B. 복잡한 제약 조건 하의 "Zero-Shot" 설계

제한된 아미노산 집합 설계: 자연계에 존재하지 않는 5~7 가지 아미노산만으로 구성된 RNA 중합효소의 이중 $\psi$ - $\beta$ -배럴 (DPBB) 구조를 성공적으로 재설계했습니다. 이는 훈련 데이터에 없는 분포 (Out-of-Distribution) 에 대한 일반화 능력을 보여줍니다.
자기회귀 모델은 이러한 엄격한 제약을 처리하기 어렵지만, EffieDes 는 논리적 제약만 추가하면 재학습 없이 해결했습니다.

C. 대칭적 다중 구성 요소 어셈블리 설계 (BMC-H 단백질)

문제: 동일한 폴드를 가지지만 이종 헥사머 (AB) 로만 자가 조립되도록 설계해야 하며, 동종 헥사머 (AA, BB) 형성은 억제해야 하는 부정 설계 (Negative Design) 문제.
결과: EffieDes 는 ProteinMPNN 대비 실험적 성공률이 훨씬 높았습니다.
- 실험 검증: EffieDes 로 설계된 14 개 중 12 개 (86%) 가 형광 신호를 보인 반면, ProteinMPNN 은 10 개 중 2 개 (20%) 에 불과했습니다.
- EffieDes 는 대칭성과 부정 설계를 동시에 만족하는 서열을 찾았으며, 이는 자기회귀 모델이 강한 조건 하에서 샘플링 과정에서 실패함을 시사합니다.

D. De Novo 백본을 이용한 나노바디 설계 (SARS-CoV-2)

목표: Wuhan 균주에 결합하던 MR17 나노바디를 변이된 XBB.1.16 균주에 결합하도록 재설계.
과정: RFdiffusion 으로 새로운 CDR 루프 백본을 생성한 후, EffieDes 를 통해 서열을 최적화했습니다.
결과:
- 9 개 후보 중 EffieDes 로 설계된 NbRM-E1만이 XBB.1.16 에 결합했습니다.
- 친화도: $K_D = 64$ nM (기존 MR17 의 83.7 nM 보다 우수).
- 선택성: Delta 변이에는 결합하지 않고 XBB.1.16 에만 선택적으로 결합하며, ACE2 수용체 결합을 차단합니다.

4. 의의 및 결론 (Significance)

패러다임의 전환: 단백질 설계에서 "그리디한 (Greedy) 국소 탐색"에서 전역 최적화 (Global Optimization) 로의 전환을 가능하게 했습니다. 이는 단백질의 장기적 상호작용을 고려하여 더 복잡하고 정교한 기능을 가진 단백질을 설계하는 데 필수적입니다.
데이터 효율성과 일반화: 신경 - 상징적 접근법은 Potts 모델의 물리적 인덕티브 바이어스 (Inductive Bias) 를 활용하여, 훈련 데이터가 부족하거나 존재하지 않는 영역 (예: 새로운 CDR 구조, 제한된 아미노산 집합) 에서도 우수한 일반화 능력을 보입니다.
유연한 제약 조건 처리: 재학습 없이도 복잡한 기능적 목표 (대칭성, 다중 상태, 특정 모티프 등) 를 논리적 제약으로 직접 주입할 수 있어, 실험적 검증이 필요한 "어두운 서열 공간 (Dark Sequence Space)"을 탐색하는 강력한 도구가 됩니다.
실용적 검증: 계산적 예측뿐만 아니라, BMC-H 단백질의 자가 조립 및 SARS-CoV-2 변이체 표적 나노바디 설계 등 실제 실험을 통해 높은 성공률을 입증하여, 이론적 우위가 실제 기능성 분자 개발로 이어질 수 있음을 증명했습니다.

요약하자면, EffieDes 는 딥러닝의 예측력과 논리적 추론의 엄밀함을 결합하여, 기존 AI 기반 단백질 설계가 풀지 못했던 복잡한 제약 조건과 장기 의존성 문제를 해결하고, 실제 실험에서 검증된 고성능 단백질을 설계할 수 있는 새로운 표준을 제시합니다.