pertTF: context-aware AI modeling for genome-scale and cross-system perturbation prediction
본 논문은 인간 췌장 발달 및 베타 세포 분화 과정의 30 개 유전자 녹아웃 데이터를 기반으로 학습된 트랜스포머 기반 AI 모델 'pertTF'를 제시하여, 기존 방법론을 능가하는 미관측 유전자 및 세포 환경에서의 유전자 변이 효과와 세포 정체성 변화를 정확하게 예측하고 다양한 생리학적 및 질병 맥락으로 확장 적용할 수 있음을 입증했습니다.
Su, Y., Liu, D., Menon, V., Song, B., Boccara, S., Zhang, N., Zhao, H., Zhao, J. H., Wang, L., Hu, N., Nzima, M., Katz, A., Swargam, B. K., Ament, S. A., Diao, Y., Zhang, H., Chao, L., Hon, G., HuangfSu, Y., Liu, D., Menon, V., Song, B., Boccara, S., Zhang, N., Zhao, H., Zhao, J. H., Wang, L., Hu, N., Nzima, M., Katz, A., Swargam, B. K., Ament, S. A., Diao, Y., Zhang, H., Chao, L., Hon, G., Huangfu, D., Li, W.
이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기
Each language version is independently generated for its own context, not a direct translation.
🍳 1. 문제 상황: 실험실의 한계
지금까지 과학자들은 유전자를 끄거나 (Knockout) 켜서 세포가 어떻게 변하는지 확인하기 위해 직접 실험을 해야 했습니다. 하지만 이는 마치 매번 새로운 요리를 해보지 않고는 맛이 어떻게 날지 알 수 없는 상황과 같습니다.
시간과 비용: 실험은 너무 비싸고 느립니다.
한계: 인간 장기의 실제 세포 (예: 췌장 세포) 는 실험실에서 다루기 매우 어렵습니다.
복잡성: 유전자 조합이 너무 많아서 모든 경우를 실험해 볼 수 없습니다.
🤖 2. 해결책: pertTF (가상 요리사)
저자들은 pertTF라는 AI 를 개발했습니다. 이 AI 는 마치 **수천 가지 요리를 해본 '수석 요리사'**와 같습니다.
배움: 이 AI 는 췌장이 만들어지는 과정 (발달) 에서 30 가지 유전자를 끄고, 14 가지 다른 세포 종류에서 일어난 변화를 8 만 7 천 개 이상의 세포 데이터를 통해 학습했습니다.
특징: 단순히 "유전자 A 를 끄면 맛 (발현량) 이 어떻게 변하는지"만 보는 게 아니라, **"요리 결과물 (세포) 이 어떤 종류로 변할지"**까지 예측합니다.
🔮 3. pertTF 의 놀라운 능력 3 가지
① "보지 못한 재료"도 예측한다 (일반화 능력)
비유: AI 가 '소금'과 '설탕'의 맛을 배웠다면, 실험실에서 직접 맛보지 않은 **'새로운 향신료'**를 넣었을 때 요리가 어떻게 변할지 추론할 수 있습니다.
현실: 훈련 데이터에 없던 새로운 유전자를 조작하더라도, AI 는 유전자 간의 관계를 이해하고 그 결과를 정확히 예측합니다.
② "보지 못한 상황"도 이해한다 (새로운 환경 적용)
비유: 이 요리사가 '요리 학교 (배양된 세포)'에서만 배웠다면, '실제 식당 (실제 환자 조직)'에 가면 망칠 것 같죠? 하지만 pertTF 는 실제 환자의 췌장 세포 데이터에서도 잘 작동합니다.
현실: 실험실에서 키운 세포가 아닌, 실제 당뇨병 환자의 췌장 세포에서도 유전자 조작의 영향을 예측할 수 있어, 실제 질병 연구에 바로 쓸 수 있습니다.
③ "세포의 정체성"까지 바뀐다 예측한다
비유: 유전자를 조작하면 세포가 단순히 '맛'만 변하는 게 아니라, '요리사'에서 '배달원'으로 직업이 바뀌는 것처럼 세포의 종류 자체가 변할 수 있습니다.
현실: 기존 AI 들은 세포의 종류가 변하는 것을 잘 못 봤지만, pertTF 는 "이 유전자를 끄면 세포가 간 세포로 변할 확률이 높다"거나 "췌장 세포가 사라질 것이다"라고 세포 구성의 변화까지 정확히 예측합니다.
🚀 4. 실제 활용: 가상 크리시퍼 (CRISPR) 스크리닝
이제 pertTF 는 가상 실험을 할 수 있게 해줍니다.
기존 방식: 수천 개의 유전자를 하나씩 실험실에서 끄고 확인 (시간: 몇 년, 비용: 천문학적인 금액).
pertTF 방식: 컴퓨터에서 "이 유전자를 끄면 당뇨병이 좋아질까?"라고 물어보면, AI 가 순간적으로 수천 가지 시나리오를 시뮬레이션하고 가장 유망한 후보를 골라줍니다.
결과: 실제 실험 결과와 거의 일치하는 예측을 보여주어, 과학자들이 진짜 실험을 할 때 가장 중요한 유전자만 골라 집중할 수 있게 도와줍니다.
💡 요약
pertTF는 유전자와 세포의 복잡한 관계를 학습한 초지능 AI입니다. 이 모델은 **"실제 실험 없이도, 새로운 유전자를 조작했을 때 세포가 어떻게 변할지, 심지어 실제 환자의 세포에서 어떤 일이 일어날지"**를 미리 알려줍니다. 이는 당뇨병 같은 난치성 질환을 치료하는 새로운 약을 찾는 속도를 획기적으로 높여줄 것으로 기대됩니다.
한 줄 평: "이제 과학자들은 실험실의 비싼 장비 대신, AI 라는 '예측 지도'를 들고 더 빠르고 정확하게 질병의 비밀을 파헤칠 수 있게 되었습니다."
Each language version is independently generated for its own context, not a direct translation.
1. 연구 배경 및 문제 정의 (Problem)
단일 세포 수준에서 유전적 교란 (genetic perturbation) 에 대한 반응을 예측하는 것은 세포 상태 모델링과 질병 연구의 핵심 과제입니다. 그러나 기존 접근법에는 다음과 같은 한계가 존재합니다.
범용성 부족: 기존 모델들은 주로 특정 유전자 세트 (예: 전사 인자) 나 제한된 생물학적 맥락 (예: 암 세포주) 내에서만 작동하며, 훈련 데이터에 없는 새로운 세포 유형이나 유전적 교란에 대한 일반화 능력이 떨어집니다.
표현형 예측의 한계: 대부분의 모델이 유전자 발현 변화 (transcriptomic changes) 만을 예측하는 데 집중하여, 교란으로 인한 세포 정체성 (cell identity) 의 변화나 세포 군집 구성 (population composition) 의 변화와 같은 중요한 표현형 결과를 포착하지 못합니다.
실험적 제약: 1 차 인간 세포 (primary cells), 장기유사체 (organoids), 동물 모델 등 질병과 관련된 실제 생리학적 시스템에서 대규모 교란 실험을 수행하는 것은 기술적, 비용적, 윤리적 이유로 매우 어렵습니다.
이러한 한계를 극복하기 위해, 다양한 생물학적 맥락과 유전적 교란에 걸쳐 일반화될 수 있으며, 유전자 발현뿐만 아니라 세포 구성 변화까지 예측할 수 있는 AI 모델이 필요했습니다.
2. 방법론 (Methodology)
A. 데이터셋 구축
MorPhiC 컨소시엄 데이터 활용: 인간 배아줄기세포 (hPSC) 를 이용한 췌장 분화 과정을 모델로 사용했습니다.
규모: 30 개의 췌장 계통 조절 인자 및 당뇨병 위험 유전자를 대상으로 한 완전한 유전자 녹아웃 (full gene knockouts) 을 수행했습니다.
범위: 14 가지 주요 세포 유형 (Definitive Endoderm, Pancreatic Progenitor, SC-islet 등) 에 걸쳐 5 단계의 분화 시점에서 87,000 개 이상의 단일 세포 데이터를 수집하여 훈련 데이터로 활용했습니다.
B. pertTF 모델 아키텍처
pertTF 는 Transformer 기반의 단일 세포 유전적 교란 예측 모델로, scGPT 와 같은 기존 파운데이션 모델을 기반으로 하되 교란 예측을 위해 다음과 같은 핵심 수정 사항을 도입했습니다.
다중 태스크 학습 (Multi-task Learning):
마스킹된 유전자 발현 재구성 (Masked gene expression reconstruction).
세포 유형 분류 (Cell type classification).
교란 (유전자형) 분류 (Perturbation/Genotype classification).
세포 유형 또는 구성 변화 예측 (lochNESS score prediction).
교란 통합 (Perturbation Integration): 입력 시퀀스에 유전적 교란 정보를 임베딩하여 세포 상태 표현과 통합합니다.
분포 인식 모델링: 단일 세포 카운트 데이터의 과분산 (overdispersion) 특성을 반영하기 위해 평균 제곱 오차 (MSE) 대신 음이항 분포 (Negative Binomial) 로그 가능도 손실 함수를 사용합니다.
지도 대비 학습 (Supervised Contrastive Learning): 서로 다른 세포 유형이나 교란을 가진 샘플이 잠재 공간 (latent space) 에서 명확하게 분리되도록 유도하여 표현의 질을 높입니다.
미시적 교란 예측 (Unseen Perturbation Prediction): 훈련 데이터에 없는 유전자에 대한 예측을 위해 **그래프 신경망 (GNN)**에서 학습된 유전자 기능 임베딩 (Gene Ontology 기반) 을 통합하여 외삽 (extrapolation) 능력을 강화했습니다.
C. 전이 학습 (Transfer Learning)
hPSC 기반 데이터로 사전 훈련된 모델을, 유전적 교란 라벨이 없는 1 차 인간 이자 (primary human islet) 데이터에 소량의 라벨링된 데이터로 미세 조정 (fine-tuning) 하여 실제 생리학적 시스템에 적용했습니다.
3. 주요 기여 및 결과 (Key Contributions & Results)
A. 성능 및 일반화 능력
기존 모델 대비 우위: scGPT, Geneformer, scFoundation, GEARS 등 최신 모델들과의 벤치마크에서 8 가지 평가 지표 중 8 개에서 pertTF 가 가장 우수한 성능을 보였습니다.
미시적 세포 유형 및 유전자 예측: 훈련 데이터에 포함되지 않은 새로운 세포 유형 (예: PDP 세포) 과 새로운 유전자 (예: PDX1 녹아웃) 에 대한 교란 효과를 정확하게 예측했습니다. 특히, 유전자와 세포 유형 모두 훈련 데이터에 없던 '이중 미시적 (unseen gene in unseen cell type)' 상황에서도 가장 높은 정확도를 유지했습니다.
B. 표현형 변화 예측 (Cell Identity & Composition)
lochNESS 점수: 교란에 따른 세포 군집의 풍부화 (enrichment) 또는 고갈 (depletion) 을 정량화하는 'lochNESS' 점수를 예측합니다.
성공 사례: GATA4, HHEX, PDX1 등 알려진 발달 조절 인자의 녹아웃 시 발생하는 세포 구성 변화를 정확하게 재현했습니다. 예를 들어, PDX1 녹아웃 시 췌장 전구 세포의 감소와 같은 생물학적 사실을 모델이 학습하여 예측했습니다.
C. 실험적 검증
CRISPRi 기반 Perturb-seq 검증: 훈련 데이터와 다른 교란 전략 (CRISPRi) 과 새로운 유전자 (50 개 중 2 개만 훈련 데이터 포함) 를 사용하여 독립적인 실험을 수행했습니다. pertTF 는 다른 유전적 교란 전략과 미시적 유전자에 대해서도 안정적으로 일반화되는 능력을 입증했습니다.
1 차 인간 이자 데이터 적용: 1 차 인간 이자 데이터에서 미세 조정을 통해 PDX1 기능 상실과 2 형 당뇨병 (T2D) 진행 사이의 연관성을 성공적으로 추론해냈습니다. 또한, 당뇨병 환자에서 증가하는 베타 세포 아형 (beta-2) 의 특징적인 전사 인자 (NEUROD1, HNF4A) 교란 패턴을 포착했습니다.
D. 가상 유전 스크리닝 (In Silico Genetic Screens)
두 가지 전략:
임베딩 유사성: 목표 세포 군집과 예측된 교란 세포 임베딩 간의 코사인 유사도로 유전자를 순위 매김.
lochNESS 점수: 교란 시 목표 세포 군집의 풍부화/고갈 정도를 직접 예측.
검증: 기존 풀드 CRISPR 스크리닝 결과 (췌장 전구체 조절 인자 등) 와 높은 일치도를 보이며, 훈련 데이터에 없는 유전자 (예: MRPS5) 에 대한 필수 유전자 (essential gene) 특성을 정확히 예측했습니다.
4. 의의 및 결론 (Significance)
가상 교란 스크리닝의 실현: 실험적으로 수행하기 어려운 1 차 세포 및 질병 관련 시스템에서 대규모 유전적 교란 효과를 시뮬레이션할 수 있는 강력한 프레임워크를 제공했습니다.
고차원 표현형 예측: 단순한 유전자 발현 변화를 넘어, 세포 정체성 변화와 세포 구성 비율 변화와 같은 고차원 표현형을 예측함으로써 질병 메커니즘 이해를 심화시킵니다.
생물학적 발견 가속화: pertTF 는 실험 설계를 가이드하고, 새로운 치료 표적을 발굴하며, AI 기반의 '가상 세포 (AI Virtual Cells)' 구축을 위한 핵심 기술로 자리 잡았습니다.
일반화 가능성: 췌장 발달이라는 특정 맥락에서 개발되었으나, 모델 아키텍처와 학습 전략은 면역, 신경계 등 다른 복잡한 생물학적 시스템에도 적용 가능한 범용적인 접근법을 제시합니다.
이 연구는 대규모 단일 세포 교란 데이터와 AI 모델을 통합하여 유전적 교란의 효과를 다양한 세포 시스템과 질병 맥락에서 예측하는 새로운 기준을 마련했다는 점에서 의의가 큽니다.