Pan-cell-type prediction of splicing patterns from sequence and splicing factor expression

⚕️

이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

🍳 핵심 비유: "유전자는 레시피, 세포는 요리사"

유전자 (DNA) = 레시피 책
- 우리 몸의 모든 세포는 거의 똑같은 '레시피 책 (유전체)'을 가지고 있습니다.
- 하지만 이 책에 있는 레시피대로 무조건 요리만 하면, 모든 세포가 똑같은 요리를 만들어냅니다.
스플라이싱 (Alternative Splicing) = 레시피 변형
- 실제로는 요리사 (세포) 가 레시피를 그대로 따르지 않고, **"이 재료는 빼고, 저 재료는 더 넣자"**라고 변형합니다.
- 예를 들어, 같은 '치즈 스파게티' 레시피라도, 한 요리사는 페페론치노를 넣고, 다른 요리사는 버섯을 넣습니다. 이렇게 변형된 레시피 (단백질) 에 따라 세포의 역할이 달라집니다.
- 이 과정을 스플라이싱이라고 합니다.
문제점: 기존 AI 모델의 한계
- 기존에 있던 AI 모델들은 "뇌 (신경세포) 요리사"를 훈련시키려면 뇌 전용 모델을, "간 (간세포) 요리사"를 훈련시키려면 간 전용 모델을 따로 만들어야 했습니다.
- 마치 각자 다른 언어를 쓰는 요리사에게 따로따로 레시피를 가르치는 것과 같습니다. 만약 새로운 병에 걸린 요리사나 실험실의 특수한 요리사가 나오면, 기존 모델은 "이건 내가 배운 요리사가 아니야"라고 말하며 예측을 못 합니다.

🚀 이 논문이 제안한 해결책: "PanExonNet (판엑손넷)"

이 연구팀이 만든 PanExonNet은 아주 똑똑한 **메인 요리사 (AI)**입니다. 이 모델의 특징은 다음과 같습니다.

1. "요리사의 기분 (세포 상태) 을 읽는다"

이 모델은 레시피 (DNA) 만 보고 요리를 예측하는 게 아닙니다.
**요리사가 현재 어떤 재료를 많이 가지고 있는지 (스플라이싱 인자 발현량)**를 먼저 봅니다.
"아, 이 요리사는 '페페론치노' 재료를 많이 가지고 있네? 그럼 레시피를 변형해서 페페론치노 스파게티를 만들겠구나!"라고 추론합니다.
이렇게 요리사의 상태 (세포의 환경) 에 따라 레시피 변형 방식을 실시간으로 조절합니다.

2. "새로운 요리사도 다룰 수 있다"

기존 모델처럼 "뇌 요리사 전용", "간 요리사 전용"으로 나뉘지 않습니다.
새로운 세포나 병에 걸린 세포가 오더라도, 그 세포가 가진 재료 목록 (유전자 발현 데이터) 을 보면 **"어떤 요리를 만들지"**를 유추할 수 있습니다.
마치 어떤 요리사든 들어와서 재료를 보여주기만 하면, 그 요리사에게 맞는 요리를 즉석에서 만들어내는 만능 주방장과 같습니다.

3. "실수 없는 정교한 요리 (정밀한 예측)"

이 모델은 단순히 "어떤 재료가 들어갔나?"만 보는 게 아니라, **정확히 어느 부분에서 재료를 잘라내고 붙였는지 (접합부, Junction)**까지 예측합니다.
마치 레시피의 **각 글자 하나하나 (단일 염기 수준)**까지 정확히 수정해서 요리하는 수준입니다.

💡 왜 이것이 중요할까요? (실생활 예시)

이 기술이 발전하면 다음과 같은 일이 가능해집니다.

질병 진단: 뇌나 심장처럼 직접 검사하기 힘든 장기에서 일어나는 유전자 변형을, 혈액 검사 (세포 발현 데이터) 로만 예측할 수 있게 됩니다.
맞춤형 치료: 환자의 세포가 어떤 '요리사'인지 파악해서, 그 세포에 딱 맞는 약 (오리고뉴클레오타이드 치료제) 을 설계할 수 있습니다.
암 연구: 암세포는 정상 세포와 완전히 다른 '요리 방식'을 쓰는데, 이 모델은 암세포가 어떻게 변형되었는지 정확히 찾아내어 치료 표적을 잡을 수 있게 도와줍니다.

📝 한 줄 요약

"이 모델은 유전체 (레시피) 만 보고 요리를 예측하는 게 아니라, 세포의 상태 (요리사의 재료 목록) 를 함께 보고, 어떤 세포든 상황에 맞춰 정교하게 요리를 변형하는 방식을 예측하는 '만능 주방장'입니다."

이처럼 PanExonNet 은 세포마다 다른 유전자 작동 방식을 더 유연하고 정확하게 이해할 수 있게 해주는 획기적인 도구입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

대체 스플라이싱 (Alternative Splicing) 의 중요성: 인간의 세포 유형별 유전자 발현에서 대체 스플라이싱은 핵심적인 결정 인자이며, 그 조절 불균형은 신경퇴행성 질환, 자가면역 질환, 암 등 다양한 질병의 원인이 됩니다.
기존 모델의 한계: 현재 DNA 서열로부터 RNA 발현을 예측하는 딥러닝 모델들은 대부분 이산적 (discrete) 인 세포 유형을 가정합니다. 즉, 각 조직이나 세포 유형마다 별도의 모델 헤드 (head) 를 학습시키는 방식 (Multi-headed approach) 을 사용합니다.
- 문제점 1: 병리적 상태, 실험적 교란 (perturbation), 또는 새로운 세포 환경과 같이 사전 정의된 범주에 속하지 않는 데이터로부터 학습할 수 없습니다.
- 문제점 2: 학습된 범주 외의 새로운 세포 유형으로의 일반화 (Generalization) 가 어렵습니다.
- 문제점 3: 세포 유형을 단순한 레이블로 취급하여 연속적인 세포 상태 (cellular state) 의 다양성을 포착하지 못합니다.

2. 방법론 (Methodology)

저자들은 PanExonNet이라는 새로운 딥러닝 프레임워크를 제안하여, DNA 서열과 스플라이싱 인자 (Splicing Factors) 의 발현을 통합적으로 활용합니다.

핵심 아키텍처 및 전략

컨텍스트 의존적 예측 (Context-Dependent Prediction):
- 모델은 DNA 서열뿐만 아니라 **스플라이싱 상태 (Splicing State)**를 입력으로 받습니다. 이 상태는 RNA 결합 단백질 (RBP) 과 스플라이스좀 구성 요소의 발현량 (TPM) 을 기반으로 추론됩니다.
- 이를 통해 모델은 특정 세포의 전사적 환경 (Trans-regulatory environment) 을 반영하여 스플라이싱 패턴을 예측합니다.
개별 유전체 기반 학습 (Individual-Level Genomes):
- 기존 모델들이 참조 유전체 (Reference Genome) 만 사용하는 것과 달리, PanExonNet 은 이배체 (Diploid) 개인별 유전체를 입력으로 받습니다.
- 변이 (Variants) 와 인델 (Indels) 을 포함한 두 개의 대립유전자 (Allele) 서열을 처리하며, 암 세포선의 경우 복제수 변이 (Copy Number Variation) 를 고려하여 가중치를 적용합니다.
- 예측 결과는 참조 유전체 좌표에 투영되어 표준 RNA-seq 처리 방식과 일치하도록 결합됩니다.
새로운 레이어: 컨텍스트화 가능한 컨볼루션 (Contextualizable Convolutions):
- ConvNeXt 아키텍처를 기반으로 개발된 모듈러 레이어입니다.
- 스플라이싱 상태 임베딩이 시퀀스 인코더의 각 레이어 (Depthwise convolution, normalization, pointwise convolution 등) 의 가중치를 동적으로 조절 (Modulation) 합니다.
- 이는 시퀀스 인코더가 세포 유형에 따라 유연하게 적응하도록 하여, 단순한 연결 (Concatenation) 방식보다 우수한 성능을 보입니다.
예측 출력 (Outputs):
- 단일 뉴클레오타이드 해상도 트랙 (4 개): 커버리지 (Coverage), 도너 사용 (Donor usage), 억셉터 사용 (Acceptor usage), 인트론 (Intron).
- 도너 - 억셉터 접합부 (Junction) 예측: 스플라이스 사이트뿐만 아니라 실제 도너와 억셉터가 연결된 접합부 (Junction) 의 사용량을 예측합니다. (AlphaGenome 외에는 드문 기능)
- Sashimi Plot 유사성: 위 트랙들과 접합부 정보를 통합하여 RNA-seq 의 Sashimi Plot 과 유사한 스플라이싱 프로파일을 생성합니다.
학습 데이터:
- 건강한 조직 데이터 (GTEx v8) 와 암 세포선에서의 RNA 결합 단백질 녹다운 (Knockdown) 데이터 (KD-RNA-seq) 를 함께 학습하여 일반화 능력을 강화했습니다.

3. 주요 기여 (Key Contributions)

Pan-Cell-Type 프레임워크: 사전 정의된 세포 유형 레이블 없이, 스플라이싱 인자 발현을 통해 임의의 세포 상태에 적응하여 스플라이싱을 예측하는 최초의 범용 DNA-to-RNA 모델 중 하나입니다.
개별 유전체 및 복제수 변이 처리: 개인별 유전체 변이와 복제수 변이를 명시적으로 모델링하여 다양한 세포주 및 샘플에 적용 가능한 범위를 확장했습니다.
컨텍스트화 가능한 컨볼루션 레이어: 시퀀스 인코더에 컨텍스트 정보를 주입하는 효율적이고 모듈화된 레이어를 제안하여, 시퀀스 모델링 전반에 적용 가능한 기술적 기여를 했습니다.
접합부 (Junction) 예측 통합: 단순한 스플라이스 사이트 예측을 넘어, 실제 스플라이싱 사건의 연결 구조 (Junction usage) 를 직접 예측함으로써 복잡한 스플라이싱 패턴 해석 능력을 높였습니다.

4. 결과 (Results)

세포 유형 특이성 (Tissue Specificity) 향상:
- 기존 모델 (Borzoi, Pangolin) 과 비교하여 $\Delta$ PSI (Percent Spliced In) 상관관계 지표에서 월등히 높은 성능을 보였습니다. 이는 모델이 단순히 일반적인 스플라이싱 패턴을 아는 것을 넘어, 세포 유형별 차이 (Deviation) 를 정확히 예측함을 의미합니다.
- 특히, 기존 모델들이 사용하는 'Coverage' 트랙보다 'Split-read' 기반 트랙 (Donor/Acceptor/Intron) 이 세포 특이성 예측에 더 중요함을 입증했습니다.
미확인 세포 유형으로의 일반화 (Generalization):
- 학습 데이터에 포함되지 않은 새로운 세포 유형 (Held-out tissues) 에서도 높은 성능을 유지했습니다.
- KD-RNA-seq 데이터 학습 효과: 암 세포선에서의 녹다운 실험 데이터를 학습에 포함시켰을 때, 학습된 GTEx 조직뿐만 아니라 보지 않은 세포 유형에 대한 일반화 성능이 추가로 향상되었습니다. 이는 교란 데이터가 모델의 인과적 이해를 돕는다는 것을 시사합니다.
비교 실험:
- Pan-Concat vs PanExonNet: 스플라이싱 상태를 단순히 연결 (Concatenate) 하는 방식보다, 컨텍스트화 가능한 컨볼루션을 통해 모든 레이어를 조절하는 방식이 훨씬 우수한 성능을 보였습니다.
- Junction Head 의 시너지: 접합부 예측 헤드를 추가한 모델 (Pan-junct) 은 트랙 예측 성능까지 함께 향상시켰습니다.

5. 의의 및 결론 (Significance)

임상 및 연구 응용 가능성:
- 변이 효과 예측 (Variant Effect Prediction): 개인별 유전체 변이가 특정 세포 환경에서 어떻게 스플라이싱에 영향을 미치는지 정확히 예측할 수 있어, 희귀 질환 진단 및 치료 표적 발굴에 기여합니다.
- 올리고뉴클레오타이드 치료제 설계: 특정 세포 유형에서 발생하는 비정상적인 스플라이싱을 교정하는 치료제 설계에 활용 가능합니다.
- 생체 표지자 (Biomarker) 발견: 질병 상태에서의 스플라이싱 변화 패턴을 포착하여 새로운 진단 마커를 찾을 수 있습니다.
미래 방향:
- 이 프레임워크는 단일 세포 데이터 (scRNA-seq) 와의 연동, 긴 리드 (Long-read) 데이터 활용, 그리고 활성 학습 (Active Learning) 을 통한 실험 설계 최적화 등으로 확장될 수 있는 확장 가능한 기반을 제공합니다.

요약하자면, PanExonNet 은 고정된 세포 유형 레이블에 의존하지 않고, 스플라이싱 인자의 발현 상태를 통해 동적인 세포 환경을 모델링함으로써, DNA 서열로부터 세포 유형별 스플라이싱 패턴을 정확히 예측하고 새로운 환경으로 일반화할 수 있는 획기적인 딥러닝 프레임워크입니다.