이 논문은 **DNA 의 '증폭기' 역할을 하는 요소인 '엔핸서 (Enhancer)'**를 인공지능으로 새로 만들어내는 기술을 소개합니다. 기존 방식의 한계를 넘어, 진화의 원리를 활용하여 더 유연하고 똑똑한 디자인 방법을 제시합니다.
비유를 들어 쉽게 설명해 드릴게요.
1. 문제: "어떤 세포에서 작동할지 알려주는 레이블이 없으면?"
지금까지 엔핸서를 디자인하는 AI 는 마치 **"이것은 '간세포'용이다", "이것은 '피부세포'용이다"**라고 적힌 라벨 (Cell type label) 을 보고 학습했습니다.
한계점: 실험실에서 직접 측정할 수 있는 세포 종류는 손에 꼽을 정도로 적습니다. 마치 "간세포 레이블"만 있는 요리책으로 "신장세포용 요리"를 만들려고 애쓰는 것과 같습니다. 레이블이 없는 세포는 디자인할 수 없었습니다.
2. 해결책: "진화의 가족 앨범을 보여주세요!" (EnhancAR)
저자들은 새로운 아이디어를 냈습니다. "세포의 이름 (라벨) 을 말해주지 않아도, 이 DNA 가 진화 과정에서 어떻게 변해왔는지 보여주는 '가족 사진첩 (동족 서열, Homologs)'만 보여준다면 AI 가 기능을 이해할 수 있지 않을까?"
비유:
기존 방식: "이건 '간'용이야"라고 말해주고 레시피를 가르치는 것.
새로운 방식 (EnhancAR): "이 레시피는 100 년 전 할아버지, 50 년 전 아버지, 그리고 지금의 너까지 이어져 온 가족의 맛이야. 이 가족들이 어떻게 변해왔는지 보여줄게. 너도 이 '가족의 맛'을 살리면서 새로운 요리를 만들어봐."라고 가르치는 것입니다.
핵심: 진화는 DNA 서열은 바꾸지만, 기능은 유지합니다. AI 는 이 '기능을 유지하는 비밀'을 가족 사진첩에서 배우는 것입니다.
3. 어떻게 작동할까요? (엔핸서 디자인의 마법)
이 모델인 EnhancAR는 세 가지 놀라운 일을 해냅니다.
① 새로운 가족을 창조하다 (다양한 디자인)
상황: 특정 엔핸서의 '가족 사진 (동족 서열)'을 AI 에게 보여줍니다.
결과: AI 는 그 가족의 특징을 배워, 실제 존재하지 않았던 완전히 새로운 DNA 서열을 만들어냅니다.
비유: "이 가족은 매운맛을 좋아해"라는 특징을 배운 AI 가, 할아버지나 아버지와는 다른 새로운 매운맛 요리를 만들어내는 것과 같습니다. 하지만 맛 (기능) 은 가족의 전통을 그대로 유지합니다.
② 세포 이름 없이도 '간세포용'을 만들다 (세포 특이성)
상황: "이건 간세포에서 작동해"라고 말해주지 않아도, 간세포에서 작동하는 엔핸서의 가족 사진을 보여줍니다.
결과: AI 는 그 가족의 특징을 따라 새로운 간세포용 엔핸서를 만들어냅니다.
비유: "이 가족은 매운맛을 좋아해"라고만 말하고, "이건 간세포용이야"라고 말하지 않아도, AI 는 매운맛을 좋아하는 가족의 특징을 그대로 가져와 새로운 매운 요리를 만들어냅니다. 라벨 없이도 목적지에 맞는 디자인이 가능해진 것입니다.
③ 요리를 더 작게 줄이다 (엔핸서 축소)
상황: 기존 엔핸서는 너무 길어서 바이러스 운반체 (유전자 치료용) 에 넣기 힘들었습니다.
결과: AI 는 기능을 잃지 않으면서 길이를 짧게 줄인 새로운 엔핸서를 설계합니다.
비유: "이 가족의 요리는 100 가지 재료가 필요해"라고 알려주면, AI 는 "아, 핵심은 3 가지 재료구나!"라고 깨닫고 3 가지 재료만으로도 같은 맛을 내는 미니 요리를 만들어냅니다.
특이점: 보통은 긴 요리를 잘라내면 맛이 변하지만, 이 AI 는 진화 과정에서 '가장 중요한 부분'을 찾아내어 짧게 줄여도 맛이 그대로 유지되도록 설계합니다.
4. 왜 이것이 중요한가요?
유전자 치료의 혁신: 유전자를 운반하는 바이러스는 크기가 작아야 합니다. 이 기술로 작지만 강력한 엔핸서를 만들면, 유전자 치료의 적용 범위가 훨씬 넓어집니다.
새로운 세포의 발견: 실험실에서 키우기 힘든 세포 (예: 태아 발달 중의 일시적인 세포) 도, 그 세포의 '가족 사진'만 있다면 디자인할 수 있습니다.
생물학의 이해: AI 가 어떤 DNA 패턴을 중요하게 여기는지 분석하면, 우리가 아직 모르는 **생명의 작동 원리 (진화적 비밀)**를 발견할 수도 있습니다.
요약
이 논문은 **"세포의 이름표 대신 진화의 가족 사진을 보여주면, AI 가 그 가족의 기능을 유지하면서 새로운, 더 작고 다양한 DNA 요리를 만들어낼 수 있다"**는 것을 증명했습니다. 이는 유전자 치료와 합성 생물학에 큰 전환점이 될 수 있는 기술입니다.
논문 개요: EnhancAR - 진화적 조건부 학습을 통한 기능적 다양성 강화제 (Enhancer) 생성
이 논문은 딥러닝을 활용하여 유전자 발현을 조절하는 비코딩 DNA 요소인 '강화제 (Enhancer)'를 설계하는 새로운 패러다임을 제시합니다. 저자들은 기존 방법론의 한계를 극복하기 위해 진화적으로 보존된 동종 서열 (Homologs) 을 컨텍스트로 활용하는 생성 모델 EnhancAR을 개발했습니다.
1. 연구 배경 및 문제 제기 (Problem)
강화제 설계의 중요성: 강화제는 유전자의 시공간적 발현을 조절하며, 유전자 치료 및 합성 생물학에서 특정 세포 유형에서 작동하는 강화제를 설계하는 것은 필수적입니다.
기존 방법론의 한계: 현재 강화제 설계에 주로 사용되는 접근법은 '세포 유형 레이블 조건부 (Cell type label conditioning)'입니다. 이는 대규모 병렬 리포터 어레이 (MPRA) 실험 데이터를 기반으로 학습된 모델을 사용합니다.
데이터 부족: MPRA 데이터는 소수의 세포 유형에만 존재하며, 실험적으로 배양이 어려운 세포 (예: 발달 중 일시적 세포) 에 대한 데이터는 부재합니다.
일반화 문제: 특정 실험 조건 (세포주) 에 최적화된 모델은 다른 조건이나 생체 내 (in vivo) 환경에서의 예측력이 떨어질 수 있습니다.
핵심 질문: 세포 유형 레이블 없이도 진화적으로 보존된 기능 정보를 활용하여 특정 기능을 가진 강화제를 설계할 수 있을까요?
2. 방법론 (Methodology)
A. 데이터 구축 (Dataset Construction)
데이터 소스: ENCODE SCREEN 프로젝트에서 추출한 170 만 개의 인간 강화제 후보 (1,888 가지 세포 유형) 를 기반으로 합니다.
동종 서열 확보: Zoonomia 프로젝트의 241 종 포유류 전장 유전체 정렬 (Whole-genome alignment) 을 사용하여 각 인간 강화제에 해당하는 240 종 이상의 포유류 동종 서열을 추출했습니다.
데이터 규모: 총 2 억 3,300 만 개 이상의 동종 서열 (평균 강화제당 135 개) 로 구성된 170 만 개의 '강화제 동종 패밀리'를 구축했습니다.
전처리: 정렬되지 않은 (unaligned) 동종 서열 집합을 특수 문자로 구분하여 단일 문자열로 변환하여 학습에 사용했습니다.
B. 모델 아키텍처: EnhancAR
모델 유형:Jamba 아키텍처 (하이브리드 트랜스포머/상태 공간 모델) 를 기반으로 한 자기회귀 (Autoregressive) 생성 모델입니다.
장점: 긴 컨텍스트 윈도우를 낮은 메모리 비용으로 처리할 수 있어, 긴 동종 서열 사슬 전반에 걸친 특징을 학습하는 데 유리합니다.
학습 전략:
진화적 조건부 학습 (Evolutionary Conditioning): 모델은 특정 강화제의 동종 서열 집합을 '프롬프트 (Prompt)'로 입력받아, 그 집합의 기능을 보존하는 새로운 서열을 생성하도록 학습됩니다.
학습 목표: 다음 토큰 예측 (Next-token prediction) 을 통해 동종 서열 집합 내의 공유된 기능적 패턴을 학습합니다.
변형 모델 (EnhancAR-sorted): 동종 서열을 길이 순으로 정렬 (긴 것에서 짧은 것) 하여 학습한 모델로, 기능 보존을 유지하면서 더 짧은 강화제를 설계하는 데 특화되었습니다.
C. 생성 모드
무조건부 생성 (Unconditional): 프롬프트 없이 강화제 집합을 처음부터 생성 (모델이 자연스러운 강화제 분포를 학습했는지 검증).
조건부 생성 (Conditional): 특정 강화제의 동종 서열 집합을 프롬프트로 주어, 해당 기능과 유사한 새로운 서열을 생성.
3. 주요 결과 (Key Results)
A. 무조건부 생성의 품질 검증
생성된 서열 집합은 훈련 데이터와 중복되지 않으며 (BLASTN 검색 결과 1% 미만), 무작위 서열보다 높은 서열 유사성을 보였습니다.
모티프 (Motif) 보존: 생성된 서열 집합은 실제 동종 패밀리와 유사하게 전사 인자 결합 부위 모티프를 풍부하게 포함하고 있었습니다.
기능적 공간 (Functional Space): Enformer 모델의 임베딩과 UMAP 분석 결과, 생성된 서열들이 인간 강화제의 기능적 공간을 잘 커버하고 있음을 확인했습니다.
B. 프롬프트 기반 생성 및 기능 보존
다양성과 유사성: 특정 동종 패밀리로 프롬프트를 주었을 때, 생성된 서열은 프롬프트와 높은 모티프 유사성을 보이지만 서열 자체는 다양하게 생성되었습니다 (새로운 서열 생성).
주요 모티프 보존: POU5F1 등 특정 강화제의 경우, 프롬프트에 존재하던 핵심 모티프 (예: POU5F1::SOX2) 가 생성된 서열에서도 높은 점수로 유지되었습니다.
C. 세포 유형 특이적 강화제 설계 (레이블 없이)
방법: 특정 세포 유형 (HepG2, K562, WTC11) 에서 활성을 보이는 강화제의 동종 서열을 프롬프트로 사용했습니다.
결과: 모델은 세포 유형 레이블을 전혀 학습하지 않았음에도 불구하고, 해당 세포 유형에서 높은 활성을 보이는 강화제를 성공적으로 설계했습니다.
프롬프트 크기의 영향: 프롬프트에 포함된 동종 서열의 수가 증가할수록 (최대 63 개까지) 예측된 활성이 증가하고 특이성이 유지되는 것을 확인했습니다.
D. 강화제 길이 단축 (EnhancAR-sorted)
전략: 동종 서열을 길이 순으로 정렬하여 학습한 모델은 프롬프트보다 짧은 서열을 생성하도록 유도됩니다.
성과: 생성된 강화제 중 85% 가 프롬프트 내 가장 짧은 서열보다 더 짧았으며, 기능 (예측 활성) 은 유지되었습니다.
예시: 200bp 의 인간 강화제를 약 53bp 로 단축하면서도 GATA1::TAL1 모티프를 보존하고 높은 활성을 유지하는 설계에 성공했습니다.
4. 기여 및 의의 (Contributions & Significance)
새로운 설계 패러다임: 세포 유형 레이블에 의존하지 않고, **진화적 보존 정보 (Homology)**를 컨텍스트로 활용하여 강화제를 설계하는 최초의 모델입니다. 이는 실험 데이터가 부족한 세포 유형이나 환경에서도 적용 가능한 유연한 접근법을 제공합니다.
데이터 효율성: 수천 개의 실험 데이터가 필요한 기존 생성 모델과 달리, 진화적으로 보존된 서열 집합만으로도 특정 기능을 가진 강화제를 설계할 수 있음을 입증했습니다.
실용적 응용 가능성:
유전자 치료: 바이러스 벡터의 크기 제한 (예: AAV) 으로 인해 긴 강화제를 넣기 어려운 상황에서, 기능을 유지하면서 길이를 단축하는 설계가 가능해졌습니다.
합성 생물학: 특정 세포 유형 (특히 배양이 어려운 발달 단계 세포) 에 맞는 맞춤형 강화제 설계가 가능해졌습니다.
생물학적 통찰: 모델이 단순히 서열을 복사하는 것이 아니라, 진화 과정에서 보존된 기능적 모티프와 그 조합 (cis-regulatory code) 을 학습하고 있음을 보여주었습니다.
5. 결론
EnhancAR 은 진화적 조건부 학습을 통해 기능적으로 다양하면서도 특이적인 강화제를 생성할 수 있는 강력한 도구입니다. 이 연구는 생물학적 서열 설계에 있어 레이블 데이터의 의존도를 낮추고, 진화적 정보를 활용한 더 일반화되고 유연한 생성 모델의 가능성을 제시했습니다.
참고: 본 논문은 bioRxiv 사전 출판물 (Preprint) 로서, 2026 년 4 월 15 일 현재 버전이며, 동료 검토를 거치지 않은 상태임을 명시하고 있습니다.