A transcriptomics-native foundation model for universal cell representation and virtual cell synthesis

이 논문은 배치 효과를 줄이면서도 생물학적 이질성을 보존하고, 고충실도 가상 세포를 생성하여 소규모 데이터셋의 분석 및 교차 모달리티 예측 능력을 혁신적으로 향상시킨 전사체 기반의 새로운 기초 모델 'xVERSE'를 제안합니다.

원저자: Jiang, X., Xie, J.

게시일 2026-04-14
📖 3 분 읽기☕ 가벼운 읽기
⚕️

이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'xVERSE'**라는 새로운 인공지능 모델을 소개합니다. 이 모델은 세포의 유전자 정보를 다루는 데 특화된 '기초 모델 (Foundation Model)'로, 마치 세포 세계의 '만능 번역기'이자 '가상 실험실' 역할을 합니다.

기존의 인공지능들은 세포 데이터를 언어 (단어) 처럼 처리하려다 보니, 세포 고유의 복잡한 특성을 놓치거나 특정 작업에만 잘 작동하는 한계가 있었습니다. 하지만 xVERSE 는 세포의 유전자 발현을 '확률'과 '통계'의 관점에서 직접 이해하도록 설계되었습니다.

이 복잡한 내용을 일상적인 비유로 설명해 드리겠습니다.


1. 기존 모델 vs xVERSE: "레시피 책"과 "요리사"의 차이

  • 기존 모델 (scGPT 등): 마치 수천 권의 요리 레시피 책을 외운 사람 같습니다. "닭고기는 이렇게 조리한다", "소스는 이렇게 만든다"는 단어들 (유전자) 을 순서대로 나열해서 패턴을 찾습니다. 하지만 실제 요리는 재료의 양, 불의 세기, 재료가 섞이는 '확률'적인 과정이 중요합니다. 기존 모델은 이 미세한 뉘앙스를 놓치고, 레시피만 외워서 실제 요리를 해보라고 하면 맛이 안 날 때가 많습니다.
  • xVERSE: 이 모델은 요리 자체의 원리를 이해한 천재 요리사입니다. 단순히 레시피를 외우는 게 아니라, "이 재료가 들어갈 때 다른 재료와 어떻게 반응할지", "불의 세기에 따라 맛이 어떻게 변할지"를 통계적으로 계산합니다. 그래서 새로운 재료를 줘도 완벽하게 요리를 해낼 수 있습니다.

2. xVERSE 의 세 가지 핵심 능력

① 만능 번역기 (Universal Representation)

  • 상황: 연구자들은 실험실마다 사용하는 장비 (배치) 가 다르고, 측정하는 유전자 목록 (패널) 도 다릅니다. A 실험실 데이터와 B 실험실 데이터를 합치면 노이즈가 섞여 혼란스럽습니다.
  • xVERSE 의 역할: 마치 서로 다른 언어를 쓰는 사람들끼리 대화하게 해주는 통역사입니다. 장비나 실험실의 차이 (노이즈) 는 무시하고, 세포가 가진 진짜 본질 (생물학적 신호) 만 추출해냅니다. 그래서 어떤 실험실 데이터든 하나로 통합해 세포의 종류를 정확하게 분류할 수 있습니다.

② 가상 세포 제조기 (Virtual Cell Synthesis)

  • 상황: 희귀한 질병이나 드문 세포를 연구하려면 많은 샘플이 필요합니다. 하지만 환자 조직은 구하기 어렵고, 세포가 너무 적으면 통계적으로 의미 있는 결론을 내기 힘듭니다.
  • xVERSE 의 역할: 현실과 구별할 수 없는 '가상 세포'를 만들어내는 3D 프린터입니다.
    • 실제 세포 1 개를 주면, xVERSE 는 그 세포와 유전적으로 100% 똑같은 '가상 세포'를 수백 개 만들어냅니다.
    • 이 가상 세포들은 실제 세포와 구별이 안 갈 정도로 정교합니다 (사람이 구별할 수 없는 수준).
    • 효과: 세포가 4 개뿐인 아주 작은 데이터라도, 이 모델로 가상 세포를 보충하면 마치 수천 개의 세포를 분석한 것처럼 정확한 결론을 낼 수 있습니다.

③ 숨은 유전자 찾기 (Imputation)

  • 상황: 최신 기술 (공간 전사체학) 은 한 번에 모든 유전자를 측정하지 못합니다. 마치 100 개 중 50 개만 보는 안경을 쓴 것처럼, 중요한 유전자가 빠져 있는 경우가 많습니다.
  • xVERSE 의 역할: **눈에 보이지 않는 부분을 완벽하게 추측해내는 '완벽한 기억력'**입니다.
    • 측정된 50 개 유전자만 보고, 나머지 50 개 유전자가 어떤 값일지 통계적으로 계산해냅니다.
    • 기존 방법들은 외부 데이터베이스에 의존해야 했지만, xVERSE 는 스스로 학습한 지식으로 혼자서도 정확하게 채워줍니다.

3. 왜 이것이 중요한가요? (일상적인 예시)

  • 희귀병 연구: "이 병은 환자 4 명만 있어서 연구할 수 없어"라고 포기하던 상황에서도, xVERSE 가 가상 세포를 만들어주면 연구가 가능해집니다.
  • 새로운 치료제 개발: 약을 먹었을 때 세포가 어떻게 변할지 예측하는 실험을 실제로 반복해서 할 필요 없이, 컴퓨터상에서 가상 세포로 수천 번의 실험을 해볼 수 있습니다.
  • 비용 절감: 비싼 실험 장비로 모든 유전자를 다 측정할 필요 없이, 핵심 유전자만 측정하고 xVERSE 가 나머지를 채워주면 비용을 크게 아낄 수 있습니다.

요약

xVERSE는 단순히 데이터를 분석하는 도구를 넘어, **세포의 언어를 이해하고, 새로운 세포를 창조하며, 숨겨진 정보를 찾아내는 '생물학적 인공지능'**입니다. 이는 연구자들이 실험의 물리적 한계 (샘플 부족, 비용, 시간) 를 넘어서, 더 빠르고 정확하게 생명 현상을 이해할 수 있게 해주는 혁신적인 기술입니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →