Universal Cell Embeddings: A Foundation Model for Cell Biology

이 논문은 다양한 종과 조직에 걸친 3 천 6 백만 개의 세포를 학습한 자기지도식 기초 모델인 '범용 세포 임베딩 (UCE)'을 제안하여, 추가적인 레이블링 없이도 세포의 보편적인 표현 공간을 구축하고 새로운 세포 유형의 기능 추론 및 발달 계통 분석 등 생물학적 통찰을 도출할 수 있음을 보여줍니다.

Rosen, Y., Roohani, Y., Agrawal, A., Samotorcan, L., Tabula Sapiens Consortium,, Quake, S. R., Leskovec, J.

게시일 2026-04-08
📖 3 분 읽기☕ 가벼운 읽기
⚕️

이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

🌟 핵심 비유: "세포를 위한 구글 번역기이자 지도"

생각해 보세요. 지구에는 수천 개의 언어가 있고, 각 나라마다 다른 방언이 있습니다. 생물학자들도 마찬가지입니다. 사람, 쥐, 물고기, 개구리 등 종마다, 그리고 장기마다 세포의 언어 (유전자 발현) 가 다릅니다.

기존의 방법들은 각 나라마다 별도의 지도를 그려야 했습니다. 새로운 데이터를 분석하려면 그 나라의 언어를 배우고 지도를 다시 그려야 했죠. 시간도 많이 들고, 서로 다른 지도를 비교하기도 어려웠습니다.

하지만 **UCE(만능 세포 임베딩)**는 다릅니다.
UCE 는 **"세포의 보편적인 언어"**를 배운 초고성능 번역기이자 지도입니다. 이 지도 하나면, 사람 세포든, 쥐 세포든, 심지어 훈련 데이터에 없던 새로운 종의 세포든 어떤 곳에서도 즉시 위치를 파악하고 비교할 수 있습니다.


🔍 이 모델이 어떻게 작동할까요? (3 단계 과정)

UCE 는 세포를 분석할 때 다음과 같은 독특한 방식을 사용합니다.

  1. 세포를 '주머니'로 만듭니다:
    세포 안에는 수만 개의 유전자가 있습니다. UCE 는 이를 마치 **"세포라는 주머니에 들어있는 RNA 알갱이들"**로 봅니다. 어떤 유전자가 많이 발현되었는지 (알갱이가 많은지) 에 따라 주머니의 무게와 구성을 파악합니다.

  2. 단어를 '단어장'으로 바꿉니다:
    유전자는 단백질로 만들어집니다. UCE 는 유전자를 그대로 보지 않고, 그 유전자가 만드는 **단백질의 모양 (아미노산 서열)**을 먼저 분석합니다. 마치 외국어를 배울 때, 단어의 철자만 외우는 게 아니라 그 단어가 가진 '의미'와 '뉘앙스'를 먼저 이해하는 것과 같습니다. 이를 통해 사람과 쥐의 유전자가 비록 이름은 달라도, 만드는 단백질이 비슷하면 "비슷한 단어"로 인식합니다.

  3. 거대한 도서관 (트랜스포머) 에 넣습니다:
    이렇게 정리된 정보를 거대한 인공지능 도서관 (Transformer 모델) 에 넣습니다. 이 도서관은 3600 만 개의 세포 데이터를 스스로 학습하며, "어떤 세포가 어떤 세포와 비슷할까?"를 스스로 찾아냅니다.


🚀 이 모델이 해낸 놀라운 일들

1. "지도 없이도 길을 찾을 수 있다" (Zero-shot 학습)

기존 모델은 새로운 데이터를 분석할 때마다 다시 학습해야 했습니다. 하지만 UCE 는 한 번 학습하면 끝입니다.

  • 비유: 구글 지도 앱이 처음부터 전 세계 도로를 다 학습해 두었다면, 내가 가본 적 없는 새로운 도시 (새로운 실험 데이터) 에 가도 지도 앱이 바로 길을 안내해 주는 것과 같습니다. UCE 는 새로운 세포 데이터를 넣기만 해도, 기존에 학습된 거대한 지도에 바로 위치를 찍어줍니다.

2. "다른 종도 척척 알아맞힌다" (종 간 비교)

UCE 는 사람과 쥐뿐만 아니라, 훈련 데이터에 없던 **새로운 종 (예: 녹색 원숭이, 닭, 너구리 등)**의 세포도 완벽하게 분석합니다.

  • 실제 사례: 훈련 데이터에 '닭'이 없었는데, UCE 에 닭의 세포 데이터를 넣자, 닭의 세포가 쥐나 사람의 어떤 세포와 가장 비슷한지 자동으로 찾아냈습니다. 마치 "닭의 눈 세포는 쥐의 뇌 세포와 비슷한 기능을 하네?"라고 찾아내는 것입니다.

3. "새로운 세포의 정체성을 찾아내다" (Norn 세포 사례)

연구진은 UCE 를 이용해 **신장에서 적혈구를 만드는 'Norn 세포'**라는 새로운 세포를 찾아냈습니다.

  • 과정: UCE 는 신장 세포 데이터를 분석하다가, 기존에 알려지지 않은 독특한 세포 군집을 발견했습니다. 그리고 이 세포가 다른 장기 (심장, 폐) 에도 비슷한 형태로 존재할 수 있음을 찾아냈습니다.
  • 의미: 이는 마치 새로운 별을 발견한 천문학자처럼, 기존에 몰랐던 세포의 존재와 기능을 찾아낸 것입니다. 특히 폐 질환 환자들 사이에서 이 세포가 어떻게 변하는지 분석하여 질병의 원인을 추측하는 데 도움을 주었습니다.

💡 왜 이것이 중요한가요?

  • 시간과 비용 절감: 이제부터는 새로운 실험을 할 때마다 수개월씩 모델을 다시 훈련할 필요가 없습니다. UCE 를 바로 쓰면 됩니다.
  • 새로운 발견: UCE 는 인간이 직접 레이블 (라벨) 을 붙이지 않아도, 세포들 사이의 숨겨진 관계를 스스로 찾아냅니다. 마치 **세포들의 관계를 스스로 이해하는 '생각하는 지도'**입니다.
  • 보편적인 이해: 사람, 동물, 질병, 건강한 상태 등 모든 세포를 하나의 공통된 언어로 이해할 수 있게 되어, 의학 연구의 속도가 획기적으로 빨라질 것입니다.

📝 한 줄 요약

"UCE 는 세포라는 복잡한 우주 전체를 하나의 거대한 지도로 만들어, 어떤 세포든, 어떤 종이어도, 즉시 그 위치와 의미를 찾아주는 '만능 세포 번역기'입니다."

이 기술은 앞으로 신약 개발, 질병 치료, 그리고 생명 현상 이해에 있어 혁신적인 도구가 될 것으로 기대됩니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →