HEIMDALL: Disentangling tokenizer design for robust transfer in single-cell foundation models

이 논문은 단일 세포 기반 모델 (scFMs) 의 성능이 학습 데이터와 일치하는 경우보다 분포 변화가 있는 환경에서 토큰화 설계에 크게 의존함을 보여주며, HEIMDALL 이라는 통합 프레임워크를 통해 유전자 식별, 발현 인코딩, 순서 등 소수의 핵심 설계 축을 최적화함으로써 모델의 강건한 전이 능력을 향상시킬 수 있음을 제시합니다.

Haber, E., Alam, S., Ho, N., Liu, R., Trop, E., Liang, S., Yang, M., Krieger, S., Ma, J.

게시일 2026-04-12
📖 3 분 읽기☕ 가벼운 읽기
⚕️

이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

🍳 비유: 세포를 요리하는 인공지능

생물학자들은 수백만 개의 세포 데이터를 가지고 인공지능 (AI) 을 훈련시켜, 세포가 어떤 종류인지 분류하거나 질병을 예측하려고 합니다. 하지만 이 AI 들이 실제로 잘 작동하지 않을 때가 많습니다.

이 연구의 핵심은 **"AI 가 요리를 잘 하려면, 재료를 어떻게 다듬고 (Tokenization) 접시에 담느냐가 가장 중요하다"**는 것을 발견했다는 점입니다.

1. 문제점: "무엇을 먹일지"에 대한 혼란

세포는 수천 개의 유전자로 이루어져 있습니다. 이 유전자들을 AI 가 읽을 수 있는 언어로 바꾸는 과정을 **'토크나이저 (Tokenizer)'**라고 합니다.
지금까지 과학자들은 각자 다른 방식으로 재료를 다듬었습니다.

  • A 연구소는 유전자를 알파벳 순서로 나열했습니다.
  • B 연구소는 유전자가 얼마나 활발한지 (발현량) 에 따라 순서를 바꿨습니다.
  • C 연구소는 유전자의 이름만 보고 의미를 부여했습니다.

이렇게 방식이 제각각이라서, **"어떤 AI 가 더 좋은가?"**를 비교할 때, AI 의 두뇌 (모델 구조) 가 좋은지, 아니면 재료 준비 (토크나이저) 가 잘 된 건지 알 수 없었습니다. 마치 "요리 실력이 좋은지, 아니면 손질한 재료가 좋은지"를 구분할 수 없는 상황과 같습니다.

2. 해결책: HEIMDALL (하이멜) 이라는 '모듈형 주방'

저자들은 HEIMDALL이라는 새로운 프레임워크를 만들었습니다. 이는 마치 모듈형 주방처럼, 토크나이저를 세 가지 주요 단계로 쪼개서 분석할 수 있게 해줍니다.

  1. 재료 식별 (Gene Identity): "이 유전자가 누구인가?" (예: 유전자 이름, 단백질 구조, DNA 서열 등)
  2. 재료 상태 표현 (Expression): "이 유전자가 얼마나 활발한가?" (예: 발현량을 숫자로 변환하는 방식)
  3. 접시 구성 (Cell Construction): "이 재료들을 어떤 순서로 접시에 담을 것인가?" (예: 유전자 순서, 중요도에 따른 정렬)

HEIMDALL 을 사용하면 연구자들은 이 세 가지 요소를 자유롭게 섞고 맞출 수 있습니다. "A 모델의 재료 식별법 + B 모델의 순서 정렬법"처럼 조합해 볼 수 있는 거죠.

3. 주요 발견: "평소엔 비슷하지만, 이질적인 상황에선 천차만별"

이 연구를 통해 놀라운 사실이 밝혀졌습니다.

  • 같은 환경 (훈련 데이터와 테스트 데이터가 같을 때):
    어떤 방식을 쓰든 AI 의 성능은 비슷했습니다. 마치 "한국인만 있는 식당에서 한국 음식을 팔 때, 국을 어떤 그릇에 담든 맛은 비슷하다"는 것과 같습니다.

  • 이질적인 환경 (새로운 조직, 다른 종, 새로운 유전자 패널):
    하지만 새로운 환경으로 넘어가면 (예: 인간 세포로 훈련된 AI 가 쥐 세포를 분석하거나, 새로운 장기 데이터를 분석할 때), 재료 준비 방식 (토크나이저) 이 성패를 가릅니다.

    • 어떤 방식은 완전히 망하고, 어떤 방식은 훌륭하게 적응했습니다.
    • 특히 **유전자의 순서를 어떻게 정렬하느냐 (발현량 순 vs 무작위 vs 염색체 순)**와 유전자의 의미를 어떻게 부여하느냐가 가장 중요했습니다.

4. 결론: "완벽한 한 가지 방식은 없다"

이 논문은 "세상에서 가장 좋은 토크나이저 하나를 찾아라"라고 말하지 않습니다. 대신, **"상황에 따라 가장 적합한 재료 준비법을 선택하라"**고 조언합니다.

  • 새로운 종 (Species) 을 다룰 때: 유전자의 DNA 서열 자체를 이해하는 방식이 가장 안전합니다.
  • 새로운 유전자 패널 (Gene Panel) 을 다룰 때: 유전자들이 서로 어떻게 협력하는지 (공발현) 를 아는 방식이 유리합니다.
  • 약물 반응 (Reverse Perturbation) 을 예측할 때: 유전자의 활동량 (발현량) 을 정교하게 표현하는 방식이 핵심입니다.

💡 한 줄 요약

"인공지능이 세포를 잘 이해하려면, 단순히 더 많은 데이터를 먹이는 것보다, 그 데이터를 어떤 '레시피'로 준비하느냐가 훨씬 더 중요합니다. HEIMDALL 은 그 레시피를 과학적으로 설계하고 최적화할 수 있게 해주는 도구입니다."

이 연구는 앞으로 더 강력하고 신뢰할 수 있는 생물의학 AI 를 만들기 위해, **데이터를 어떻게 입력하느냐 (토크나이저 설계)**에 집중해야 함을 강조합니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →