MINT: Molecularly Informed Training with Spatial Transcriptomics Supervision for Pathology Foundation Models

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"병리 조직 이미지를 보는 AI 가, 그 조직의 '분자적 숨결'까지 읽을 수 있게 된 방법"**에 대한 이야기입니다.

기존의 AI 는 거대한 병리 슬라이드 이미지를 보고 세포 모양을 익혔지만, 그 세포 안에서 어떤 유전자가 작동하고 있는지 (분자 상태) 는 알지 못했습니다. 이 논문은 MINT라는 새로운 기술을 제안하며, 이 두 가지 정보를 자연스럽게 결합하는 방법을 소개합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

🏥 비유: "건축가"와 "전기 배선도"

1. 기존 AI (기존 병리 모델) = 뛰어난 '건축가'
기존에 훈련된 AI 는 거대한 병리 슬라이드 이미지를 수백만 장이나 보며 **'건축가'**가 되었습니다.

무엇을 잘하나요? 벽돌 (세포) 이 어떻게 쌓였는지, 건물의 구조 (조직 형태) 가 어떤지 아주 잘 봅니다.
한계는? 건물의 겉모습은 완벽하게 이해하지만, 건물 내부의 **'전기 배선도 (유전자 발현)'**나 '어떤 방에 어떤 전구가 켜져 있는지'는 모릅니다. 하지만 실제로는 배선 상태가 건물의 기능 (질병의 종류나 진행 정도) 을 결정합니다.

2. 새로운 기술 (공간 전사체학, ST) = '전기 배선도'
최근 기술 발전으로 우리는 조직의 특정 위치에서 **어떤 유전자가 켜져 있는지 (분자 정보)**를 직접 측정할 수 있게 되었습니다. 이는 마치 건물의 각 방마다 설치된 전기 배선도를 보는 것과 같습니다.

3. MINT 의 등장: "건축가에게 배선도 읽는 법을 가르치되, 건축 실력은 잊지 않게"
연구진은 이 두 가지 정보를 합치려고 했지만, 큰 문제가 있었습니다.

문제점: 건축가 (기존 AI) 에게 갑자기 배선도 (분자 정보) 를 가르치려 하면, 기존에 쌓아온 건축 실력 (형태학적 지식) 을 잊어버리는 '망각' 현상이 일어날 수 있습니다. (예: "아, 배선도만 중요하구나"라고 생각해서 벽돌 쌓는 법을 잊어버림)

MINT 는 이 문제를 세 가지 똑똑한 방법으로 해결합니다.

🧩 해결책 1: "별도의 메모장" (ST 토큰)

기존 AI 가 이미지를 볼 때, **새로운 '분자 정보용 메모장 (ST 토큰)'**을 하나 더 챙겨줍니다.

기존 메모장 (CLS 토큰): 여전히 "이건 암세포 모양이야", "염증이 있네" 같은 형태 정보만 적습니다.
새 메모장 (ST 토큰): "이곳의 유전자는 A 가 켜져 있고, B 는 꺼져 있어" 같은 분자 정보만 적습니다.
효과: 두 가지 정보가 서로 섞여서 기존 지식을 지우는 일을 방지합니다. 마치 건축가가 배선도를 볼 때, 원래의 건축 실력을 유지한 채 새로운 정보를 추가하는 것과 같습니다.

🛡️ 해결책 2: "이중 안전장치" (학습과 고정)

AI 가 새로운 것을 배울 때, 원래의 실력이 떨어지지 않도록 두 가지 장치를 켭니다.

스스로 가르치기 (DINO): AI 가 이미지를 다시 보고 스스로 "내가 본 건물이 원래 모양과 비슷해"라고 확인하며 실력을 유지합니다.
원본 고정 (Feature Anchoring): AI 가 배운 내용을 원래의 ' frozen(얼어붙은)' 모델과 비교합니다. "너가 배운 게 원래 실력과 너무 달라지면 안 돼!"라고 경고하며, 형태학적 지식을 잊지 못하게 묶어둡니다.

📏 해결책 3: "거시적 & 미시적" 두 가지 시선

Visium (점 단위): 조직 전체를 큰 점으로 보며 "이 구역 전체의 유전자 상태"를 학습합니다.
Xenium (세포 단위): 아주 작은 세포 하나하나의 유전자 상태까지 세밀하게 학습합니다.
효과: 넓은 시야와 좁은 시야를 모두 활용하여 AI 가 조직을 더 입체적으로 이해하게 합니다.

🏆 결과: "두 마리 토끼를 다 잡았다"

이 MINT 기술을 적용한 결과는 놀라웠습니다.

유전자 예측 능력 (HEST-Bench): 건축가에게 배선도 읽는 법을 가르쳤더니, 유전자 상태를 예측하는 능력이 기존 모델들보다 훨씬 뛰어났습니다. (평균 정확도 0.440, 1 위)
일반 병리 능력 (EVA): 중요한 점은, 유전자를 배우는 과정에서 기존에 잘하던 '형태 분석 능력'이 떨어지지 않았다는 것입니다. 오히려 대부분의 병리 진단 작업에서도 1 위를 차지했습니다.

💡 결론: 왜 이것이 중요한가요?

기존에는 AI 를 더 똑똑하게 만들려면 더 많은 이미지를 보여줘야 했습니다 (데이터 양 늘리기).
하지만 이 논문은 **"이미지뿐만 아니라, 그 안에 숨겨진 분자 정보 (유전자) 를 함께 가르쳐주면 AI 가 훨씬 더 똑똑해진다"**는 것을 증명했습니다.

한 줄 요약:

"기존의 뛰어난 '건축가 AI'에게 '전기 배선도'를 보여주되, 건축 실력을 잃지 않게 보호해 주는 새로운 학습법 (MINT) 을 개발하여, 병리 진단과 유전자 분석 모두에서 최고의 성능을 냈다."

이 기술은 앞으로 AI 가 질병을 단순히 '모양'으로만 보는 것이 아니라, 그 이면의 '분자적 원인'까지 이해하는 차세대 의료 AI 의 기초가 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

기존의 병리학 기초 모델 (Pathology Foundation Models) 은 대규모 전체 슬라이드 이미지 (WSI) 를 기반으로 자기지도 학습 (Self-supervised learning, 예: DINO, DINOv2) 을 통해 수행됩니다. 이러한 모델들은 조직의 형태학적 (morphological) 특징을 효과적으로 학습하지만, 조직 미세환경의 분자적 상태 (유전자 발현, 신호 전달 경로 등) 를 명시적으로 포착하지 못한다는 한계가 있습니다.

최근 공간 전사체학 (Spatial Transcriptomics, ST) 기술은 조직 내에서의 유전자 발현을 직접 측정하여 형태학과 분자 상태 간의 연결 고리를 제공합니다. 그러나 기존 연구들은 유전자 발현 예측을 별도의 지도 학습 작업으로만 활용했을 뿐, 이를 기초 모델의 표현 (representation) 을 향상시키는 데 사용하려는 시도는 제한적이었습니다. 또한, 유전자 발현 예측을 위한 미세 조정 (Fine-tuning) 을 수행할 경우, 대규모 사전 학습으로 얻은 형태학적 표현이 소실되는 '파괴적 망각 (Catastrophic Forgetting)' 문제가 발생할 수 있다는 것이 주요 도전 과제였습니다.

2. 방법론 (Methodology)

저자들은 MINT (Molecularly Informed Training) 라는 새로운 미세 조정 프레임워크를 제안합니다. 이는 사전 학습된 병리학 Vision Transformer(ViT) 에 공간 전사체학 (ST) 지도 신호를 통합하면서도 기존 표현을 보존하는 것을 목표로 합니다.

핵심 설계 원칙

전용 ST 토큰 (Dedicated ST Token) 도입:
- 기존 형태학적 특징을 인코딩하는 CLS 토큰을 유전자 발현 예측에 직접 사용하는 대신, ViT 입력 시퀀스에 학습 가능한 별도의 ST 토큰을 추가합니다.
- 이를 통해 ST 토큰은 분자 정보 (유전자 발현) 에 특화되고, CLS 토큰은 원래의 형태학적 역할을 유지하도록 분리합니다.
- 추론 시에는 [CLS ∥ ST]를 연결하여 두 가지 정보를 모두 활용하거나, 필요에 따라 CLS만 사용하여 기존 공간과 호환되게 만듭니다.
이중 증류 (Dual Distillation) 메커니즘:
- DINO 자기 증류 (Self-Distillation): 다중 크롭 (Multi-crop) 증강을 통해 학생 모델이 교사 모델 (EMA 기반) 과 일관된 시각적 표현을 학습하도록 유도하여 시각적 학습을 계속합니다.
- 명시적 특징 고정 (Explicit Feature Anchoring): 동결된 (Frozen) 사전 학습된 모델의 출력과 학생 모델의 CLS 토큰 사이의 L2 거리를 최소화합니다. 이는 파괴적 망각을 방지하기 위한 강력한 정규화 역할을 합니다.
다중 스케일 공간 전사체학 지도 신호:
- Spot-level (Visium): 각 이미지 패치 (Tile) 에 대응하는 Visium 스팟의 유전자 발현을 예측합니다.
- Patch-level (Xenium): 세포 수준 해상도의 Xenium 데이터를 활용하여 ViT 패치 단위 (16x16 그리드) 의 유전자 발현을 예측합니다.
- 두 가지 스케일의 정보를 상호 보완적인 지도 신호로 활용합니다.

손실 함수 (Total Objective)

전체 손실 함수는 다음 4 가지 구성 요소의 가중 합으로 정의됩니다:
$L = L_{DINO} + \lambda_{distill} L_{distill} + \lambda_{ST} L_{ST} + \lambda_{pST} L_{pST}$

$L_{DINO}$ : 시각적 자기지도 학습 유지
$L_{distill}$ : 사전 학습된 특징 공간 유지 (망각 방지)
$L_{ST}$ : Spot-level 유전자 발현 회귀
$L_{pST}$ : Patch-level 유전자 발현 회귀

3. 주요 기여 (Key Contributions)

MINT 프레임워크 제안: 전용 ST 토큰과 이중 증류 메커니즘을 통해 파괴적 망각을 방지하면서 공간 전사체학 지도 신호를 병리학 ViT 에 통합했습니다.
상호 보완적 표현의 발견: ST 토큰은 분자 신호에 특화되고 CLS 토큰은 형태학적 전이성 (Transferability) 을 유지함을 증명했습니다. 두 토큰을 결합했을 때 모든 백본 (Backbone) 에서 일관된 성능 향상을 보였습니다.
SOTA 성능 달성: 공식 벤치마크인 HEST-Bench 와 EVA 에서 모두 최상의 종합 성능을 기록하여, 형태학 중심의 자기지도 학습에 공간 전사체학 지도가 어떻게 보완적인 역할을 하는지 입증했습니다.

4. 실험 결과 (Results)

모델은 공개된 HEST 데이터셋의 577 개의 인간 샘플 (Visium 및 Xenium 데이터 포함) 로 미세 조정되었습니다.

HEST-Bench (유전자 발현 예측):
- 9 가지 암종에 대한 평균 피어슨 상관관계 (Pearson r) 에서 0.440을 기록하여, 기존 최강 모델인 H-optimus-0 (0.415) 및 UNI2-h (0.414) 를 모두 상회했습니다. 모든 암종에서 1 위를 차지했습니다.
EVA (일반 병리학 태스크):
- 분류, 약지도 학습, 핵 분할 등 9 가지 태스크의 평균 점수에서 0.803을 기록하여 Virchow2 (0.798) 와 H-optimus-0 (0.793) 보다 높은 성능을 보였습니다.
- 특히, 유전자 예측 성능을 높이는 과정에서 기존 형태학적 태스크 성능이 저하되지 않았으며 오히려 향상되었습니다.
표현 분석 (Representation Analysis):
- ST 토큰만 사용할 경우 HEST-Bench 성능이 높고, CLS 토큰만 사용할 경우 EVA 성능이 높았습니다.
- 두 토큰을 연결 (Concatenation) 했을 때 두 벤치마크 모두에서 최적의 성능을 보였으며, 이는 두 토큰이 서로 다른 정보를 포착하고 있음을 의미합니다.
- CLS 토큰을 직접 유전자 예측에 사용하는 경우 (ST 토큰 없이), 증류 (Distillation) 를 하더라도 MINT 의 토큰 분리 설계보다 성능이 낮았으며, 특히 증류가 없을 경우 형태학적 표현이 크게 손상되었습니다.

5. 의의 및 결론 (Significance & Conclusion)

이 논문은 이미지 데이터의 양을 늘리는 것 (Scaling) 이 아닌, 새로운 지도 신호 (Cross-modal Supervision) 를 도입함으로써 병리학 기초 모델의 성능을 획기적으로 향상시킬 수 있음을 증명했습니다.

상호 보완성: 공간 전사체학 지도는 형태학 중심의 자기지도 학습과 상충 (Trade-off) 관계가 아니라, 서로를 보완하여 모델의 표현 능력을 확장하는 새로운 축을 제공합니다.
효율성: 소수의 공개된 쌍체 데이터 (Histology-Transcriptomics, 577 개) 만으로도 대규모 사전 학습 모델의 성능을 극대화할 수 있음을 보여주었습니다.
미래 전망: 조직병리학과 전사체학을 결합한 데이터셋의 확장이 병리학 AI 모델의 발전에 중요한 열쇠가 될 것임을 시사합니다.

결론적으로 MINT 는 분자 정보와 형태학적 정보를 분리하여 학습함으로써, 기존 기초 모델의 한계를 극복하고 더 포괄적이고 정확한 병리학 AI 모델을 구축하는 새로운 패러다임을 제시합니다.