What Topological and Geometric Structure Do Biological Foundation Models Learn? Evidence from 141 Hypotheses

Each language version is independently generated for its own context, not a direct translation.

🧭 핵심 비유: "두 명의 독립적인 지도 제작자"

생각해 보세요. 서로 전혀 모르는 두 명의 지도 제작자 (AI 모델인 scGPT 와 Geneformer) 가 각각 다른 자료를 바탕으로 한 도시 (세포 내 유전자 세계) 의 지도를 그렸다고 가정해 봅시다.

질문: 이 두 지도가 우연히 비슷하게 그려졌다면, 그 도시에는 **실제 존재하는 랜드마크 (생물학적 진리)**가 있는 걸까요? 아니면 그냥 두 사람이 같은 실수를 한 걸까요?
실험: 저자는 이 두 AI 가 그린 지도를 비교하고, 그 안에 숨겨진 '모양'과 '구조'를 141 가지 방법으로 꼼꼼히 검사했습니다.

🔍 주요 발견 3 가지 (간단 요약)

1. 두 AI 는 '도시의 전체적인 모양'은 비슷하게 그렸습니다. (진실)

두 AI 는 훈련 데이터도 다르고, 만드는 방식도 달랐는데도, "어떤 유전자들이 서로 가깝고, 어떤 것들이 멀리 떨어져 있는지"라는 전체적인 지도의 윤곽 (기하학적 구조) 은 놀랍도록 비슷하게 일치했습니다.

비유: 두 사람이 각자 다른 나침반과 지도를 들고 다녔는데, "시청과 공원은 가깝고, 산은 멀리 있다"는 사실은 똑같이 적어냈습니다. 이는 그 도시의 구조가 실제 존재하는 것임을 강력하게 시사합니다.
하지만: "시청의 정확한 좌표 (x, y)"는 두 지도마다 달랐습니다. 즉, 전체적인 관계는 이해했지만, 개별 유전자의 정확한 위치는 각자 다르게 기억하고 있습니다.

2. 지도에는 '고리'와 '구름' 같은 복잡한 모양이 있습니다. (진실)

AI 가 만든 유전자 지도는 단순히 점들이 흩어진 것이 아니라, **고리 (Loop)**를 이루거나 **구름 (Community)**처럼 뭉쳐 있는 구조가 있었습니다.

비유: 유전자들이 무작위로 흩어진 게 아니라, 마치 전철 노선도처럼 순환하는 고리를 만들거나, 동네 (커뮤니티) 를 형성하고 있었습니다. 이는 생물학적으로 중요한 '피드백 고리'나 '기능적 그룹'을 AI 가 학습했다는 뜻입니다.
주의: 이 고리 구조는 매우 정교해서, 이웃 관계를 살짝만 바꿔도 (데이터를 살짝 섞으면) 사라지기도 했습니다. 즉, 진짜지만 매우 섬세한 구조입니다.

3. 하지만 이 구조는 '면역 세포'에서만 선명하게 보입니다. (한계)

가장 놀라운 사실은, 이 모든 구조가 모든 조직에서 똑같이 잘 드러나는 것이 아니었다는 점입니다.

비유: 이 지도를 **면역 세포 (Immune)**가 있는 지역에서는 선명하게 보이지만, **폐 (Lung)**나 다른 조직에서는 흐릿해지거나 아예 보이지 않았습니다.
이유: 아마도 면역 체계는 규칙이 명확하고 데이터가 잘 정리되어 있어 AI 가 배우기 쉬웠기 때문일 것입니다. 반면 폐 조직은 더 복잡하거나 데이터가 부족해 AI 가 헷갈렸을 수 있습니다.

🚫 중요한 교훈: "보이는 것이 전부는 아니다" (70 개의 실패)

이 논문에서 가장 가치 있는 부분은 성공한 이야기보다 실패한 이야기입니다.
저자는 141 가지 가설 중 70 개 이상을 "아니오"라고 결론 내렸습니다.

비유: 처음에는 "와, 이 지도에 보물이 숨겨져 있네!"라고 생각했던 70 가지의 단서들이, **더 엄격한 검사 (Null Control)**를 거치자 모두 거짓말로 판명났습니다.
교훈: "AI 가 무언가 의미 있는 것을 배우고 있다"고 무작정 믿는 것은 위험합니다. 많은 것이 **통계적 착시 (우연의 일치)**일 뿐일 수 있습니다. 이 논문은 "무엇이 진짜이고 무엇이 가짜인지"의 경계선을 정확히 그려주었습니다.

💡 결론: 우리가 무엇을 배울 수 있을까요?

AI 는 생물의 '전체적인 지도'를 이해합니다: 유전자들이 어떻게 연결되고 그룹을 이루는지에 대한 큰 그림은 AI 가 잘 학습했습니다.
하지만 '정확한 좌표'는 아닙니다: 개별 유전자의 위치를 AI 가 완벽하게 번역하거나 예측하는 것은 아직 어렵습니다.
검증은 필수입니다: "AI 가 생물을 이해했다"고 주장하려면, 면역 세포처럼 데이터가 좋은 곳에서만 유효한지, 그리고 **엄격한 통계 검사 (거짓 신호 제거)**를 통과했는지 확인해야 합니다.

한 줄 요약:

"생물학적 AI 는 생물의 복잡한 지도를 그릴 줄 알지만, 그 지도가 모든 곳에서 완벽하게 작동하는 것은 아니며, 우리가 믿는 많은 '신비로운 발견'은 사실 우연일 수 있으니 매우 조심스럽게 검증해야 합니다."

이 연구는 AI 의 능력을 과대평가하지 않으면서도, 그 안에 숨겨진 진짜 보물 (생물학적 구조) 을 찾아내는 현명한 탐험 가이드 역할을 합니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

단일 세포 유전자 발현을 처리하는 생물학적 파운데이션 모델 (예: scGPT, Geneformer) 은 하류 작업 (cell-type annotation, perturbation prediction 등) 에서 뛰어난 성능을 보입니다. 그러나 이러한 성공 이면에는 근본적인 의문이 존재합니다.

핵심 질문: 모델의 내부 표현 (internal representations) 에 형성된 기하학적 및 위상적 구조가 실제 생물학적 의미를 담고 있는 것인가요, 아니면 단순한 학습의 부산물 (artifact) 일 뿐인가요?
현재의 한계: 기존 연구들은 주로 선형적 구조나 어텐션 패턴에 초점을 맞추었으며, 비선형 기하학 (다양체 곡률, 루프, 위상적 구조) 이 생물학적 의미를 갖는지 여부와 이를 엄격한 통계적 검증 (Null control) 하에서 어떻게 구분할지에 대한 체계적인 분석이 부족했습니다. 또한, 긍정적인 결과만 보고되는 출판 편향 (publication bias) 이 존재할 수 있습니다.

2. 방법론 (Methodology)

이 연구는 자율적 대규모 가설 스크리닝 (Autonomous Large-scale Hypothesis Screening) 을 통해 문제를 해결했습니다.

자율 실행 루프 (Executor-Brainstormer Loop):
- Brainstormer: 이전 결과 (특히 부정적 결과) 를 분석하여 탐색 공간을 확장하고 새로운 가설을 제안합니다.
- Executor: 제안된 가설을 기반으로 Python 실험 코드를 작성, 실행하고 정량적 보고서 (효과 크기, Null 보정 p-value, Pass/Fail 판정) 를 생성합니다.
- 루프 횟수: 52 회 반복을 통해 총 141 개의 독립적인 가설을 검증했습니다.
데이터 및 모델:
- 모델: scGPT (12 레이어) 와 Geneformer (18 레이어).
- 데이터: Tabula Sapiens 아틀라스 기반의 3 가지 조직 도메인 (폐, 면역, 외부 폐).
- Ground Truth: DoRothEA, TRRUST, STRING, Gene Ontology 등을 활용한 전사 인자 - 표적 (TF-target) 및 단백질 상호작용 데이터.
엄격한 Null 모델 계층 구조 (Null Models Hierarchy):
- 결과의 신뢰성을 높이기 위해 점진적으로 엄격해지는 5 가지 Null 모델을 적용했습니다.
- Feature-shuffle: 임의의 특징 섞기 (가장 약한 통제).
- Label-permutation: 레이블 무작위화.
- Degree-preserving rewiring: 연결성 패턴은 유지하되 이웃 관계를 재배열.
- Coexpression-matched: 공발현 (coexpression) 수준을 일치시킨 후 무작위화 (가장 강력한 교란 변수 통제).
- Strict max-null audit: 모든 Null 가족 중 95 백분위수의 최대값을 기준으로 한 가장 보수적인 검증.
평가 지표:
- $\Delta$ AUROC: 베이스라인 대비 규제적 유전자 쌍 식별 능력 향상.
- Null-gap: 관측된 신호가 Null 분포의 95 백분위수를 초과하는지 여부.
- Robustness: 모든 조직 도메인과 분할 (split) 에서 일관되게 통과하는지 여부.

3. 주요 기여 (Key Contributions)

자율적 가설 스크리닝 프레임워크: 생물학적 모델 해석 가능성 (interpretability) 연구에 있어 141 개의 가설 (긍정 및 부정 결과 모두 포함) 을 체계적으로 검증한 최초의 대규모 시도.
생물학적 파운데이션 모델의 기하학적 구조 매핑: 모델이 학습한 위상적/기하학적 구조가 어디까지 생물학적으로 유의미한지, 어디까지 통계적 인위적인지 명확한 경계를 제시.
부정적 결과의 체계적 문서화: 70 개 이상의 가설이 엄격한 통제 하에서 실패했음을 공개하여, 기존 연구의 과장된 주장을 교정하고 해석 가능성 연구의 기준을 확립.

4. 주요 결과 (Key Results)

A. 강력한 긍정적 발견 (Robust Positive Findings)

모델 간 기하학적 일치 (Cross-model Consistency):
- scGPT 와 Geneformer 는 독립적으로 학습되었음에도 불구하고, 유전자 공간의 기하학적 "형태" (shape) 에 대해 높은 일치를 보였습니다 (CCA 상관관계 0.80, 유전자 검색 정확도 72%).
- 한계: 두 모델은 유전자 간의 거리, 이웃, 군집 구조는 공유하지만, 개별 유전자의 정밀한 좌표 (placement) 는 일치하지 않았습니다. 즉, "지도의 전체적인 모양"은 같으나 "건물의 정확한 위치"는 다릅니다.
비자명한 위상 구조 (Non-trivial Topology):
- 유전자 임베딩 이웃은 무작위 배치보다 유의미한 루프 (loops, H1 persistence) 구조를 가집니다 (12 개 레이어 중 11~12 개에서 유의).
- 이는 생물학적 피드백 루프나 모듈 간 연결을 반영할 수 있습니다.
- 주의: 이 위상적 구조는 그래프 연결성 (neighboring identity) 에 의존하며, 차수 보존 (degree-preserving) 재배열 Null 하에서는 사라집니다. 즉, 깊은 기하학적 불변량이 아니라 구체적인 이웃 패턴에서 비롯된 것입니다.
규제적 거리 계층 (Distance Hierarchy):
- 유클리드 거리보다 지오데식 (geodesic) 및 확산 거리 (diffusion distance) 가 규제적 유전자 쌍을 식별하는 데 더 우수합니다.
- 삼각 결함 스펙트럼 (Triangle-defect spectrum): 국소 곡률을 정량화한 이 지표가 가장 강력한 단일 기하학적 특징으로 작용했습니다.
부호화된 모티프 - 커뮤니티 정렬 (Signed Motif-Community Alignment):
- 가장 강력한 발견 (H123) 은 TRRUST 데이터베이스의 전사 인자 활성화/억제 부호와 기하학적 커뮤니티 구조가 정렬된다는 것입니다.
- 활성화 대상과 억제 대상이 전사 인자 내에서 기하학적으로 구별 가능한 위치에 배치됩니다.
- 이 발견은 모든 엄격한 Null 통제 (Strict max-null audit) 하에서도 생존했습니다.

B. 부정적 발견 및 한계 (Negative Findings & Limitations)

조직 특이성 (Tissue Specificity):
- 면역 조직 (Immune): 모든 엄격한 통제 하에서 강력한 신호가 관찰됨.
- 폐 조직 (Lung/External-lung): 엄격한 통제 (Strict max-null audit) 하에서 신호가 약해지거나 사라짐. 이는 면역 시스템의 모듈화된 규제 구조와 더 풍부한 주석 (annotation) 과 관련이 있을 수 있습니다.
유전자 수준 대응 실패:
- 19 가지 정렬 방법 (Optimal transport, Gromov-Wasserstein 등) 을 시도했으나, 모델 간 유전자 수준의 1 순위 매칭 정확도는 1% 미만이었습니다.
생물학적 정보 추가의 역설:
- GO 나 STRING 과 같은 추가 생물학적 주석을 모델 기하학에 결합하면 raw 효과 크기는 커지지만, Null-gap(통제 후 잔여 신호) 은 오히려 감소하여 통계적 유의성이 떨어졌습니다. 이는 추가 정보가 Null 모델과 상관되어 혼란을 초래했음을 시사합니다.
실패한 가설들:
- 위상적 루프가 그래프 재배열에 강건하지 않음, 쌍곡 기하학 (hyperbolicity) 이 적합하지 않음, 내재적 차원 (intrinsic dimension) 이 예측력이 없음 등 70 개 이상의 가설이 엄격한 통제 하에서 기각되었습니다.

5. 의의 및 결론 (Significance & Conclusion)

현실적인 기대치 설정: 생물학적 파운데이션 모델은 실제 생물학적 구조 (위상, 거리 계층, 커뮤니티) 를 학습하지만, 그 구조는 조직에 따라 다르며 (면역 조직에서 가장 강함), 엄격한 통계적 통제 하에서는 더 제한적입니다.
해석 가능성 연구의 새로운 표준:
- Null 모델의 중요성: 단순한 특징 섞기 (feature-shuffle) 가 아닌, 재배열 (rewiring) 이나 공발현 매칭 (coexpression-matched) 같은 강력한 Null 모델을 사용해야 합니다.
- 부정적 결과의 가치: 141 개 가설 중 약 10% 만이 가장 엄격한 통제 하에서 생존했습니다. 이는 "모델이 무엇을 학습하지 않는지"를 아는 것이 "무엇을 학습하는지" 아는 것만큼 중요함을 보여줍니다.
- 다변량 접근: 단일 기하학적 지표보다는 여러 특징 (거리, 위상, 방향성 등) 을 결합한 안정성 선택 (stability selection) 이 더 우수한 성능을 냅니다.
결론: 이 연구는 생물학적 모델의 내부 표현이 단순한 통계적 인위물이 아님을 증명하면서도, 그 기하학적 구조가 얼마나 국소적이고 조건부인지에 대한 정밀한 지도를 제공했습니다. 이는 향후 생물학적 모델 해석 및 활용에 있어 신중한 접근과 엄격한 검증의 필요성을 강조합니다.