Suiren-1.0 Technical Report: A Family of Molecular Foundation Models
이 논문은 3 차원 기하학적 구조와 2 차원 통계적 앙상블 공간을 연결하는 알고리즘적 프레임워크를 통해 다양한 유기 시스템의 정밀한 모델링을 가능하게 하는 Suiren-1.0 이라는 분자 기반 모델 가족을 소개하고, 3 차원 구조를 2 차원 표현으로 압축하는 증류 기법을 통해 경량화된 모델을 포함한 세 가지 변형 모델을 개발하여 다양한 작업에서 최첨단 성능을 달성했다고 요약할 수 있습니다.
원저자:Junyi An, Xinyu Lu, Yun-Fei Shi, Li-Cheng Xu, Nannan Zhang, Chao Qu, Yuan Qi, Fenglei Cao
이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기
Each language version is independently generated for its own context, not a direct translation.
수이런 (Suiren-1.0): 분자 세계를 이해하는 '초지능 AI'의 탄생
이 논문은 **'수이런 (Suiren-1.0)'**이라는 새로운 인공지능 모델 가족을 소개합니다. 이 모델은 화학 물질 (분자) 의 성질을 정확히 예측하고, 새로운 약이나 재료를 찾아내는 데 도움을 주기 위해 만들어졌습니다.
전문적인 용어 대신, 일상적인 비유를 통해 이 기술이 어떻게 작동하고 왜 중요한지 쉽게 설명해 드리겠습니다.
1. 왜 이 모델이 필요한가요? (문제 상황)
분자를 이해하는 데는 두 가지 큰 장벽이 있었습니다.
장벽 1: 3D(입체) 와 2D(평면) 의 괴리
3D 세계 (현실): 분자는 실제로 공처럼 둥글거나 꼬인 3 차원 구조를 가집니다. 이 구조에 따라 분자의 성질이 결정되죠. 하지만 이걸 계산하려면 슈퍼컴퓨터도 힘들어할 만큼 복잡한 물리 법칙 (양자 역학) 을 적용해야 합니다.
2D 세계 (데이터): 우리가 가지고 있는 대부분의 데이터는 분자의 구조를 평면 그림 (2D) 이나 문자열 (SMILES) 로만 표현합니다. 3D 구조 정보가 빠져있죠.
기존 모델의 한계: 3D 를 잘 아는 모델은 계산이 너무 느려서 실용적이지 않고, 2D 만 보는 모델은 분자의 실제 모양을 모른 채 예측해서 정확도가 떨어졌습니다.
수이런의 해결책: 이 두 세계를 연결하는 '다리' 역할을 합니다.
2. 수이런 1.0 의 세 가지 멤버 (모델 가족)
수이런은 세 가지 다른 역할을 하는 세 명의 형제 (모델) 로 구성되어 있습니다.
① 수이런 - 베이스 (Suiren-Base): "천재 물리학자"
역할: 거대한 3D 분자 구조를 공부하는 모델입니다.
비유: 이 모델은 **수백만 권의 '분자 물리학 교과서' (양자 역학 데이터)**를 독파한 천재 물리학자입니다. 분자가 어떻게 움직이고, 에너지를 어떻게 저장하는지 아주 정밀하게 계산할 수 있습니다.
특징: 18 억 개의 파라미터 (지식) 를 가지고 있어 매우 정확하지만, 계산이 무겁고 느립니다.
② 수이런 - 다이머 (Suiren-Drimer): "친구 관계 전문가"
역할: 분자끼리 서로 어떻게 영향을 주고받는지 배웁니다.
비유: 분자 한 개만 보는 게 아니라, 두 분자가 만났을 때 (약이 몸속 수용체와 만날 때 등) 어떤 일이 일어나는지를 연구하는 전문가입니다. 약물 개발에 필수적인 지식입니다.
③ 수이런 - 컨포평균 (Suiren-ConfAvg): "요리사 (가장 중요한 멤버)"
역할: 천재 물리학자의 지식을 압축해서, 누구나 쉽게 쓸 수 있게 만든 모델입니다.
비유: 이 모델은 천재 물리학자의 두뇌를 '요리 레시피'로 압축한 존재입니다.
CCD(압축 증류) 기술: 복잡한 3D 구조를 2D 그림이나 문자열만으로도 완벽하게 이해할 수 있도록 지식을 '증류'했습니다.
장점: 무거운 슈퍼컴퓨터 없이도, 일반 컴퓨터나 스마트폰에서도 빠르게 분자의 성질 (약효, 독성, 끓는점 등) 을 예측할 수 있습니다. 마치 "고급 레스토랑의 요리법을 일반 가정에서도 쉽게 따라 할 수 있게 만든" 것과 같습니다.
3. 어떻게 작동할까요? (핵심 기술)
이 모델이 어떻게 3D 와 2D 를 연결하는지 3 단계 과정으로 설명합니다.
배우기 (Pre-training):
'수이런 - 베이스'가 7 천만 개의 분자 데이터를 통해 3D 구조와 에너지 관계를 맹렬히 공부합니다. (물리 법칙을 체득)
압축하기 (Distillation):
여기서 **'CCD(Conformation Compression Distillation)'**라는 마법이 일어납니다.
비유: 복잡한 3D 분자 모양을 가진 '천재'가, 2D 평면 그림만 봐도 그 분자의 모든 성질을 알 수 있도록 '요리사 (수이런 - 컨포평균)'에게 지식을 전수합니다.
이 과정에서 분자가 가질 수 있는 여러 가지 모양 (입체 구조) 을 평균화하여, 가장 효율적인 지식을 추출합니다.
활용하기 (Fine-tuning):
이제 '요리사' 모델은 2D 그림이나 문자열만 입력받아도, 분자의 끓는점, 독성, 용해도 등 50 가지 이상의 성질을 정확하게 예측합니다.
4. 왜 이 기술이 혁신적인가요? (성과)
이 모델은 50 개 이상의 다양한 과학 과제에서 기존 최고의 모델들을 압도했습니다.
정확도: 약 20 개 이상의 과제에서 기존 모델보다 20% 이상 더 정확했습니다.
범용성: 약의 독성, 배터리 성능, 새로운 재료의 열적 성질 등 다양한 분야에서 모두 잘 작동합니다.
실용성: 복잡한 3D 데이터가 없어도, 평면 그림 (2D) 만 있으면 바로 예측이 가능해져서 실제 산업 현장 (신약 개발, 소재 연구) 에 바로 적용할 수 있습니다.
5. 마치며
수이런 -1.0은 분자 과학의 '번역기'이자 '가속기'입니다. 과거에는 분자의 성질을 알기 위해 값비싼 실험을 하거나, 엄청난 계산 능력을 가진 슈퍼컴퓨터를 써야 했지만, 이제는 이 AI 모델을 통해 빠르고 정확하게 새로운 약과 재료를 찾아낼 수 있게 되었습니다.
이 모든 모델과 데이터는 오픈소스로 공개되어, 전 세계 과학자들이 자유롭게 연구하고 더 발전시킬 수 있도록 준비되어 있습니다.
한 줄 요약: "복잡한 3D 분자 물리를 2D 그림으로 쉽게 이해하고 예측하게 해주는, 분자 과학을 위한 초지능 AI 가족의 탄생!"
Each language version is independently generated for its own context, not a direct translation.
Suiren-1.0: 분자 기초 모델 (Molecular Foundation Models) 가족에 대한 기술 요약
본 보고서는 Suiren-1.0이라는 일련의 분자 기초 모델 (Molecular Foundation Models) 을 소개합니다. 이 모델들은 다양한 유기 시스템의 정밀한 모델링을 목표로 하며, 3D 입체 구조 (conformational geometry) 와 2D 통계적 앙상블 공간 사이의 간극을 메우는 알고리즘적 프레임워크를 제공합니다.
1. 문제 정의 (Problem)
기존의 분자 모델링은 다음과 같은 근본적인 한계에 직면해 있습니다:
물리적 우선순위 (Physical Priors) 의 복잡성: 분자 행동은 양자 역학 (슈뢰딩거 방정식) 과 통계 열역학 (볼츠만 분포) 같은 복잡한 물리 법칙에 의해 지배됩니다. 고충실도 레이블 데이터의 부족으로 인해 데이터 기반 학습만으로 이러한 메커니즘을 포착하는 것은 어렵습니다.
다중 스케일 간극 (Multiscale Gap):
미시적 (Microscopic): 3D 입체 구조와 전자 밀도를 명시적으로 다루며, DFT(밀도 범함수 이론) 데이터를 기반으로 하지만, 데이터 생성 비용이 높습니다.
거시적 (Macroscopic): 1D SMILES 또는 2D 분자 그래프를 사용하며, 실험실 데이터는 풍부하지만 명시적인 입체 구조 정보가 부족합니다.
현재의 한계: 기존 3D 모델 (예: UMA) 은 범용성이 부족하고, 2D 모델 (예: MoleBERT) 은 입체 구조에 무감각 (conformation-blind) 하여 예측력이 제한적입니다. 두 모달리티 간의 연결이 부재합니다.
2. 방법론 (Methodology)
Suiren-1.0 은 세 가지 전문화된 변형 모델 (Suiren-Base, Suiren-Dimer, Suiren-ConfAvg) 로 구성되며, 3 단계 프레임워크를 통해 미시적 - 거시적 간극을 해결합니다.
2.1. Suiren-Base (3D 기초 모델)
아키텍처: 18 억 (1.8B) 파라미터의 고차 등변성 (SO(3)-Equivariant) 그래프 신경망 (GNN) 입니다. EquiformerV2 와 밀집 혼합 전문가 (Dense MoE) 블록을 결합하며, S2Activation 과 등변성 구형 변환기 (EST) 전문가를 사용합니다.
예측 목표: 3D 원자 좌표를 입력받아 양자 정확도 (DFT 수준) 의 포텐셜 에너지와 원자 간 힘을 예측합니다.
학습 전략:
데이터: 7000 만 개의 DFT 기반 분자 컨포머 샘플 (Qo2mol 데이터셋) 을 사용합니다.
EMPP (Enhanced Masked Potential Prediction): 무작위 원자 삭제 및 재구성 작업을 통해 물리적으로 타당한 국소 포텐셜 에너지 지형을 학습하도록 유도합니다.
기저 회전 (Basis Rotation): EST 전문가의 푸리에 기저에 무작위 3D 회전을 적용하여 이산화 오류를 줄이고 연속적인 구형 푸리에 행동을 근사합니다.
2.2. Suiren-Dimer (분자간 상호작용 모델)
Suiren-Base 의 지식을 기반으로, 1350 만 개의 이량체 (dimer) 상호작용 샘플에 대한 추가 전학습 (Continued Pre-training) 을 수행하여 분자 간 상호작용 (장거리 영향 포함) 을 모델링합니다.
2.3. Suiren-ConfAvg (거시적 응용 모델)
Conformation Compression Distillation (CCD): 3D 모델의 복잡한 지식을 2D 표현으로 압축하는 증류 (Distillation) 프레임워크입니다.
동작: 2D 분자 토폴로지 (SMILES/그래프) 와 3D 컨포머 에너지를 조건으로 하여, 3D 확산 (Diffusion) 모델을 통해 3D 표현과 좌표를 재구성하도록 학습합니다.
결과: 3D 정보가 압축된 잠재 표현 (Latent Representation) 을 생성하며, 이는 SMILES 나 2D 그래프만으로도 고충실도 분자 임베딩을 생성할 수 있게 합니다.
Dual GNN: 미세 조정 (Fine-tuning) 단계에서冻结된 Suiren-ConfAvg 와 태스크 특화 GNN 을 병렬로 사용하여 구조적 가이드를 제공합니다.
3. 주요 기여 (Key Contributions)
미시적 - 거시적 연결 프레임워크: 3D 컨포머 인식 기초 모델 학습 → CCD 를 통한 2D 압축 증류 → 다양한 하위 작업 미세 조정의 3 단계 통합 프레임워크를 제시했습니다.
물리적 우선순위 통합: 대규모 1 차 원리 (First-principles) 양자 화학 데이터와 물리 기반 알고리즘 (EMPP, EST) 을 결합하여 표현의 질을 향상시켰습니다.
광범위한 적용 가능성: 3D 모델에서 2D 모델로 지식을 증류하여, 실제 파이프라인에서 3D 구조 정보가 없는 경우 (SMILES/그래프 입력) 도 강력한 성능을 발휘하도록 했습니다.
오픈 사이언스: 모델 가중치, 코드, 그리고 MoleHB(40 개 이상의 이질적 태스크를 포함하는 새로운 벤치마크) 를 공개하여 재현 가능한 연구를 촉진했습니다.
4. 실험 결과 (Results)
Suiren-1.0 은 9 개의 과학 분야에 걸친 50 개 이상의 태스크에서 광범위한 평가를 받았습니다.
MoleHB 벤치마크:
성능: 43 개 속성 중 41 개에서 SOTA(State-of-the-Art) 인 평균 절대 오차 (MAE) 를 기록했습니다.
주요 개선:
임계 및 포화 속성: 임계 부피 (39.0%), 임계 압력 (22.8%) 등에서 기존 모델 대비 큰 개선.
에너지 속성: 깁스 에너지, 내부 에너지, 생성 엔탈피 등에서 30% 이상의 MAE 감소.
안전 및 변동 속성: 상한 폭발 한계 (16.7%), 고체 열용량 (65.2%) 등에서 뛰어난 성능.
TDC ADMET: 약물 발견 관련 태스크 (흡수, 분포, 대사, 배설, 독성) 에서 회귀 및 분류 태스크 모두에서 최상위 또는 상위권 성능을 보였으며, 복잡한 하이퍼파라미터 튜닝 없이도 일관된 성능을 입증했습니다.
모델 비교: Suiren-Base 는 에너지 및 힘 예측에서 기존 강건한 베이스라인 (EquiformerV2, eSCN 등) 을 압도적으로 능가했습니다. Suiren-ConfAvg 는 2D 입력만으로도 3D 모델에 버금가는 성능을 보여주며 배포 가능성을 입증했습니다.
5. 의의 및 결론 (Significance)
Suiren-1.0 은 분자 기초 모델 분야에서 다음과 같은 중요한 의의를 가집니다:
스케일링과 물리 법칙의 시너지: 대규모 모델 스케일링과 물리적 우선순위의 원리적 통합이 분자 예측의 정확도를 획기적으로 높일 수 있음을 증명했습니다.
실용적 배포: 3D 구조 정보가 부족한 실제 산업 환경 (신약 개발, 소재 발견 등) 에서도 2D 입력만으로 고품질 예측이 가능하도록 하여, 기초 연구와 실제 응용 간의 간극을 해소했습니다.
표준화: 오픈소스된 모델과 벤치마크 (MoleHB) 를 통해 분자 기초 모델 연구의 표준을 제시하고, 향후 연구의 재현성과 비교 평가를 용이하게 했습니다.
결론적으로, Suiren-1.0 은 분자의 미시적 양자 특성과 거시적 물성 사이의 관계를 체계적으로 모델링하는 새로운 패러다임을 제시하며, 차세대 분자 설계 및 발견을 위한 강력한 도구로 자리 잡았습니다.