Each language version is independently generated for its own context, not a direct translation.

🧪 오픈 분자 2025 (OMol25): 분자 세계의 '구글 지도'를 만든 이야기

이 논문은 메타 FAIR 연구팀이 분자 화학 분야에서 혁신을 일으키기 위해 거대한 데이터를 구축한 이야기를 담고 있습니다. 마치 분자 세계를 탐험하는 모든 과학자들에게 **'완벽한 지도와 나침반'**을 선물한 것과 같습니다.

이 복잡한 내용을 일상적인 언어와 비유로 쉽게 설명해 드릴게요.

1. 왜 이 프로젝트가 필요했을까요? (문제 상황)

지금까지 과학자들은 새로운 약을 만들거나, 더 좋은 배터리를 개발할 때 **'밀도 함수 이론 (DFT)'**이라는 아주 정밀하지만 무거운 계산기를 사용했습니다.

비유: DFT 는 마치 수학 천재가 손으로 하나하나 계산을 해가는 것과 같습니다. 정확도는 최고지만, 시간이 너무 오래 걸려서 큰 건물을 짓거나 복잡한 도시를 설계하는 데는 쓸 수 없었습니다.
한계: 그래서 과학자들은 '머신러닝 (AI)'을 이용해 이 천재의 계산을 흉내 내는 '가상 조수'를 만들려고 했습니다. 하지만 문제는 이 조수를 가르칠 만한 '교재 (데이터)'가 너무 부족하고 작았다는 점입니다. 기존 교재들은 어린이용 (작은 분자) 이거나, 특정 주제만 다뤘을 뿐, 전 세계의 모든 분자 상황을 다룰 수 없었습니다.

2. OMol25 란 무엇인가요? (해결책)

메타 연구팀은 **"분자 세계의 모든 것을 담은 거대한 도서관"**을 만들었습니다. 이것이 바로 OMol25입니다.

규모: 이 도서관에는 1 억 4 천만 개 이상의 분자 계산 데이터가 들어있습니다. 이는 컴퓨터로 계산하는 데만 66 억 시간이 걸린 어마어마한 양입니다.
다양성: 이 데이터는 단순히 작은 분자만 있는 게 아닙니다.
- 인체 속 단백질과 약물 (약 개발용)
- 금속과 리간드가 결합한 복잡한 구조 (촉매 개발용)
- 배터리 속 전해질 (에너지 저장용)
- 전하를 띤 이온과 스핀 상태 (전기 화학용)
- 최대 350 개의 원자로 이루어진 거대 분자까지 포함합니다.
비유: 기존 데이터가 '초등학교 교과서'였다면, OMol25 는 전 세계 모든 과목 (화학, 생물, 물리) 을 아우르는 대학원 수준의 백과사전입니다.

3. 어떻게 만들었나요? (방법)

연구팀은 단순히 데이터를 모은 게 아니라, 4 가지 주요 영역을 체계적으로 채웠습니다.

생체 분자 (Biomolecules): 단백질과 약물이 어떻게 붙는지, DNA 는 어떻게 꼬이는지 실험실 데이터와 컴퓨터 시뮬레이션을 섞어 만들었습니다.
금속 착물 (Metal Complexes): 금속 원자 주변에 다양한 분자들이 어떻게 달라붙는지, 반응할 때 어떻게 변하는지 무작위로 조합해 만들었습니다.
전해질 (Electrolytes): 배터리 액체 속 이온들이 어떻게 움직이고 서로 영향을 주는지, 물방울처럼 떨어뜨려서 시뮬레이션했습니다.
일반 분자 (Main-group): 기존에 없던 새로운 분자 구조나 반응 경로를 인위적으로 만들어 데이터를 보충했습니다.

이 모든 과정은 **최고 수준의 정확도 (DFT)**를 유지하면서 진행되었습니다. 마치 미세한 조각 하나하나까지 완벽하게 다듬은 정교한 조각품을 대량으로 만든 것과 같습니다.

4. 이 데이터로 무엇을 할 수 있나요? (활용)

이 거대한 데이터로 훈련된 AI 모델들은 이제 DFT 의 정확도를 유지하면서, 계산 속도는 수천 배 빨라졌습니다.

약 개발: 새로운 약이 단백질에 어떻게 붙을지, 부작용은 없을지 빠르게 예측할 수 있습니다.
배터리 혁신: 더 오래 가고 더 안전한 배터리 전해질을 찾아낼 수 있습니다.
환경 문제: 이산화탄소를 줄이는 새로운 촉매를 발견할 수 있습니다.

5. 평가와 미래 (결과)

연구팀은 단순히 데이터를 뭉쳐놓는 데 그치지 않고, **이 AI 모델들이 실제로 쓸모 있는지 테스트하는 '시험지'**도 함께 공개했습니다.

시험 결과: 최신 AI 모델들은 단백질 결합이나 분자 구조 예측에서 매우 높은 점수를 받았습니다. 하지만 전하가 변하는 반응이나 긴 거리의 상호작용 같은 어려운 문제에서는 아직 완벽하지 않다는 점도 발견했습니다.
미래: 이 데이터는 누구나 무료로 사용할 수 있습니다. 전 세계 과학자들이 이 '거대한 지도'를 바탕으로 더 똑똑한 AI 를 만들고, 우리가 상상하지 못했던 새로운 물질을 발견하기를 기대합니다.

🌟 한 줄 요약

"OMol25 는 분자 세계의 모든 상황을 정밀하게 기록한 '거대한 지도'로, 이제 AI 가 이 지도를 보고 약, 배터리, 신소재를 아주 빠르고 정확하게 찾아낼 수 있게 되었습니다."

이 프로젝트는 분자 과학의 '빅데이터 시대'를 열었으며, 앞으로 우리가 마주할 에너지와 의료 문제를 해결하는 열쇠가 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

Open Molecules 2025 (OMol25) 데이터셋 및 모델 기술 요약

이 논문은 메타 FAIR (Fundamental AI Research) 팀을 중심으로 발표된 Open Molecules 2025 (OMol25) 데이터셋과 이를 기반으로 훈련된 기계학습 (ML) 모델을 소개합니다. 분자 화학 분야에서 양자 화학적 정확도를 낮은 계산 비용으로 달성할 수 있는 머신러닝 인터원자 포텐셜 (MLIP) 의 개발을 가속화하기 위해 제작된 대규모 데이터셋입니다.

1. 문제 정의 (Problem)

계산 비용의 한계: 밀도 범함수 이론 (DFT) 은 분자 상호작용을 정확하게 모델링할 수 있지만, 전자 수에 따라 계산 복잡도가 3 차적으로 증가하여 대규모 시스템이나 장시간 시뮬레이션에 적용하기 어렵습니다.
데이터 부족: 기존 MLIP 모델의 성능 향상을 위해서는 방대하고 고품질의 데이터가 필요하지만, 기존 데이터셋 (QM9, MD-17 등) 은 원소 종류가 제한적 (주로 C, H, O, N, F) 이고, 전하 (charge) 나 스핀 (spin) 상태, 용매화, 반응성 구조 등을 포괄하지 못했습니다.
평가의 부재: 기존 평가 지표는 주로 평균 절대 오차 (MAE) 에 의존하여 실제 화학 응용 (예: 약물 설계, 배터리 전해질) 에 모델이 유용한지, 물리 법칙 (에너지 보존 등) 을 준수하는지, 분포 외 (Out-of-Distribution, OOD) 데이터에 일반화되는지 평가하는 데 한계가 있었습니다.

2. 방법론 (Methodology)

2.1 데이터 생성 (Dataset Construction)

OMol25 는 1 억 4 천만 개 이상의 DFT 단일점 (single-point) 계산으로 구성된 초대규모 데이터셋입니다.

이론 수준: $\omega$ B97M-V/def2-TZVPD 수준의 높은 정확도 DFT 이론을 사용했습니다. 이는 비공유 결합과 전하 분포를 정확히 묘사하기 위해 확산 함수 (diffuse functions) 가 포함된 삼중-제타 (triple-zeta) 기저 함수를 사용했습니다.
범위: 총 83 가지 원소를 포함하며, 시스템 크기는 2 개에서 최대 350 개의 원자까지 다양합니다.
주요 도메인:
1. 생체 분자 (Biomolecules): 단백질 - 리간드, 단백질 - 단백질, 핵산 상호작용 등. BioLiP2 데이터베이스 기반의 포켓 추출 및 분자 동역학 (MD) 시뮬레이션을 통해 생성되었습니다.
2. 금속 착물 (Metal Complexes): 전이 금속, 란타나이드, 주족 금속 등 다양한 리간드와 산화 상태를 가진 착물. Architector 패키지를 사용하여 생성되었으며, 반응성 경로 (AFIR) 도 포함됩니다.
3. 전해질 (Electrolytes): 이온, 용매, 첨가제가 포함된 용액. MD 기반 샘플링, 고전적 MD, 링 중합체 MD (RPMD, 양자 핵 효과 포함), 계면 (droplet) 시뮬레이션 등을 통해 생성되었습니다.
4. 주족 분자 (Main-group Molecules): 반응성 궤적, 무거운 주족 원소, 이온화/양자화 상태, 비활성 기체 등.
5. 커뮤니티 데이터 (Community): 기존 데이터셋 (ANI-2X, SPICE2 등) 을 OMol25 의 이론 수준으로 재계산하여 일관성을 확보했습니다.
데이터 품질 관리: ORCA 6.0.0 을 사용하여 계산을 수행했으며, 수렴 오류, 비물리적인 에너지/힘 값, 스핀 상태 불일치 등을 필터링하는 엄격한 품질 관리 절차를 거쳤습니다. 총 66 억 CPU 코어-시간의 계산 자원이 투입되었습니다.

2.2 평가 벤치마크 (Evaluation Tasks)

단순한 에너지/힘 오차뿐만 아니라 실제 화학적 과제를 수행하는 능력을 평가하기 위해 다양한 태스크를 설계했습니다.

단일점 (Single-point) 태스크: 단백질 - 리간드 상호작용 에너지/힘, 이온화 에너지 (IE)/전자 친화도 (EA), 스핀 갭, 거리 스케일링 (단거리/장거리 상호작용).
최적화 (Optimization) 태스크: 리간드 변형 에너지 (Ligand Strain), 컨포머 (Conformer) 순위 결정 및 구조 최적화, 양성자화 에너지 (Protonation Energies).
OOD (Out-of-Distribution) 분할: 훈련 데이터에 포함되지 않은 새로운 금속 - 리간드 결합, 단백질 내 금속 구조, 반응성 경로, 실험적 결정 구조 (COD) 등을 테스트 세트로 분리하여 일반화 능력을 평가했습니다.

2.3 기준 모델 (Baseline Models)

OMol25 데이터셋을 기반으로 여러 최신 MLIP 모델 (eSEN, GemNet-OC, MACE, UMA) 을 훈련시켰습니다.

전하 및 스핀 인식: 다양한 전하와 스핀 상태를 처리하기 위해 모델 입력에 전하와 스핀 정보를 임베딩하여 추가하는 아키텍처 변경을 적용했습니다.
학습 전략: 대규모 데이터셋을 효율적으로 학습하기 위해 다단계 학습 (Pre-training 후 정밀 조정) 및 혼합 정밀도 (BF16/FP32) 기법을 사용했습니다.

3. 주요 결과 (Key Results)

3.1 정확도 성능

전반적 성능: 훈련된 모델들은 테스트 세트에서 평균 에너지 오차 1.38 kcal/mol, 힘 오차 0.13 kcal/mol/Å 수준의 높은 정확도를 달성했습니다 (UMA-M-1.1 모델 기준).
도메인별 성능: 생체 분자와 중성 유기 분자 영역에서는 화학적 정확도 (~1 kcal/mol) 에 근접하거나 이를 초과하는 성능을 보였습니다. 반면, 금속 착물과 전해질 영역에서는 오차가 다소 높았으나 여전히 유의미한 수준이었습니다.
데이터 양의 영향: 전체 데이터셋 (All) 으로 훈련한 모델은 400 만 개 샘플 (4M) 로 훈련한 모델보다 50~100% 성능이 향상되었습니다.

3.2 평가 태스크별 성과

강점: 리간드 변형 에너지, 컨포머 순위 결정, 단백질 - 리간드 상호작용 에너지 예측에서 뛰어난 성능을 보였습니다. 특히 UMA-M-1.1 모델은 단백질 - 리간드 상호작용 에너지 MAE 를 0.45 kcal/mol 까지 낮췄습니다.
약점 및 과제:
- 이온화 에너지/스핀 갭: 전하나 스핀 상태가 다른 시스템 간의 에너지 차이를 예측하는 데 어려움이 있었습니다 (오차 4~9 kcal/mol). 이는 전하와 스핀의 국소화 (localization) 를 정확히 모델링하는 아키텍처 개선이 필요함을 시사합니다.
- 장거리 상호작용: 컷오프 반경 (약 6Å) 을 넘어선 장거리 상호작용 (Long-range) 에서 에너지 오차가 급격히 증가했습니다. 이는 현재 기준 모델들이 장거리 보정 (long-range correction) 이 부족하기 때문입니다.

4. 주요 기여 (Key Contributions)

대규모 고품질 데이터셋: 83 개 원소, 350 개 원자까지의 시스템, 전하/스핀/용매화/반응성을 포괄하는 최초의 초대규모 DFT 데이터셋 (OMol25) 을 공개했습니다.
포괄적인 평가 벤치마크: 단순한 오차 측정을 넘어, 실제 화학 응용 (약물 설계, 배터리, 촉매 등) 에 필요한 다양한 평가 태스크와 OOD 분할을 제시하여 모델의 실용성을 검증할 수 있는 기준을 마련했습니다.
오픈 소스 생태계: 데이터셋, 사전 훈련된 모델 가중치, 평가 코드, 그리고 커뮤니티 참여를 위한 공개 리더보드를 모두 공개하여 연구 커뮤니티의 협력을 촉진합니다.
기반 모델 성능 입증: 현재 최첨단 모델들이 OMol25 를 기반으로 훈련될 때 화학적 정확도를 달성할 수 있음을 보여주었습니다.

5. 의의 및 향후 전망 (Significance & Outlook)

OMol25 는 분자 화학 분야에서 머신러닝 기반 시뮬레이션의 새로운 표준을 제시합니다. 이 데이터셋은 고처리량 (high-throughput) 분자 스크리닝, 새로운 약물 후보물질 발견, 배터리 전해질 설계, 촉매 개발 등 다양한 분야에서 실험을 대체하거나 보완할 수 있는 강력한 도구를 제공합니다.

향후 연구 방향으로는:

장거리 상호작용 및 전하/스핀 처리 개선: 현재 모델들의 약점인 장거리 힘과 전하/스핀 상태 변화에 대한 정확도를 높이기 위한 아키텍처 혁신이 필요합니다.
자유 에너지 및 반응성 평가 확장: 정적 구조뿐만 아니라 자유 에너지, 전이 상태 (Transition State), 반응 경로 최적화 등 동적 과정에 대한 평가를 확대할 계획입니다.
커뮤니티 참여: 공개 리더보드를 통해 전 세계 연구자들이 OMol25 를 활용하여 더 정확한 모델을 개발하고, 화학 공간의 미탐색 영역을 탐색할 것을 기대합니다.

결론적으로, OMol25 는 계산 화학의 한계를 극복하고 머신러닝이 실제 과학적 발견을 주도할 수 있는 토대를 마련한 획기적인 작업입니다.

The Open Molecules 2025 (OMol25) Dataset, Evaluations, and Models