The Open Molecules 2025 (OMol25) Dataset, Evaluations, and Models

메타 FAIR 는 화학적 다양성과 높은 정확도를 모두 갖춘 1 억 개 이상의 DFT 계산 데이터로 구성된 대규모 데이터셋 'Open Molecules 2025(OMol25)'와 이를 활용한 기준 모델 및 평가 체계를 공개하여 분자 화학 분야의 차세대 머신러닝 모델 개발을 촉진합니다.

Daniel S. Levine, Muhammed Shuaibi, Evan Walter Clark Spotte-Smith, Michael G. Taylor, Muhammad R. Hasyim, Kyle Michel, Ilyes Batatia, Gábor Csányi, Misko Dzamba, Peter Eastman, Nathan C. Frey, Xiang Fu, Vahe Gharakhanyan, Aditi S. Krishnapriyan, Joshua A. Rackers, Sanjeev Raja, Ammar Rizvi, Andrew S. Rosen, Zachary Ulissi, Santiago Vargas, C. Lawrence Zitnick, Samuel M. Blau, Brandon M. Wood

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧪 오픈 분자 2025 (OMol25): 분자 세계의 '구글 지도'를 만든 이야기

이 논문은 메타 FAIR 연구팀이 분자 화학 분야에서 혁신을 일으키기 위해 거대한 데이터를 구축한 이야기를 담고 있습니다. 마치 분자 세계를 탐험하는 모든 과학자들에게 **'완벽한 지도와 나침반'**을 선물한 것과 같습니다.

이 복잡한 내용을 일상적인 언어와 비유로 쉽게 설명해 드릴게요.


1. 왜 이 프로젝트가 필요했을까요? (문제 상황)

지금까지 과학자들은 새로운 약을 만들거나, 더 좋은 배터리를 개발할 때 **'밀도 함수 이론 (DFT)'**이라는 아주 정밀하지만 무거운 계산기를 사용했습니다.

  • 비유: DFT 는 마치 수학 천재가 손으로 하나하나 계산을 해가는 것과 같습니다. 정확도는 최고지만, 시간이 너무 오래 걸려서 큰 건물을 짓거나 복잡한 도시를 설계하는 데는 쓸 수 없었습니다.
  • 한계: 그래서 과학자들은 '머신러닝 (AI)'을 이용해 이 천재의 계산을 흉내 내는 '가상 조수'를 만들려고 했습니다. 하지만 문제는 이 조수를 가르칠 만한 '교재 (데이터)'가 너무 부족하고 작았다는 점입니다. 기존 교재들은 어린이용 (작은 분자) 이거나, 특정 주제만 다뤘을 뿐, 전 세계의 모든 분자 상황을 다룰 수 없었습니다.

2. OMol25 란 무엇인가요? (해결책)

메타 연구팀은 **"분자 세계의 모든 것을 담은 거대한 도서관"**을 만들었습니다. 이것이 바로 OMol25입니다.

  • 규모: 이 도서관에는 1 억 4 천만 개 이상의 분자 계산 데이터가 들어있습니다. 이는 컴퓨터로 계산하는 데만 66 억 시간이 걸린 어마어마한 양입니다.
  • 다양성: 이 데이터는 단순히 작은 분자만 있는 게 아닙니다.
    • 인체 속 단백질과 약물 (약 개발용)
    • 금속과 리간드가 결합한 복잡한 구조 (촉매 개발용)
    • 배터리 속 전해질 (에너지 저장용)
    • 전하를 띤 이온과 스핀 상태 (전기 화학용)
    • 최대 350 개의 원자로 이루어진 거대 분자까지 포함합니다.
  • 비유: 기존 데이터가 '초등학교 교과서'였다면, OMol25 는 전 세계 모든 과목 (화학, 생물, 물리) 을 아우르는 대학원 수준의 백과사전입니다.

3. 어떻게 만들었나요? (방법)

연구팀은 단순히 데이터를 모은 게 아니라, 4 가지 주요 영역을 체계적으로 채웠습니다.

  1. 생체 분자 (Biomolecules): 단백질과 약물이 어떻게 붙는지, DNA 는 어떻게 꼬이는지 실험실 데이터와 컴퓨터 시뮬레이션을 섞어 만들었습니다.
  2. 금속 착물 (Metal Complexes): 금속 원자 주변에 다양한 분자들이 어떻게 달라붙는지, 반응할 때 어떻게 변하는지 무작위로 조합해 만들었습니다.
  3. 전해질 (Electrolytes): 배터리 액체 속 이온들이 어떻게 움직이고 서로 영향을 주는지, 물방울처럼 떨어뜨려서 시뮬레이션했습니다.
  4. 일반 분자 (Main-group): 기존에 없던 새로운 분자 구조나 반응 경로를 인위적으로 만들어 데이터를 보충했습니다.

이 모든 과정은 **최고 수준의 정확도 (DFT)**를 유지하면서 진행되었습니다. 마치 미세한 조각 하나하나까지 완벽하게 다듬은 정교한 조각품을 대량으로 만든 것과 같습니다.

4. 이 데이터로 무엇을 할 수 있나요? (활용)

이 거대한 데이터로 훈련된 AI 모델들은 이제 DFT 의 정확도를 유지하면서, 계산 속도는 수천 배 빨라졌습니다.

  • 약 개발: 새로운 약이 단백질에 어떻게 붙을지, 부작용은 없을지 빠르게 예측할 수 있습니다.
  • 배터리 혁신: 더 오래 가고 더 안전한 배터리 전해질을 찾아낼 수 있습니다.
  • 환경 문제: 이산화탄소를 줄이는 새로운 촉매를 발견할 수 있습니다.

5. 평가와 미래 (결과)

연구팀은 단순히 데이터를 뭉쳐놓는 데 그치지 않고, **이 AI 모델들이 실제로 쓸모 있는지 테스트하는 '시험지'**도 함께 공개했습니다.

  • 시험 결과: 최신 AI 모델들은 단백질 결합이나 분자 구조 예측에서 매우 높은 점수를 받았습니다. 하지만 전하가 변하는 반응이나 긴 거리의 상호작용 같은 어려운 문제에서는 아직 완벽하지 않다는 점도 발견했습니다.
  • 미래: 이 데이터는 누구나 무료로 사용할 수 있습니다. 전 세계 과학자들이 이 '거대한 지도'를 바탕으로 더 똑똑한 AI 를 만들고, 우리가 상상하지 못했던 새로운 물질을 발견하기를 기대합니다.

🌟 한 줄 요약

"OMol25 는 분자 세계의 모든 상황을 정밀하게 기록한 '거대한 지도'로, 이제 AI 가 이 지도를 보고 약, 배터리, 신소재를 아주 빠르고 정확하게 찾아낼 수 있게 되었습니다."

이 프로젝트는 분자 과학의 '빅데이터 시대'를 열었으며, 앞으로 우리가 마주할 에너지와 의료 문제를 해결하는 열쇠가 될 것입니다.