Pushing the limits of one-dimensional NMR spectroscopy for automated structure elucidation using artificial intelligence

본 논문은 단일 차원의 1^1H 및 13^{13}C NMR 스펙트럼만을 사용하여 최대 40개의 비수소 원자를 가진 유기 분자에 대한 자동화된 데 노보(de novo) 구조 규명을 성공적으로 달성하며, 60.4%의 사례에서 상위 15개 예측 내에 대상 분자를 정확히 식별하는 트랜스포머 아키텍처 기반의 딥러닝 프레임워크를 제시한다.

원저자: Frank Hu, Jonathan M. Tubb, Dimitris Argyropoulos, Sergey Golotvin, Mikhail Elyashberg, Grant M. Rotskoff, Matthew W. Kanan, Thomas E. Markland

게시일 2026-06-10
📖 3 분 읽기☕ 가벼운 읽기

원저자: Frank Hu, Jonathan M. Tubb, Dimitris Argyropoulos, Sergey Golotvin, Mikhail Elyashberg, Grant M. Rotskoff, Matthew W. Kanan, Thomas E. Markland

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

당신이 탐정이 되어 미스터리를 풀고 있다고 상상해 보십시오. 하지만 지문이나 목격자 대신, 당신에게 주어진 것은 용의자의 그림자가 찍힌 흐릿한 사진 한 장뿐입니다. 당신의 임무는 그 그림자 하나만으로 용의자의 얼굴, 몸, 그리고 옷차림 전체를 재구성하는 것입니다.

이것은 화학자들이 1D NMR 분광법만을 사용하여 새로운 분자의 구조를 파악하려고 할 때 직면하는 상황과 본질적으로 같습니다.

불가능한 퍼즐

화학의 세계에서 분자는 복잡한 레고 구조와 같습니다. 중간 크기의 분자(탄소, 질소, 산소와 같은 '무거운' 원자가 약 36~40개인 경우)의 경우, 그 레고 조각들을 조립할 수 있는 방법은 지구상의 모든 해변에 있는 모래알의 개수보다 더 많습니다. 논문은 이 숫자를 102010^{20}에서 106010^{60} 사이로 추정합니다.

전통적으로, 단순한 1D NMR "그림자"(스펙트럼)만을 사용하여 특정 레고 구조가 무엇인지 알아내는 것은 불가능한 일로 여겨졌습니다. 그것은 마치 수십억 개의 레고 브릭이 어떻게 배치되어 있는지 단 하나의 평면적인 그림자만 보고 맞히려는 것과 같습니다. 보통 화학자들은 이 퍼즐을 풀기 위해 2D NMR(3D 지도를 제공함)이나 정확한 성분 목록(분자식)과 같은 더 많은 단서가 필요합니다.

AI 탐정

연구진은 이 퍼즐을 1D NMR 그림자을 사용하여 해결할 수 있는 아주 똑똑한 AI 탐정(현대적인 챗봇의 기반이 되는 기술인 "트랜스포머" 모델)을 구축했습니다.

그들은 다음과 같은 영리한 2단계 과정을 통해 이 AI를 훈련시켰습니다.

1단계: 형태의 언어 배우기 (사전 훈련)
AI가 NMR 그림자를 보기 전에, 연구진은 AI에게 다른 게임을 가르쳤습니다. 그들은 AI에게 분자의 작은 조각(단편)들을 설명하는 디지털 바코드와 같은 "모건 지문(Morgan fingerprints)"을 주고, 그 바코드를 이용해 전체 레고 구조를 만들어보라고 요구했습니다.

  • 비유: 아이에게 창문, 문, 벽과 같은 브릭 목록을 보여주고 집을 조립하게 함으로써 집 짓는 법을 가르치는 것과 같습니다.
  • 결과: AI는 숙련된 건축가가 되었습니다. AI는 조각 목록을 보고 전체 집을 97.8%의 확률로 정확하게 재구성할 수 있었습니다.

2단계: 실제 테스트 (스펙트럼에서 구조로)
AI가 숙련된 건축가가 된 후, 연구진은 NMR "그림자"를 보고 직접 레고 구조를 추측하는 진짜 과제를 부여했습니다.

  • 연구진은 AI에게 성분 목록(분자식)을 주지 않았습니다.
  • 3D 지도도 주지 않았습니다.
  • 오직 1D NMR 스펙트럼만을 주었습니다.

결과: 불가능한 것을 해결하다

AI는 이 불가능한 과제에서 기적을 선보였습니다:

  • 정확도: 최대 40개의 원자로 이루어진 분자에 대해, AI는 상위 15개의 추측 안에 정답을 맞힐 확률이 약 **60%**였습니다.
  • "그림자" vs "지도": AI가 비록 정확히 맞는 답을 내놓지 못하더라도, 제안한 구조는 실제 분자와 매우 유사했습니다. 만약 틀린 답을 냈더라도, 그 AI가 제안한 구조는 실제 분자와 82% 유사했습니다. 이는 마치 탐정이 용의자가 파란색 모자 대신 빨간색 모자를 쓰고 있다고 추측했지만, 나머지 옷차림은 제대로 맞힌 것과 같습니다.
  • 한 쪽 눈만으로도 충분하다: 놀랍게도 AI는 탄소(13C^{13}\text{C}) 데이터 없이 수소(1H^1\text{H}) NMR 스펙트럼만을 사용하여 대부분의 작업을 수행할 수 있었습니다. 이 경우 상위 15개 추측 내 정답률은 46.6%였습니다.
  • 실제 환경 적응력: AI는 컴퓨터 시뮬레이션으로 훈련되었지만, 연구진은 단 50개의 실제 실험 스펙트럼만으로도 이를 "미세 조정(fine-tuning)"할 수 있음을 보여주었습니다. 이 아주 적은 양의 실제 데이터만으로도, 실제 데이터에 대한 정확도가 0%에서 21.5%로 급증했습니다.

이것이 중요한 이유

화학적 공간을 106010^{60} 권의 책이 있는 도서관이라고 생각해 보십시오. 표지(1D NMR 스펙트럼)를 읽는 것만으로 당신이 필요한 특정 책을 찾는 것은 불가능하다고 여겨졌습니다. 이 AI는 단순히 책을 찾는 것이 아니라, 검색 범위를 15권 정도의 작은 더미로 좁혀주며, 그중 6권은 당신이 원하는 책일 가능성이 높습니다.

이 논문은 이 도구가 과학자들이 더 복잡한 데이터를 얻는 데 드는 비용과 시간을 절약할 수 있게 해준다고 결론짓습니다. 이 도구는 강력한 필터 역할을 하여, 화학 실험실에서 구할 수 있는 가장 단순하고 흔한 데이터를 바탕으로 무한한 화학 구조의 가능성을 관리 가능한 몇 가지로 빠르게 좁혀줍니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →