Pushing the limits of one-dimensional NMR spectroscopy for automated… — 쉬운 설명

원저자: Frank Hu, Jonathan M. Tubb, Dimitris Argyropoulos, Sergey Golotvin, Mikhail Elyashberg, Grant M. Rotskoff, Matthew W. Kanan, Thomas E. Markland

게시일 2026-06-10

📖 3 분 읽기☕ 가벼운 읽기

보기: arXiv ↗PDF ↗

CC BY 4.0

원저자: Frank Hu, Jonathan M. Tubb, Dimitris Argyropoulos, Sergey Golotvin, Mikhail Elyashberg, Grant M. Rotskoff, Matthew W. Kanan, Thomas E. Markland

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

당신이 탐정이 되어 미스터리를 풀고 있다고 상상해 보십시오. 하지만 지문이나 목격자 대신, 당신에게 주어진 것은 용의자의 그림자가 찍힌 흐릿한 사진 한 장뿐입니다. 당신의 임무는 그 그림자 하나만으로 용의자의 얼굴, 몸, 그리고 옷차림 전체를 재구성하는 것입니다.

이것은 화학자들이 1D NMR 분광법만을 사용하여 새로운 분자의 구조를 파악하려고 할 때 직면하는 상황과 본질적으로 같습니다.

불가능한 퍼즐

화학의 세계에서 분자는 복잡한 레고 구조와 같습니다. 중간 크기의 분자(탄소, 질소, 산소와 같은 '무거운' 원자가 약 36~40개인 경우)의 경우, 그 레고 조각들을 조립할 수 있는 방법은 지구상의 모든 해변에 있는 모래알의 개수보다 더 많습니다. 논문은 이 숫자를 $10^{20}$ 에서 $10^{60}$ 사이로 추정합니다.

전통적으로, 단순한 1D NMR "그림자"(스펙트럼)만을 사용하여 특정 레고 구조가 무엇인지 알아내는 것은 불가능한 일로 여겨졌습니다. 그것은 마치 수십억 개의 레고 브릭이 어떻게 배치되어 있는지 단 하나의 평면적인 그림자만 보고 맞히려는 것과 같습니다. 보통 화학자들은 이 퍼즐을 풀기 위해 2D NMR(3D 지도를 제공함)이나 정확한 성분 목록(분자식)과 같은 더 많은 단서가 필요합니다.

AI 탐정

연구진은 이 퍼즐을 1D NMR 그림자만을 사용하여 해결할 수 있는 아주 똑똑한 AI 탐정(현대적인 챗봇의 기반이 되는 기술인 "트랜스포머" 모델)을 구축했습니다.

그들은 다음과 같은 영리한 2단계 과정을 통해 이 AI를 훈련시켰습니다.

1단계: 형태의 언어 배우기 (사전 훈련)
AI가 NMR 그림자를 보기 전에, 연구진은 AI에게 다른 게임을 가르쳤습니다. 그들은 AI에게 분자의 작은 조각(단편)들을 설명하는 디지털 바코드와 같은 "모건 지문(Morgan fingerprints)"을 주고, 그 바코드를 이용해 전체 레고 구조를 만들어보라고 요구했습니다.

비유: 아이에게 창문, 문, 벽과 같은 브릭 목록을 보여주고 집을 조립하게 함으로써 집 짓는 법을 가르치는 것과 같습니다.
결과: AI는 숙련된 건축가가 되었습니다. AI는 조각 목록을 보고 전체 집을 97.8%의 확률로 정확하게 재구성할 수 있었습니다.

2단계: 실제 테스트 (스펙트럼에서 구조로)
AI가 숙련된 건축가가 된 후, 연구진은 NMR "그림자"를 보고 직접 레고 구조를 추측하는 진짜 과제를 부여했습니다.

연구진은 AI에게 성분 목록(분자식)을 주지 않았습니다.
3D 지도도 주지 않았습니다.
오직 1D NMR 스펙트럼만을 주었습니다.

결과: 불가능한 것을 해결하다

AI는 이 불가능한 과제에서 기적을 선보였습니다:

정확도: 최대 40개의 원자로 이루어진 분자에 대해, AI는 상위 15개의 추측 안에 정답을 맞힐 확률이 약 **60%**였습니다.
"그림자" vs "지도": AI가 비록 정확히 맞는 답을 내놓지 못하더라도, 제안한 구조는 실제 분자와 매우 유사했습니다. 만약 틀린 답을 냈더라도, 그 AI가 제안한 구조는 실제 분자와 82% 유사했습니다. 이는 마치 탐정이 용의자가 파란색 모자 대신 빨간색 모자를 쓰고 있다고 추측했지만, 나머지 옷차림은 제대로 맞힌 것과 같습니다.
한 쪽 눈만으로도 충분하다: 놀랍게도 AI는 탄소( $^{13}\text{C}$ ) 데이터 없이 수소( $^1\text{H}$ ) NMR 스펙트럼만을 사용하여 대부분의 작업을 수행할 수 있었습니다. 이 경우 상위 15개 추측 내 정답률은 46.6%였습니다.
실제 환경 적응력: AI는 컴퓨터 시뮬레이션으로 훈련되었지만, 연구진은 단 50개의 실제 실험 스펙트럼만으로도 이를 "미세 조정(fine-tuning)"할 수 있음을 보여주었습니다. 이 아주 적은 양의 실제 데이터만으로도, 실제 데이터에 대한 정확도가 0%에서 21.5%로 급증했습니다.

이것이 중요한 이유

화학적 공간을 $10^{60}$ 권의 책이 있는 도서관이라고 생각해 보십시오. 표지(1D NMR 스펙트럼)를 읽는 것만으로 당신이 필요한 특정 책을 찾는 것은 불가능하다고 여겨졌습니다. 이 AI는 단순히 책을 찾는 것이 아니라, 검색 범위를 15권 정도의 작은 더미로 좁혀주며, 그중 6권은 당신이 원하는 책일 가능성이 높습니다.

이 논문은 이 도구가 과학자들이 더 복잡한 데이터를 얻는 데 드는 비용과 시간을 절약할 수 있게 해준다고 결론짓습니다. 이 도구는 강력한 필터 역할을 하여, 화학 실험실에서 구할 수 있는 가장 단순하고 흔한 데이터를 바탕으로 무한한 화학 구조의 가능성을 관리 가능한 몇 가지로 빠르게 좁혀줍니다.

기술 요약: 자동화된 구조 규명을 위한 인공지능 기반 1차원 NMR 분광법의 한계 돌파

문제 정의
1차원(1D) NMR 분광법은 유기 화합물을 특성화하는 주요 도구이지만, ¹H 및/또는 ¹³C NMR 스펙트럼만으로 분자의 전체 구조(화학식 및 연결성)를 결정하는 것, 즉 de novo 구조 생성은 수 개의 원자 이상을 가진 분자에 대해 전통적으로 난해한 것으로 간주되어 왔습니다. 이는 최대 36개의 비수소 원자를 가진 분자에 대해 가능한 구조의 수가 $10^{20}$ 에서 $10^{60}$ 에 이르는 조합 폭발(combinatorial explosion) 때문입니다. 기존의 컴퓨터 보조 구조 규명(CASE) 방식은 일반적으로 추가적인 데이터(예: 2D NMR, HR-MS, 분자식)를 필요로 하거나 후보 라이브러리와의 매칭에 의존하며, 이는 새로운 화합물이나 그러한 맥락적 정보가 없는 상황에서의 적용 가능성을 제한합니다. 현재의 머신러닝 방법들은 중간 단계나 광범위한 조건부 정보 없이 전체 스펙트럼-투-구조(spectrum-to-structure) 과제를 해결하는 데 실패하는 경우가 많습니다.

방법론
저자들은 분자식이나 기타 맥락적 데이터 없이 오직 1D ¹H 및 ¹³C NMR 스펙트럼만을 사용하여 스펙트럼-투-구조 및 스펙트럼-투-서브스투럭처(substructure) 과제를 해결하기 위해 트랜스포머 아키텍처에 기반한 엔드 투 엔드(end-to-end) 딥러로닝 프레임워크를 제안합니다.

사전 학습 (Substructure-to-Structure): 프레임워크는 모건 핑거프린트(Morgan fingerprints, 분자 서브스투럭처를 나타내는 이진 벡터)로부터 SMILES 문자열을 재구성하는 과정에서 트랜스포머 모델이 학습하는 사전 학습 단계를 활용합니다. 이 작업은 모델이 분자 표현의 의미론과 구문론적 타당성에 조건화되도록 합니다. 모델은 최대 40개의 헤비 원자(C, N, O, H, B, P, S, Si, F, Br, Cl, I 포함)를 가진 PubChem의 8,800만 개의 고유한 SMILES 문자열을 바탕으로 학습되었습니다.
멀티태스크 아키텍처: 사전 학습된 가중치는 멀티태스크 모델의 구조 규명 브랜치를 초기화하는 데 전이됩니다.
- 입력: 모델은 합성된 1D ¹H NMR 스펙트럼(CNN을 통해 인코딩됨)과 ¹³C NMR 화학적 이동(chemical shifts) 임베딩 표현을 입력으로 받습니다.
- 처리: 결합된 잠재 표현(latent representation)은 두 개의 병렬 브랜치로 전달됩니다.
  - 서브스투럭처 규명 브랜치(4층 트랜스포머 인코더)는 특정 분자 파편이 존재할 확률을 예측합니다.
  - 구조 예측 브랜치(8층 인코더-디코더 트랜스포머)는 자기회귀(autoregressively) 방식으로 SMILES 문자열을 생성합니다.
학습 데이터: 멀티태스크 모델은 ACD/Labs 예측기를 사용하여 생성된 순방향 시뮬레이션 ¹H 및 ¹³C NMR 스펙트럼을 가진, 다양성을 확보하고 데이터 누출을 방지하기 위해 선별된 200만 개의 분자 세트로 학습되었습니다.

주요 결과

Substructure-to-Structure 성능: 사전 학습 모델은 최대 40개의 헤비 원자를 가진 분자에 대해 모건 핑거프린트로부터 SMILES 문자열을 재구성하는 데 있어 **Top-15 정확도 97.8%**를 달성했습니다. 가장 큰 분자(40개 헤비 원자)에 대해서도 정확도는 88.8%로 높게 유지되었으며, 잘못된 예측이라 할지라도 타겟과의 Tanimoto 유사도가 높았습니다(평균 MTS 0.82). 이는 모델이 정확한 재구성에 실패하더라도 상당한 구조적 정보를 복구함을 나타냅니다.
Spectrum-to-Structure 성능: 멀티태스크 프레임워크는 오직 1D ¹H 및 ¹³C NMR 스펙트럼만을 사용하여 테스트 세트에서 **Top-15 구조 정확도 60.4%**를 달달성했습니다. 이 성능은 분자 크기가 10~40개 헤비 원자 범위 내에서 화학 공간이 30 orders of magnitude 이상 증가함에도 불구하고 유지되었습니다.
- ¹H NMR 스펙트럼만 사용했을 때 Top-15 정확도는 46.6%였습니다.
- ¹³C NMR 스펙트럼만 사용했을 때 Top-15 정확도는 19.4%였습니다.
- 사전 학습은 무작위 초기화 대비 Top-15 구조 정확도를 22 퍼센트 포인트 향상시켰습니다.
원소 커버리지: 모델은 C, N, O, H를 넘어 P, S, Si, B, 할로겐을 포함한 원소들로 성공적으로 일반화되었습니다. 원소별로 정확도는 차이가 있었으나(예: S는 높고 P는 낮음), 모델은 희귀 원소(예: B, I)를 포함하는 구조를 20% 이상의 정확도로 예측하는 능력을 보여주었습니다.
서브스투럭처 예측: 모델은 서브스투럭처 예측에서 F1 점수 0.84를 달성했습니다. 예측은 매우 확신에 차 있었으며, 98.1%의 확률값이 0.1–0.9 범위를 벗어났습니다.
실험적 검증: BMRB의 50개 실험 스펙트럼 세트에 대해 미세 조정(fine-tuning)했을 때, 모델은 실험 데이터에 대해 **Top-15 구조 정확도 21.5%**를 달성했습니다. 이는 제로샷(zero-shot) 정확도가 0.0%였던 것에 비해 유의미한 개선이며, 시뮬레이션 데이터에 대한 성능을 유지하면서도 달성한 결과입니다.
후보 생성: 정확한 구조가 예측되지 않은 경우에도, 모델의 최선인 오답은 종종 8500만 개의 PubChem 학습 세트에서 발견된 어떤 분자보다 타겟 분자에 더 가까웠습니다(40개 헤비 원자 시스템의 실패 사례 중 32.2%에서 Top-1 위치 차지).

의의 및 주장
본 논문은 이 프레임워크가 일상적인 1D NMR 데이터만을 사용하여 de novo 구조 생성을 가능하게 함으로써 화학 공간의 조합적 스케일링 문제를 극복한다고 주장합니다. 자연어 처리와 트랜스포머 아키텍처의 통찰력을 활용함으로써, 저자들은 최대 40개의 헤비 원자를 가진 시스템에 대해 첫 15개의 예측 안에 정확한 분자를 예측할 확률이 60.4%에 달한다는 것을 입증했습니다.

저자들은 이 연구가 완전히 자동화된 구조 규명을 향한 기초적인 단계라고 위치시킵니다. 그들은 이 프레임워크가 다음을 제공한다고 주장합니다:

초기 구조 생성을 위해 복잡한 2D NMR이나 분자식을 요구하는 병목 현상을 제거합니다.
무차별 대입 탐색(brute-force search)이나 반복적인 유전 알고리즘에 대한 계산 효율적인 대안을 제공합니다.
대규모 데이터셋에서의 사전 학습을 통해 효과적인 미세 조정을 가능하게 하는 "파운데이션 모델(foundational model)" 역량을 제공합니다.
정확한 구조가 즉각적으로 식별되지 않더라도 화학적 탐색 공간을 제한할 수 있는 고품질의 후보 분자를 생성하여, 보다 철저한 탐색 기반 방법이나 CASE 도구의 시드(seed) 역할을 할 수 있게 합니다.

저자들은 입체 화학(stereochemical) 결정 문제와 시뮬레이션 및 실험 데이터 간의 격차를 포함한 남은 과제들을 인정하면서도, 본 접근 방식이 약물 유사 화학 공간 전반에 걸쳐 자동화된 규명을 확장할 수 있는 강력한 토대를 제공한다고 단언합니다.

Pushing the limits of one-dimensional NMR spectroscopy for automated structure elucidation using artificial intelligence

불가능한 퍼즐

AI 탐정

결과: 불가능한 것을 해결하다

이것이 중요한 이유

유사한 논문