Molecular Representations for AI in Chemistry and Materials Science: An NLP Perspective

이 논문은 자연어 처리 (NLP) 관점에서 화학 및 재료 과학 분야에서 인공지능을 적용하기 위해 사용되는 주요 분자 표현법과 이를 활용한 AI 기반 응용 사례를 소개하여, 해당 분야 초심자를 위한 가이드를 제공합니다.

Sanjanasri JP, Pratiti Bhadra, N. Sukumar, Soman KP

게시일 Mon, 09 Ma
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"화학 물질 (분자) 을 인공지능 (AI) 이 이해할 수 있는 언어로 어떻게 번역할 것인가?"**에 대한 이야기입니다.

화학자들은 복잡한 분자 구조를 연구하지만, AI 는 아직 그 구조를 직접 볼 수 없습니다. AI 는 텍스트나 숫자 같은 데이터만 이해할 수 있기 때문입니다. 이 논문은 자연어 처리 (NLP, 컴퓨터가 인간 언어를 이해하는 기술) 의 아이디어를 차용하여, 분자를 AI 가 읽을 수 있는 '문장'이나 '숫자 코드'로 바꾸는 다양한 방법을 소개합니다.

이 내용을 일상적인 비유로 쉽게 설명해 드리겠습니다.


1. 핵심 아이디어: 분자는 '문장'이다

우리가 글을 쓸 때 **알파벳 (A, B, C)**을 조합해 단어를 만들고, 단어를 이어 문장을 만듭니다.

  • 화학의 세계: 원자 (탄소, 수소, 산소 등) 가 알파벳이고, 이들이 결합한 분자가 문장입니다.
  • 문제점: AI 는 이 '문장'을 읽을 수 있는 능력이 없습니다. AI 가 분자를 이해하려면, 분자를 AI 가 읽을 수 있는 '디지털 언어'로 번역해 줘야 합니다.

이 논문은 그 번역기를 만드는 여러 가지 방법 (표기법) 을 소개합니다.

2. 분자를 번역하는 4 가지 주요 방법 (비유 포함)

① SMILES: "간단한 메모장"

가장 오래되고 널리 쓰이는 방법입니다. 분자의 구조를 한 줄의 텍스트로 적습니다.

  • 비유: 레시피를 적을 때 "밀가루 200g, 설탕 50g"이라고 적는 것과 비슷합니다.
  • 장점: 사람이 읽기 쉽고 컴퓨터가 처리하기 편합니다.
  • 단점: 같은 레시피를 여러 가지 방식으로 적을 수 있어 혼란이 생길 수 있습니다. (예: "설탕 50g, 밀가루 200g"과 "밀가루 200g, 설탕 50g"은 같은 내용이지만 글자 순서가 다릅니다.) 또한, 3 차원 공간에서 어떻게 생겼는지 (입체 구조) 를 정확히 표현하기 어렵습니다.

② InChI: "공식 신분증"

국제화학연맹 (IUPAC) 이 만든 표준화된 코드입니다.

  • 비유: 주민등록번호나 여권 번호처럼, 분자 하나하나에게 고유한 번호를 부여하는 방식입니다.
  • 장점: 같은 분자는 항상 같은 번호를 가집니다. 데이터베이스에서 찾기 좋습니다.
  • 단점: 코드가 너무 깁니다. (긴 주소처럼) 그리고 사람이 읽기에는 복잡하고, 생성하는 데 시간이 많이 걸립니다. 그래서 이를 줄인 'InChI Key'라는 짧은 버전도 사용합니다.

③ DeepSMILES: "수정된 메모장"

SMILES 의 문제점 (괄호 불일치 등) 을 해결하기 위해 개발된 버전입니다.

  • 비유: SMILES 의 문법 오류를 고친 '수정판 레시피'입니다. 괄호를 닫는 방식만 사용하거나, 고리 모양 구조를 숫자로 명확히 표시하는 등 실수를 줄였습니다.
  • 단점: 아직은 SMILES 만큼 널리 쓰이지는 않습니다.

④ SELFIES: "틀리지 않는 레시피"

가장 최신이자 가장 안전한 방법입니다.

  • 비유: AI 가 분자를 만들 때, "이렇게 섞으면 폭발한다"거나 "이건 존재할 수 없는 물질"이라는 실수를 하지 않도록 완벽한 규칙을 적용한 레시피입니다.
  • 장점: AI 가 아무리 엉뚱한 조합을 시도해도, 결과물은 항상 화학적으로 가능한 '실제 존재하는 분자'가 됩니다. SMILES 의 가장 큰 약점인 '실수'를 완전히 없애줍니다.

3. 또 다른 방법: 분자를 '그림'으로 그리기 (그래프 기반)

텍스트 (문장) 로만 표현하는 게 아니라, 분자를 점 (원자) 과 선 (결합) 으로 이어진 그림으로 표현하는 방법입니다.

  • 비유: 지하철 노선도처럼 원자를 역 (점) 으로, 결합을 선로 (선) 로 표현합니다.
  • 장점: 분자의 3 차원 구조와 연결 관계를 훨씬 더 정밀하게 보여줍니다. 최근 AI 기술 (그래프 신경망) 이 발전하면서 이 방식이 매우 주목받고 있습니다.

4. 왜 이 모든 것이 중요한가요? (실제 활용)

이러한 '번역기'들이 있어야 AI 가 다음과 같은 일을 할 수 있습니다.

  • 새로운 약 만들기: AI 가 수조 개의 분자 조합을 빠르게 검토하여, 암을 치료할 수 있는 새로운 약 후보를 찾아냅니다.
  • 재료 과학: 더 강하거나 가벼운 새로운 소재를 설계합니다.
  • 반응 예측: 어떤 화학 반응을 시켰을 때 어떤 물질이 나올지 예측합니다.

5. 결론: 완벽한 방법은 아직 없다

이 논문은 결론적으로 **"어떤 방법이 최고인가?"**에 대해 다음과 같이 말합니다.

  • SMILES는 가볍고 빠르지만 실수가 날 수 있습니다.
  • InChI는 정확하지만 무겁습니다.
  • SELFIES는 안전하지만 아직 새로운 기술입니다.
  • 그래프 (그림) 방식은 정교하지만 계산이 복잡합니다.

마치 **"여행을 갈 때 비행기를 타느냐, 기차를 타느냐, 배를 타느냐"**를 선택하는 것과 같습니다. 목적지 (어떤 연구를 하느냐) 에 따라 가장 적합한 '분자 언어'를 골라야 한다는 것입니다.

한 줄 요약:
이 논문은 AI 가 화학의 복잡한 세계를 이해하고 새로운 약과 재료를 찾아낼 수 있도록, 분자를 AI 가 읽을 수 있는 '언어'로 번역하는 다양한 방법들을 소개하고, 각 방법의 장단점을 비교한 가이드북입니다.