원저자: Vansh Ramani, Har Ashish Arora, Dhairya Kuchhal, Sergei Tatarin, Lev Krasnov, Sayan Ranu, Tarak Karmakar

게시일 2026-06-09

📖 4 분 읽기☕ 가벼운 읽기

원저자: Vansh Ramani, Har Ashish Arora, Dhairya Kuchhal, Sergei Tatarin, Lev Krasnov, Sayan Ranu, Tarak Karmakar

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

개요: "용해도를 맞춰봐" 게임

당신이 요리사라고 상상해 보세요. 설탕(용질)이 물 한 컵, 기름 한 컵, 혹은 뜨거운 커피 한 컵(용매)에 각각 얼마나 녹을지 알아내려고 노력 중입니다. 화학에서는 이를 **용해도(solubility)**라고 부릅니다. 이는 약을 만드는 데 매우 중요하지만, 실험실에서 이를 측정하는 것은 특정 종류의 모래 알갱이가 특정 종류의 수프에서 녹는 데 시간이 얼마나 걸리는지 측정하려는 것만큼이나 느리고, 비용이 많이 들며, 지루한 작업입니다.

과학자들은 이 과정을 즉각적으로 예측할 수 있는 컴퓨터 프로그램(AI 모델)을 만들기 위해 노력해 왔습니다. 이 논문은 이러한 프로그램들이 겉보기에는 성능이 좋아 보일지 모르지만, 실제 세상에서 쓰이기에는 아직 준비가 되지 않았다고 주장합니다. 왜 그럴까요? 그들을 평가하는 데 사용하는 "성적표"가 고장 났기 때문입니다.

문제점: 고장 난 성적표

저자들은 이 분야에 세 가지 주요 문제가 있다고 말하며, 이를 규칙이 잘못된 스포츠 리그에 비유했습니다.

일관성 없는 규칙: 연구마다 데이터를 정제하는 방식이 다릅니다. 어떤 연구는 "설탕"과 "설탕 큐브"를 같은 것으로 간주하는 반면, 다른 연구는 서로 다른 것으로 취급합니다. 이로 인해 결과 비교가 불가능해집니다.
"인기 투표" 편향: 대부분의 테스트는 가장 흔한 용매(예: 물이나 에탄올)를 기준으로 오차를 측정합니다. 이는 마치 학생이 사과에 관한 수학 문제는 잘 풀지만, 오렌지에 관한 문제를 물으면 완전히 틀려버리는데도 사과 문제만 잘 풀면 만점을 주는 것과 같습니다. 모델들은 "사과"는 암기하지만, "오렌지"(희귀하고 중요한 용매)에서는 실패합니다.
잘못된 골대: 과학자들은 과거에 실험실 측정값 자체가 매우 불확실하다고 생각했기 때문에, 컴퓨터가 할 수 있는 최선이 특정 오차 범위(0.6–0.8 log S) 내에 들어오는 것이라고 믿었습니다. 저자들은 이것이 틀렸음을 증证明했습니다. 실험실 간의 평균적인 불일치를 살펴보면 실제로는 훨씬 더 정교하다(0.106)는 것을 발견했습니다. 기존의 골대는 너무 느슨해서 나쁜 모델도 좋은 모델처럼 보이게 만들었습니다.

해결책: SC3의 도입

연구팀은 더 공정하고 엄격한 놀이터인 SC3를 구축했습니다. 이를 용해도 게임을 위한 새롭고 매우 엄격한 심판이라고 생각하면 됩니다.

데이터: 그들은 엉망인 도서관을 정리하는 사서처럼 거대한 데이터베이스(BIGSOLDB)를 깨끗하게 정리했습니다. 중복된 데이터를 제거하고, 오타를 수정하며, 모든 "설탕"과 "수프" 쌍이 고유하고 정확하도록 만들었습니다. 그 결과 100,000개 이상의 고품질 측정값을 확보했습니다.
새로운 골대: 그들은 "노이즈 플로어(noise floor)"를 다시 계산했습니다. 실험실 간의 자연스러운 불일치는 사람들이 생각했던 것보다 실제로는 6배나 더 작다는 것을 증명했습니다. 이는 우리가 벽에 부딪힌 것이 아니라, 단지 올바른 길을 아직 찾지 못했을 뿐이며 개선의 여지가 훨씬 많다는 것을 의미합니다.
금/은/동 시스템: 그들은 세 가지 난이도를 만들었습니다.
- 금(Gold): 실험실 간의 의견이 완벽하게 일치하는 가장 깨끗한 데이터.
- 은(Silver): 데이터는 좋지만 약간의 노이즈가 있는 경우.
- 동(Bronze): 더 넓은 범위를 포함하며 다소 지저한 측정값이 섞인 데이터.
  이를 통해 모델이 단순히 추측을 하는 것인지, 아니면 실제로 화학을 학습하고 있는 것인지를 테스트할 수 있습니다.

결과: "구식"의 승리 (현재로서는)

그들은 단순한 수학 공식부터 복잡한 "딥러닝" 신경망(모두가 열광하는 화려한 AI)에 이르기까지 31개의 서로 다른 AI 모델을 이 새로운 벤치마크로 테스트했습니다.

충격적인 결과:
가장 발전되고 복잡한 AI 모델들(딥러닝 모델들)은 승리하지 못했습니다. 사실, 이들은 종-종 더 단순하고 오래된 모델들보다 성능이 떨어졌습니다.

우승자: RDKit 디스크립터(분자를 설명하는 표준적인 방법)와 그래디언트 부스팅 트리(강력하지만 단순한 통계적 방법)를 결합한 모델이 챔피언이 되었습니다.
격차: 최고의 AI 모델조차 이론적으로 가능한 한계치(노이즈 플로어)보다 약 5배나 더 나쁜 성능을 보였습니다.
교훈: 모델에 데이터가 더 필요한 것이 아닙니다. 모델이 분자를 "보는" 방식(표현 방식)에 결함이 있는 것입니다. 이는 마치 학생에게 그가 구사할 수 없는 언어로 쓰인 교과서를 주는 것과 같습니다. 아무리 공부해도, 그 언어를 배우기 전까지는 시험을 통과할 수 없습니다.

왜 화려한 AI는 실패했는가?

저자들은 모델이 실제로 무엇을 배우고 있는지 확인하기 위해 내부를 들여다보았습니다.

"지문(Fingerprint)"의 함정: 일부 모델은 "지문"(분자의 디지털 바코드)을 사용합니다. 이는 두 분자가 비슷하게 생겼는지 파악하는 데는 좋지만, 화학을 이해하는 데는 부족합니다. 예를 들어, 지문은 비누 분자의 긴 탄소 사슬이 연료 분자의 긴 탄소 사슬과 비슷하다고 생각할 수 있지만, 물에서의 행동은 매우 다릅니다.
"디스크립터(Descriptor)"의 이점: 우승한 모델들은 "디스크립터"(극성이나 크기와 같은 구체적인 화학적 숫자)를 사용했습니다. 이 모델들은 규칙을 직접 알려주지 않아도 일반 용해도 방정식(General Solubility Equation)과 같은 실제 화학 법칙을 스스로 학습했습니다. 즉, 분자의 모양보다 "극성"이 중요하다는 것을 이해했습니다.
"블랙박스" 문제: 화려한 AI 모델들(그래프 신경망)은 일부 화학을 배우고 있었지만, 너무 많은 변수 때문에 혼란을 겪었습니다. 이들은 단순하고 집중된 모델들만큼 일반화 능력이 뛰어나지 못했습니다.

"마법의 기술": 전이 학습(Transfer Learning)

저자들은 모델을 돕기 위해 마지막 기술을 시도했습니다. 모델을 가져와서, 실제의 지저분한 실험실 데이터로부터 학습시키기 전에 이론적인 양자 화학 계산(분자 간의 상호작용을 시뮬레이션한, 완벽하고 노이즈가 없는 데이터)으로 "사전 학습"시켰습니다.

결과: 효과가 있었습니다! 모델은 더 빨리 학습했고, 본 적 없는 희귀한 용매에 대해서도 더 나은 성능을 보였습니다.
한계: 이 "마법의 기술"을 사용하더라도 모델은 여전히 완벽한 점수에 도달하지 못했습니다. 이는 우리가 모델에게 더 많은 화학을 가르칠 수는 있지만, 분자를 표현하는 근본적인 방식이 여전히 병목 현상임을 증명했습니다.

요약

이 논문은 용해도 예측 분야가 "더 이상 발전할 수 없는" 한계에 도달한 것이 아니라, **표현의 정체기(representation plateau)**에 도달했다고 결론짓습니다.

걸작을 그리려고 하는데, 세밀한 묘사를 하기에는 너무 굵은 붓을 사용하고 있다고 상상해 보세요. 아무리 많은 물감(데이터)을 추가해도 그림은 결코 완벽해질 수 없습니다. 컴퓨터가 진정으로 용해도 예측이라는 예술을 마스터하기 위해서는, 더 많은 데이터가 아니라 더 나은 붓(분자를 표현하는 더 나은 방식)이 필요합니다.

핵심 요점: 현재 최고의 도구는 가장 복잡한 AI가 아니라, 잘 조율된 단순한 통계 모델입니다. 더 나아지기 위해서는 단순히 더 많은 데이터를 먹이는 것이 아니라, 컴퓨터에게 분자를 설명하는 방식을 고쳐야 합니다.

기술 요약: SC3 – 멀티 솔벤트 용해도 도전 과제 및 벤치마크

1. 문제 정의

용해도 예측은 약물 발견, 합성 계획 및 결정화에 있어 중요한 함의를 갖는 계산 화학의 근본적인 과제이다. 대규모 데이터셋(예: AQSOLDB, BIGSOLDB)의 가용성과 최근 실험적 노이즈 수준에 근접하는 모델들에 대한 보고에도 불구하고, 신뢰할 수 있는 배포는 여전히 요원한 상태이다. 저자들은 이러한 격차가 다음 세 가지 체계적인 문제에서 기인한다고 주장한다:

일관되지 않은 큐레이션: 발표된 벤치마크들은 서로 다른 단위 관례, 중복 처리 규칙, 입체 화학 정책을 적용하고 있어, 연구 간 결과 전이가 불가능하다.
단일 축 평가: 표준적인 집계 지표인 평균 제곱근 오차(RMSE)는 고빈도 용매에 의해 지배되어, 새로운 제형 형성에 필수적인 롱테일(long-tail) 용매에서의 실패를 은폐한다.
잘못 보정된 알레아토릭(Aleatoric) 하한선: 널리 인용되는 실험실 간 불일치 수치인 0.6–0.8 log S가 돌이킬 수 없는 측정 노이즈 상한선으로 취급되고 있다. 저자들은 이 수치가 기대 측정 노이즈가 아닌 최악의 시나리오(P90–P95)를 반영하며, 결과적으로 측정 가능한 신호의 한 자릿수(order of magnitude)를 포기하는 것이라고 주장한다.

2. 방법론

2.1 데이터 큐레이션 (SC3 데이터셋)

저자들은 BIGSOLDB v2.1에서 유도된 멀티 용매 용해도 벤치마크인 SC3를 구축하였다. 큐레이션 파이프라인은 다음과 같다:

원시 감사(Raw Audit): 용매 밀도와 몰 분율을 사용하여 누락된 log S 값을 재구성하고, 카이랄성(chirality)과 E/Z 기하 구조를 보존하는 SMILES 문자열을 정규화함.
소스 무결성 분석: 서로 다른 DOI로부터 온 "복제된" 측정값을 병합하면서 신뢰할할 수 없는 소스를 식별하기 위해 2단계 중복 탐지 프로세스(비트 일치 및 보간 곡선 피팅)를 수행함.
클리닝 워터폴(Cleaning Waterfall): 잘못된 DOI, 유효하지 않은/고분자 용매, 염/혼합물 및 극단적인 값을 제거함.
최종 범위: 243–426 K 온도 범위에서 1,327개의 용질, 206개의 용매, 1,493개의 DOI를 포함하는 101,535개의 측정값.

2.2 알레아토릭 한계의 재보정

독립적인 측정을 가진 481개의 멀리 소스(용질, 용매) 쌍을 사용하여, 저자들은 독립적인 그룹 간의 피팅된 열역학 곡선(Apelblat/van't Hoff) 사이의 평균 절대 오차(MAE)를 평균함으로써 알레아토릭 한계( $\epsilon_{aleatoric}$ )를 추정하였다.

결과: 기대되는 실험실 간 불일치는 0.106 log S로, 기존의 0.6–0.8 log S 수치보다 약 6배 더 정밀하다.
이질성: 이 한계는 용매마다 다르므로(예: DMF: 0.029 log S; 물: 0.110 log S), 용매별 평가 지표가 필요하다.

2.3 벤치마크 설계

SC3는 세 가지 뚜렷한 일반화 축을 가진 표준화된 프로토콜을 도입한다:

Eval (In-Distribution): 상위 25개 빈도 용매 내의 새로운 (용질, 용매) 쌍.
OOD (Out-of-Distribution): 훈련 과정에서 본 적 없는 161개의 롱테일 용매.
계층적 컨센서스 (Gold/Silver/Bronze): 보정된 지점별 불확실성( $\sigma$ $σ$ )을 가진 컨센서스 라벨에 대해 평가되는 새로운 용질.
- Gold: $\le 0.1$ log S 불일치.
- Silver: $\le 0.2$ log S.
- Bronze: $\le 0.5$ log S.

2.4 지표 세트

카운트 편향과 용매 이질성을 해결하기 위해 저자들은 5가지 지표 세트를 제안한다:

PS-RMSE (Per-Solvent RMSE): 용매별 RMSE를 평균하여 기여도를 동일하게 만들고 위치 이동(location shifts)을 상쇄하는 헤드라인 지표.
Z-RMSE: 보정된 불확실성( $\sigma$ )에 의해 예측 오차를 정규화하여, 노이즈 한계 대비 성능을 측정함.
표준 지표: RMSE, MAE, MedAE를 유지하지만, 이 맥락에서의 한계를 명시함.

2.5 모델 평가

6개 계열에 걸친 31개 모델의 종합적인 벤치마크가 수행되었다:

열역학/분석 모델 (UNIFAC, Abraham LFER, ESOL, GSE).
디스크립터 기반 트리 (LightGBM, CatBoost, XGBoost, Random Forest).
핑거프린트 기반 트리.
딥 디스크립터 모델 (FastProp, FastSolv, MLP).
그래프 신경망 (GCN, GAT, GIN, Chemprop, Solvaformer 등).
파운데이션 모델 (Uni-Mol2, SolTranNet, ChemFM).

3. 주요 결과

3.1 성능 벤치마크

최고 성능 모델: RDKit 디스크립터를 사용한 LightGBM이 0.561의 최상급 Bronze PS-RMSE를 달성하였으며, 이는 알레아토릭 하한(약 0.106)의 약 5배 수준이다.
딥 러닝의 격차: 어떤 딥 러닝이나 파운데이션 모델도 트리 기반 베이스라인과의 격차를 좁히지 못했다. 딥 디스크립터 모델은 인-디스트리뷰션 데이터에서는 트리에 필적했으나, OOD 및 계층적 분할에서는 뒤처졌다.
표현의 중요성: 디스크립터 기반 모델은 핑거프린트 기반 모델보다 유의미하게 우수한 성능을 보였다 (예: CatBoost-RDKit vs. CatBoost-Morgan). 이는 핑거프린트가 화학적으로 구별되는 용매 클래스(예: 물 vs. 긴 사슬 알코올)를 구분하는 데 실패함을 시사한다.
파운데이션 모델: 방대한 파라미터 수에도 불구하고, 파운데이션 모델(예: ChemFM, Uni-Mol2)은 튜닝된 트리 앙상블을 능가하지 못했다.

3.2 데이터 스케일링 분석

모델 성능을 훈련 데이터 크기의 함수로 나타내는 멱법칙 스케일링 곡선( $RMSE = aN^{-b} + c$ )을 피팅하였다.

발견: 모든 모델의 점근선( $c$ )은 알레아토릭 하한보다 현저히 높게 형성된다.
함의: 이 오차 격차는 데이터 양의 문제가 아니라, 표현(representation)의 병목 현상이다. 무한한 데이터가 있더라도 현재의 아키텍처로는 노이즈 한계에 도달할 수 없다.

3.3 전이 학습

COMBISOLV-QM (~10 $^6$ 양자 화학 용매화 에너지)에 대한 사전 학습 효과를 테스트하였다.

결과: 사전 학습은 특히 데이터가 부족한 환경(5% 파인튜닝 데이터)과 OOD 용매에서 체계적인 이득을 제공했다.
효율성: 사전 학습된 모델은 스크래치 베이스라인과 대등해지기 위해 25~~100% 더 많은 데이터를 사용하는 데 비해, 5~~20배 향상된 데이터 효율성을 보여주었다.
한계: 도움이 되기는 했지만, 사전 학습이 트리 기반 베이스라인과의 격차를 좁히지는 못했으며, 이는 아키텍처의 병목 현상을 확인시켜 주었다.

3.4 해석 가능성

트리 모델: SHAP 분석 결과, LightGBM은 명시적인 화학적 사전 지식 없이도 일반 용해도 방정식(TPSA, BertzCT, MolLogP)의 축과 Abraham LSER 항을 독립적으로 재발견했다.
GCN: 차단(Occlusion) 분석을 통해, 모델이 메시 전달(message passing)을 통해 화학적으로 의미 있는 부분 구조 온톨로지(예: 카르복실산 및 피페라진과 같은 BRICS 단편)를 학습했음을 보여주었다.
용매 클러스터링: 디스크립터 기반 모델은 용매를 화학적으로 의미 있는 가족(물, 알칸, 비양성자성, 양성자성)으로 올바르게 클러스터링한 반면, 핑거프린트 모델은 구조적 유사성(예: n-헥산을 긴 사슬 알코올과 함께 그룹화)에 따라 그룹화하여 낮은 일반화 성능의 원인을 설명했다.

4. 의의 및 주장

본 논문은 용해도 예측의 프레임을 재설정한다고 주장한다:

천장은 더 높다: 이 분야는 아직 실험적 노이즈 천계에 근접하지 않았다. 진정한 천장은 ~0.1 log S이며, 개선을 위한 상당한 여지가 남아 있다.
표현의 병목 현상: 현재 모델들은 데이터 부족이 아니라 분자 표현의 한계에 직면해 있다. 단순히 데이터나 모델의 크기를 키우는 것만으로는 불충분하다.
표준화: SC3는 누출(leakage) 검증이 완료되고 불확실성이 보정된 재현 가능한 벤치마크를 제공하여, 특히 롱테일 용매에 대한 모델의 실제 일반화 능력을 드러낸다.
실용적 베이스라인: 튜닝된 그래디언트 부스팅 트리와 RDKit 디스크립터 조합은 여전히 극복해야 할 구성이며, 멀티 용매 일반화 작업에서 복잡한 딥 러닝 및 파운데이션 모델을 능가한다.

저자들은 향후의 발전이 단순히 더 많은 데이터를 축적하는 것이 아니라, 현재의 표현 방식이 놓치고 있는 특정 용질-용매 상호작용 물리학을 포착할 수 있는 새로운 분자 인코딩을 요구한다고 결론짓는다.

SC3: The Multi-Solvent Solubility Challenge and Benchmark