Critical Assessment of ML models for ADMET Prediction in TDC leaderboards

⚕️

이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"약물 개발을 돕는 인공지능 **(AI)에 대한 날카로운 비판과 분석입니다.

약물을 개발할 때는 약이 몸속에서 어떻게 움직이고 (흡수, 분포, 대사, 배설), 독성이 있는지 (독성) 를 미리 예측하는 것이 매우 중요합니다. 이를 ADMET이라고 부르는데, 최근에는 이 예측을 위해 머신러닝 (AI) 모델을 많이 사용합니다.

연구진은 세계적인 데이터 플랫폼인 TDC에서 "가장 성능이 좋은 AI 모델"로 선정된 22 가지 모델을 하나하나 직접 다시 시험해 보았습니다. 그 결과는 충격적이었습니다. 마치 실제 시험 문제를 미리 보고 답을 외운 학생들처럼, 많은 모델이 실제 실력보다는 '시험 문제'에 맞춰져 있을 뿐이었습니다.

이 복잡한 내용을 쉽게 이해할 수 있도록 세 가지 핵심 비유로 설명해 드리겠습니다.

1. "열린 시험지"의 함정: 문제와 답이 공개된 시험

지금 TDC 랭킹은 **시험 문제 **(데이터)와 **정답 **(테스트 데이터)이 모두 공개되어 있는 상태입니다.

비유: 수학 시험을 치는데, 문제집과 정답지가 모두 공개되어 있다고 상상해 보세요.
현실: 많은 AI 연구자들은 이 공개된 정답지를 보고, "아, 이 문제는 이런 식으로 풀면 점수가 잘 나오네?"라고 학습합니다.
결과: AI 는 진짜 수학 실력 (새로운 약을 예측하는 능력) 이 늘어난 게 아니라, 그 특정 시험 문제만 완벽하게 외운 상태가 됩니다. 이를 연구진은 "테스트 세트 과적합 (Overfitting)"이라고 부릅니다.
논문 발견: 연구진이 인위적으로 "정답지를 보고 답을 외우게" 만든 모델을 만들어 보았더니, 평범한 모델도 순식간에 랭킹 1 위로 올라가는 것을 확인했습니다. 즉, 랭킹 1 위가 반드시 "가장 똑똑한 AI"를 의미하지는 않는다는 뜻입니다.

2. "유령"과 "불량품": 코드가 사라진 우승자들

TDC 랭킹 상위권 모델 중 상당수는 실제로 실행조차 불가능했습니다.

비유: 요리 대회에서 우승한 요리를 먹어보려고 하는데, **요리 레시피 **(코드)이거나, 재료를 구할 수 없거나, 요리하는 도구가 고장 난 경우입니다.
현실: 논문에서 조사한 상위 모델들 중 많은 수가 코드가 열려 있지 않거나, 설치 방법을 설명해 주지 않아서 다른 사람이 따라 할 수 없었습니다.
결과: 22 개의 상위 모델 중 오직 3 개만 "코드가 있고, 설치도 되고, 결과가 재현 가능"한 진짜 우승자였습니다. 나머지는 "보이는 것만 화려한 유령"이었습니다.

3. "복사한 시험지": 데이터 유출 (Data Leakage)

어떤 모델은 훈련할 때, **시험에 나올 문제 **(테스트 데이터)를 실수로 (혹은 고의로) 훈련 데이터에 섞어버렸습니다.

비유: 시험을 보기 전에, 시험지 한 장을 미리 구해서 그 내용을 공부해 버린 것입니다.
현실: 연구진은 "미니몰 (MiniMol)"이라는 유명한 모델이, 훈련 데이터에서 테스트 데이터와 분자 구조가 똑같은 물질을 제거했다고 주장했지만, 실제로는 **거울에 비친 모습 **(입체 이성질체)이나 다른 이름으로 불린 같은 물질을 제거하지 못해 유출이 발생했음을 발견했습니다.
결과: 이 유출 때문에 모델의 점수가 실제 능력보다 훨씬 높게 나왔습니다.

🏆 결론: 누가 진짜 우승자인가?

연구진은 이 모든 문제를 거쳐 진짜로 신뢰할 수 있는 모델 3 개를 찾아냈습니다.

CaliciBoost
MapLight
MapLight+GNN

이 세 모델만이 코드가 열려 있고, 설치도 되며, 데이터 유출 없이 공정하게 테스트된 진짜 실력자들이었습니다.

💡 이 논문이 우리에게 주는 교훈

랭킹 1 위를 맹신하지 마세요: 공개된 데이터로 만든 랭킹은 "시험 문제 암기왕"일 뿐, "실전 전문가"가 아닐 수 있습니다.
코드와 환경이 중요합니다: 좋은 모델이라도 코드가 없거나 실행 환경이 다르면 아무 소용이 없습니다.
더 나은 시스템이 필요합니다: 앞으로는 **시험 문제 **(테스트 데이터)를 숨겨야 하고, 데이터 버전을 명확히 관리하며, 모델 자체를 제출하는 방식으로 바뀌어야 합니다.

한 줄 요약:

"지금의 AI 약물 개발 랭킹은 '시험 문제'를 미리 보고 답을 외운 학생들의 성적표일 뿐, 진짜 실력을 보여주는 것이 아닙니다. 우리는 더 투명하고 공정한 '실전 시험'이 필요합니다."

1. "열린 시험지"의 함정: 문제와 답이 공개된 시험

2. "유령"과 "불량품": 코드가 사라진 우승자들

3. "복사한 시험지": 데이터 유출 (Data Leakage)

🏆 결론: 누가 진짜 우승자인가?

💡 이 논문이 우리에게 주는 교훈

논문 요약: TDC 리더보드 내 ADMET 예측을 위한 머신러닝 모델의 비판적 평가

1. 연구 배경 및 문제 제기 (Problem)

2. 연구 방법론 (Methodology)

3. 주요 결과 (Key Results)

4. 연구의 의의 및 기여 (Significance)

5. 결론

Critical Assessment of ML models for ADMET Prediction in TDC leaderboards

1. "열린 시험지"의 함정: 문제와 답이 공개된 시험

2. "유령"과 "불량품": 코드가 사라진 우승자들

3. "복사한 시험지": 데이터 유출 (Data Leakage)

🏆 결론: 누가 진짜 우승자인가?

💡 이 논문이 우리에게 주는 교훈

논문 요약: TDC 리더보드 내 ADMET 예측을 위한 머신러닝 모델의 비판적 평가

1. 연구 배경 및 문제 제기 (Problem)

2. 연구 방법론 (Methodology)

3. 주요 결과 (Key Results)

4. 연구의 의의 및 기여 (Significance)

5. 결론

유사한 논문