When should we trust the annotation? Selective prediction for molecular structure retrieval from mass spectra

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"화학 물질을 찾아내는 AI 가 언제 믿을 수 있고, 언제 의심해야 하는지"**를 판단하는 방법을 연구한 내용입니다.

일상적인 비유로 설명해 드리겠습니다.

🕵️‍♂️ 비유: 미스터리한 지문과 수사관

생각해 보세요. 범죄 현장에서 발견된 **지문 (질량 스펙트럼)**이 있습니다. 수사관 (AI 모델) 은 이 지문을 보고 "이게 A 씨의 지문이다!"라고 추측합니다.

하지만 문제는, 수사관도 실수를 할 수 있다는 것입니다. 특히 A 씨와 매우 닮은 B 씨나 C 씨가 있을 때, 수사관은 누구의 지문인지 헷갈릴 수 있습니다.

지금까지의 연구는 "수사관이 얼마나 정확하게 맞췄나?"만 따졌습니다. 하지만 이 논문은 **"수사관이 '나는 100% 확신한다'라고 말할 때만 믿고, '음... 좀 헷갈리는데?'라고 할 때는 아예 답을 내지 말자"**는 새로운 시스템을 제안합니다. 이를 **'선택적 예측 (Selective Prediction)'**이라고 합니다.

🔍 이 논문이 발견한 핵심 3 가지

이 연구는 수많은 '신뢰도 측정 도구'를 시험해 보았는데, 다음과 같은 재미있는 결과를 얻었습니다.

1. "자신의 지식을 의심하는 것"보다 "현재 상황의 혼란"이 더 중요하다

에피스틱 불확실성 (Epistemic Uncertainty): "내가 이 지문을 본 적이 없어서 모른다"라는 느낌입니다. (예: "이 지문은 내 학습 데이터에 없었어.")
알레토릭 불확실성 (Aleatoric Uncertainty): "데이터 자체가 너무 복잡해서 구분하기 어렵다"는 느낌입니다. (예: "A 씨와 B 씨 지문이 너무 비슷해서 내가 아무리 노력해도 구분하기 힘들어.")
결과: 연구진은 AI 가 "내가 모르는 게 있어서 틀릴 수도 있어"라고 말하는 것 (에피스틱) 보다, **"이건 데이터가 너무 헷갈려서 틀릴 확률이 높아"라고 말하는 것 (알레토릭)**이 훨씬 더 정확하다는 것을 발견했습니다. 즉, 상황이 혼란할 때 멈추는 것이, 지식이 부족할 때 멈추는 것보다 더 효과적입니다.

2. "세부적인 지문"보다 "전체적인 순위"를 보는 게 낫다

지문 수준 (Fingerprint-level): AI 가 지문의 각 선 하나하나를 분석해서 "이 선은 90% 확률로 맞다"라고 계산하는 방식입니다.
검색 수준 (Retrieval-level): AI 가 "A 씨가 1 위, B 씨가 2 위"라고 순위를 매기는 방식입니다.
결과: 지문의 작은 부분 하나하나를 완벽하게 맞추는 것보다, **"누가 1 위인지, 1 위와 2 위가 얼마나 차이가 나는지"**를 보는 것이 실제 정답을 찾는 데 훨씬 도움이 됩니다. 마치 시험에서 "각 문항을 다 맞췄나?"보다 **"내 점수가 상위권인지, 하위권인지"**를 보는 것이 합격 여부와 더 직결되는 것과 같습니다.

3. "안전장치"를 달아서 위험을 통제할 수 있다

이 논문은 단순히 "믿을 수 있을까?"를 넘어서, **"우리가 허용할 수 있는 실수율은 5% 이다"**라고 정해두면, AI 가 그 기준을 지키는 답만 내놓게 할 수 있는 수학적 장치를 소개했습니다.

비유: 마치 비행기가 "날씨가 너무 나빠서 착륙할 수 없다"고 판단하면, 아예 착륙을 포기하고 대기하는 것과 같습니다. 이렇게 하면 "착륙 실패"라는 재앙적인 실수는 막을 수 있습니다. 대신 "비행기를 타지 못하는 사람 (데이터)"은 늘어날 수 있지만, 타는 사람들은 안전을 보장받습니다.

💡 요약: 우리가 배운 교훈

이 연구는 화학 물질 분석 같은 **중요한 업무 (의료, 환경 등)**에서 AI 를 쓸 때, 무조건 AI 가 말하는 것을 믿으면 안 된다고 경고합니다.

대신 다음과 같이 해야 합니다:

AI 가 "내가 헷갈려"라고 하면, 그건 틀릴 확률이 높으니 무시하자.
AI 가 "1 위와 2 위가 너무 비슷해"라고 하면, 그건 신뢰하지 말자.
우리가 정한 "허용 실수율"을 지키기 위해, AI 가 확신이 없는 데이터는 아예 답을 내지 않게 (거부하게) 하자.

이렇게 하면, AI 가 답을 내놓는 순간, 그 답은 우리가 정한 안전 기준을 만족하는 '믿을 만한 답'이 됩니다. 비록 모든 질문에 답을 주는 것은 아니지만, 정답을 주는 순간의 신뢰도는 극대화할 수 있다는 것이 이 논문의 핵심 메시지입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

배경: 타겟 없는 대사체학 (Untargeted metabolomics) 은 방대한 양의 MS/MS 스펙트럼을 생성하지만, 현재 기술로는 검출된 피크의 약 10% 만 분자 구조로 주석할 수 있습니다. 이를 '대사체학의 암흑 물질 (Dark Matter)'이라고 부릅니다.
도전 과제: 기계 학습 기반의 분자 검색 (Molecular Retrieval) 방법은 빠르게 발전하고 있지만, 여전히 상당한 오류율을 보입니다. 임상 진단이나 환경 규제와 같은 고위험 응용 분야에서는 잘못된 식별이 치명적인 결과를 초래할 수 있으므로, **"언제 예측을 신뢰할 수 있는지"**를 판단하는 메커니즘이 필수적입니다.
목표: 불확실성이 너무 높을 때 예측을 거절 (abstain) 하여 전체 오류율을 낮추는 선택적 예측 (Selective Prediction) 시스템을 구축하고, 어떤 불확실성 지표가 가장 효과적인지 규명하는 것입니다.

2. 방법론 (Methodology)

2.1 선택적 예측 프레임워크

리스크 - 커버리지 트레이드오프 (Risk-Coverage Tradeoff): 모델이 모든 입력에 대해 예측하는 대신, 신뢰도 점수 (Scoring function) 가 임계값 ( $\tau$ $τ$ ) 이상일 때만 예측을 수행하고 그 외에는 거절합니다.
- 커버리지 (Coverage): 예측을 수행한 데이터의 비율.
- 선택적 리스크 (Selective Risk): 예측을 수행한 데이터 중 오류가 발생한 비율.
목표: 주어진 허용 가능한 오류율 (Target Risk) 하에서 커버리지를 최대화하거나, 주어진 커버리지에서 리스크를 최소화하는 것입니다.

2.2 불확실성 정량화 전략 (Scoring Functions)

연구팀은 예측의 신뢰도를 판단하기 위해 세 가지 범주의 점수 함수를 비교 평가했습니다.

지문 수준 (Fingerprint-level): 예측된 분자 지문 (binary vector) 의 비트별 확률에서 도출된 불확실성.
- 총 예측 엔트로피, 알레토릭 (Aleatoric), 에피스테믹 (Epistemic) 불확실성으로 분해.
검색 수준 (Retrieval-level): 후보 분자 목록의 순위 (Ranking) 에 기반한 불확실성.
- 최상위 후보의 확률 (Confidence), 최상위 두 후보 간의 점수 차이 (Score Gap), Top-K 후보 집합의 순위 분산 (Rank Variance).
- 알레토릭/에피스테믹 불확실성 분해 적용.
거리 기반 (Distance-based): 학습 데이터 분포와의 거리 측정.
- Deep k-NN 거리, Mahalanobis 거리.

2.3 통계적 보장 (Risk Control)

SGR (Selection with Guaranteed Risk) 알고리즘: 단순히 임계값을 설정하는 것을 넘어, 분포 자유 (Distribution-free) 일반화 경계를 사용하여 **유한 샘플 (Finite-sample)**에서 주어진 오류율 ( $r^*$ ) 을 초과할 확률이 $\delta$ 미만임을 수학적으로 보장하는 임계값을 선택합니다.

2.4 실험 설정

데이터셋: MassSpecGym 벤치마크 (231,104 개의 스펙트럼 - 분자 쌍).
모델: 분자 지문 예측을 위한 MLP 기반 모델 (Deep Ensemble, MC Dropout, Laplace Approximation 등을 활용한 2 차 분포 추정).
평가 지표: Risk-Coverage 곡선 아래 면적 (AURC), 목표 리스크 하에서의 커버리지.

3. 주요 결과 (Key Results)

3.1 지문 수준 vs. 검색 수준 불확실성

지문 수준 (Bitwise) 불확실성은 부적합: 분자 지문의 비트별 예측이 정확하더라도, 실제 검색 (Candidate Ranking) 성공과는 상관관계가 낮았습니다. 구조적으로 유사한 후보들이 존재할 경우 지문 예측이 명확해도 검색 실패가 발생할 수 있기 때문입니다.
검색 수준 (Retrieval-level) 불확실성이 우수: 후보 분자 간의 순위나 점수 차이를 기반으로 한 지표가 실제 검색 성공 여부를 훨씬 잘 예측했습니다.

3.2 불확실성 유형별 성능 비교

에피스테믹 (Epistemic) 불확실성의 한계: 모델의 지식 부족을 나타내는 에피스테믹 불확실성만으로는 신뢰할 수 있는 예측을 선별하는 데 효과적이지 않았습니다.
총 예측 불확실성 (Total/Aleatoric) 의 우위: 알레토릭 불확실성 (데이터의 본질적 노이즈) 과 총 예측 불확실성이 에피스테믹 불확실성보다 성능이 뛰어났습니다. 이는 특정 예측의 신뢰도를 판단할 때는 데이터의 난이도 (알레토릭) 와 모델의 무지 (에피스테믹) 를 모두 고려한 전체 기대 손실이 중요하기 때문입니다.

3.3 최적의 점수 함수

K=1 (정확한 일치): Score Gap(최상위 후보와 차석 후보 간의 점수 차이) 이 가장 효과적이었습니다.
K>1 (Top-K 포함): Rank Variance(Top-K 후보 집합의 순위 변동성) 가 가장 강력한 지표였습니다. 후보 집합의 구성이 얼마나 안정적인지를 반영하기 때문입니다.
계산 효율성: 복잡한 2 차 분포 추정 (Bayesian 등) 이 필요 없는 **1 차 신뢰도 지표 (Confidence, Score Gap)**도 2 차 불확실성 추정과 유사하거나 더 나은 성능을 보이며 계산 비용이 적게 듭니다.

3.4 후보 집합 크기의 영향

후보 집합의 크기가 클수록 (난이도 증가) 검색 성능과 선택적 예측의 효율성이 감소합니다. Rank Variance 는 후보 집합 크기와 상관관계가 높지만, 집합 크기가 고정된 경우에도 여전히 유효한 지표로 작용했습니다.

4. 결론 및 의의 (Conclusion & Significance)

실용적인 신뢰성 확보: 연구팀은 분자 식별을 불확실성을 고려한 의사결정 과정으로 전환했습니다. 연구자들은 허용 가능한 오류율을 지정하고, SGR 알고리즘을 통해 해당 조건을 만족하는 주석의 하위 집합을 높은 확률로 얻을 수 있습니다.
불확실성 측정의 재정의: 분자 검색 작업에서는 지문 재구성 정확도가 아니라 후보 간 상대적 유사도가 중요하므로, 불확실성 측정도 검색 수준 (Retrieval-level) 에서 이루어져야 함을 증명했습니다.
계산 효율성: 고비용의 베이지안 추정이 아닌, 계산 비용이 낮은 1 차 신뢰도 지표 (Confidence, Score Gap) 나 순위 변동성 (Rank Variance) 이 실제 배포 환경에서 더 효과적임을 보였습니다.
과학적 기여: MassSpecGym 벤치마크를 기반으로 분자 구조 검색에 대한 선택적 예측의 체계적인 평가를 최초로 수행했으며, 분포 자유 위험 제어 (Distribution-free risk control) 를 통해 주석의 품질에 대한 수학적 보장을 제공했습니다.

이 연구는 대사체학 및 화학 정보학 분야에서 기계 학습 모델의 배포 시 신뢰성을 높이고, 오류로 인한 위험을 관리할 수 있는 강력한 프레임워크를 제시한다는 점에서 중요한 의미를 가집니다.