원저자: Gordan Prastalo, Kevin Maik Jablonka

게시일 2026-05-14

📖 4 분 읽기☕ 가벼운 읽기

원저자: Gordan Prastalo, Kevin Maik Jablonka

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

간단한 언어와 일상적인 비유를 사용하여 이 논문을 설명합니다.

문제: "날씨 예보" 문제

당신이 좋은 약이 될 분자를 예측하려는 과학자라고 상상해 보세요. 이를 위해 컴퓨터 모델을 만듭니다.

이제 그 모델을 특정 데이터 세트로 훈련시킨다고 가정해 봅시다. 모델은 분자 A가 "승자"(약으로 작동할 것)라고 예측합니다.

그런 다음 모델을 다시 훈련시키기로 결정합니다. 규칙이나 데이터 소스를 변경하지 않고, 같은 데이터에서 약간 다른 무작위 표본만 사용합니다 (같은 덱에서 새로운 카드를 뽑는 것과 같습니다).

충격적인 결과:
모델을 다시 훈련시키자마자, 분자 A는 이제 "패자"이고 분자 B가 새로운 승자라고 갑자기 말합니다.

이 논문은 이를 **"교차 표본 예측 변동 (Cross-Sample Prediction Churn)"**이라고 부릅니다. 이는 훈련 데이터를 약간만 섞었을 때 모델이 결정을 뒤집는 비율을 의미합니다.

논문의 발견: 9 가지 다른 화학 테스트에서 모델의 전체 정확도는 아주 작은 변화 (약 1~4%) 만 보였습니다. 하지만 개별 분자에 대한 구체적인 결정은 8% 에서 22% 의 빈도로 뒤집혔습니다.
비유: 전체적으로 95% 정확도를 가진 판사를 상상해 보세요. 하지만 그에게 100 개의 구체적인 사건을 판결하도록 요청하고, 다른 점심 휴식을 가진 후 동일한 100 개 사건을 다시 판결하도록 요청하면, 그중 20 개에 대해 판결을 바꿀 수 있습니다. 이는 가장 중요한 구체적인 사건들에 대해 매우 큰 불안정성입니다.

기존 "해결책"이 작동하지 않는 이유

과학자들은 다음과 같은 표준 "불확실성" 도구를 사용하여 이를 해결하려고 시도했습니다.

딥 앙상블 (Deep Ensembles): 5 개의 서로 다른 모델을 훈련시키고 그 답변을 평균내는 것.
MC 드롭아웃 (MC Dropout): 테스트 중에 모델의 일부를 무작위로 "끄고" 답변이 얼마나 흔들리는지 확인하는 것.
확률적 가중치 평균 (Stochastic Weight Averaging): 모델의 내부 수학을 부드럽게 만드는 것.

논문의 결론: 이러한 도구들은 카메라가 여전히 흔들리는 손 (데이터) 에 의해 잡혀 있는 상태에서 렌즈 초점 (모델의 내부 설정) 만 조정하여 흔들리는 카메라를 고치려는 것과 같습니다.

이러한 방법들은 "렌즈"는 고치지만 "흔들리는 손"은 무시합니다.
논문은 이러한 방법들이 변동 (churn) 을 줄이지 못했다고 밝혔습니다. 데이터가 변경될 때 모델이 결정을 뒤집는 것을 막지 못했습니다.

해결책: 두 가지 새로운 방법

저자들은 "렌즈"가 아닌 "흔들리는 손 (데이터)"에 대응하는 실제로 작동하는 두 가지 방법을 제안합니다.

1. K-부트스트랩 배깅 (K-Bootstrap Bagging, "위원회" 접근법)

작동 방식: 하나의 모델을 훈련시키는 대신, 전체 위원회 (예: 5 개) 를 훈련시킵니다. 위원회의 각 구성원은 데이터의 약간 다른 무작위 표본으로 훈련됩니다. 답변이 필요할 때 전체 위원회에 물어보고 투표 평균을 취합니다.
결과: 이는 뒤집힘 비율을 40~54% 감소시킵니다.
단점: 1 개 대신 5 개의 모델을 훈련해야 하므로 컴퓨터 성능이 5 배 더 필요합니다.

2. 트윈-부트스트랩 (Twin-Bootstrap, "쌍둥이 자매" 접근법)

작동 방식: 이것이 이 논문의 주요 발명품입니다. 두 개의 "쌍둥이" 신경망을 동시에 훈련시킨다고 상상해 보세요.
- 쌍둥이 A 는 표본 X 로 학습합니다.
- 쌍둥이 B 는 표본 Y (약간 다른 표본) 로 학습합니다.
- 비밀 소스: 학습할 때마다 쌍둥이들은 서로 대화하도록 강요받습니다. 만약 그들이 분자에 대해 이견을 보이면, 그들이 동의하도록 "페널티 (일관성 손실)"를 받습니다.
결과:
- 표준 위원회 방법에 비해 뒤집힘 비율을 추가로 45% 감소시킵니다.
- 이는 5 개의 별도 모델 대신 2 개의 쌍둥이를 훈련하는 2 배의 컴퓨터 성능으로 달성됩니다.
- 원래 모델만큼 정확도를 유지합니다.

이것이 중요한 이유 ("실제 세계" 영향)

이 논문은 과학 실험실에서는 분자 단위로 결정이 내려진다고 주장합니다.

상황: 과학자가 실험실에서 합성할 상위 10 개 분자를 선택하기 위해 모델을 사용합니다.
위험: 모델에 높은 "변동 (churn)"이 있다면, 과학자는 오늘 분자 #1 을 선택할 수 있습니다. 하지만 내일 모델을 다시 훈련시키면 (과학에서 이는 자주 발생합니다), 모델은 "사실 분자 #1 은 나쁘니 분자 #10 을 시도해 보자"라고 말할 수 있습니다.
비용: 이는 시간과 돈을 낭비합니다. 실험실은 잘못된 분자를 합성하거나, 동일한 목록을 재평가하는 노력을 낭비할 수 있습니다.

이 논문은 과학 보고서에는 항상 정확도 alongside "변동 점수 (Churn Score)"가 포함되어야 한다고 제안합니다. 모델이 "90% 정확"하다는 사실만으로는 충분하지 않습니다. 페이지를 새로 고칠 때마다 모델이 무작위로 추측하는 것인지, 아니면 그 정확도가 안정적인 것인지 알아야 합니다.

요약

문제: 과학적 AI 모델은 전체 점수가 좋아 보일지라도, 약간 다른 데이터로 재훈련될 때 구체적인 예측을 자주 뒤집습니다.
구식 방법: 불확실성을 측정하는 표준 트릭 (앙상블 등) 은 이 특정 문제를 해결하지 못합니다.
신규 방법:
1. 배깅 (Bagging): 큰 모델 위원회를 훈련시킵니다 (잘 작동하지만 비쌉니다).
2. 트윈-부트스트랩 (Twin-Bootstrap): 두 모델을 함께 훈련시키고 서로 동의하도록 강요합니다 (더 잘 작동하고 더 저렴합니다).
목표: 과학자가 추천한 특정 분자를 신뢰할 수 있을 정도로 과학적 AI 를 신뢰할 수 있게 만드는 것입니다. 즉, 훈련 코드를 한 번 더 실행했을 때 추천이 바뀌지 않는다는 것을 아는 것입니다.

기술 요약: 과학적 기계 학습에서 교차-샘플 예측 churn 감소

문제 정의: 교차-샘플 예측 churn

과학적 기계 학습 (ML) 벤치마크는 일반적으로 집계 예측 성능 (예: 정확도, AUC) 을 보고하지만, 동일한 훈련 모집단의 다른 샘플로 모델을 재훈련할 때 개별 예측의 안정성을 보고하지는 못합니다. 저자들은 교차 - 샘플 예측 churn을 동일한 훈련 세트의 독립적인 부트스트랩으로 훈련된 두 모델 간에 클래스 레이블이 변경되는 테스트 예측의 비율로 정의합니다.

집계 정확도는 종종 재훈련 간에 1.3~4.2% 포인트만 변동하여 안정적으로 유지되지만, 저자들은 개별 예측이 매우 불안정함을 보여줍니다. 9 가지 화학 벤치마크에서 **8.0% 에서 21.8%**의 테스트 분자가 재훈련 간에 예측 클래스를 뒤집습니다. 이러한 "예측 단위 안정성 격차"는 폐쇄 루프 실험실, 베이지안 최적화, 가상 스크리닝과 같은 운영 워크플로우에서 결정적으로 중요합니다. 여기서 모델 출력은 실험적 결정 (예: 합성할 분자 선택) 을 직접 좌우합니다. 높은 churn 은 합성 또는 스크리닝을 위해 선택된 특정 분자들이 훈련 데이터의 무작위 샘플링에 민감함을 의미하며, 이로 인해 워크플로우가 비재현성이 됩니다.

방법론 및 제안된 해결책

이 논문은 이 churn 을 줄일 수 있는 방법을 결정하기 위해 표준 파라미터 측 불확실성 기법과 데이터 측 기법을 평가합니다.

1. 파라미터 측 기법의 실패

저자들은 고정된 데이터에서 모델 가중치를 샘플링하는 세 가지 표준 방법을 테스트합니다:

딥 앙상블 (Deep Ensembles): 서로 다른 초기화를 가진 $K$ 개의 모델로부터 예측을 평균화합니다.
몬테카를로 (MC) 드롭아웃: 단일 모델의 확률적 순전파를 평균화합니다.
확률적 가중치 평균 (SWA): 단일 훈련 궤적에서 가중치를 평균화합니다.

결과: 이러한 방법들은 교차 - 샘플 churn 을 일관되게 감소시키지 못합니다. 9 가지 벤치마크에서 이러한 방법들은 경험적 위험 최소화 (ERM) 대비 클래스 뒤집기 비율을 $-22.3\%$ 에서 $+12.5\%$ 까지 변화시켰으며, 일관된 개선 징후는 없었습니다. 저자들은 이러한 방법들이 데이터 축을 고정하면서 파라미터 분산을 다루기 때문이라고 주장합니다. 반면, 작은 데이터셋을 가진 과학적 ML 에서 분산의 주된 원인은 데이터 샘플링 그 자체입니다.

2. 데이터 측 해결책 A: K-부트스트랩 배깅

고전적인 배깅 (Bagging) 접근법 (Breiman, 1996) 은 훈련 세트의 $K$ 개 독립적인 부트스트랩으로 $K$ 개의 모델을 훈련하고 예측을 평균화합니다.

성능: ERM 대비 모든 데이터셋에서 churn 을 40~54% 감소시킵니다.
비용: 단일 ERM 훈련 실행의 $K$ 배 연산이 필요합니다 (예: $K=5$ 인 경우 $5\times$ ).
정확도: 집계 정확도에 대한 비용 없이 이 감소를 달성합니다.

3. 데이터 측 해결책 B: 트윈 - 부트스트랩

저자들은 훈련 세트의 독립적인 부트스트랩 ( $S_A, S_B$ ) 에서 두 네트워크 ( $\theta_A, \theta_B$ ) 를 공동으로 훈련하는 **트윈 - 부트스트랩 (Twin-Bootstrap)**을 제안합니다.

메커니즘: 네트워크는 각각의 부트스트랩에 대한 표준 교차 엔트로피와 미니배치 합집합에 대한 예측 간의 **대칭 KL-발산 일관성 손실 (symmetric KL-divergence consistency loss, $L_{cons}$ )**로 구성된 결합 손실을 최소화하도록 훈련됩니다.
데이터 중첩: 복원 추출을 통한 부트스트랩 샘플링으로 인해, 두 부트스트랩은 기대값으로 약 **40%**의 훈련 인덱스를 공유합니다. 일관성 손실은 이 중첩 부분에 작용하는 반면, 교차 엔트로피 손실은 비공유 나머지 부분에 특화됩니다.
하이퍼파라미터 ( $\lambda$ ): 일관성 손실의 가중치는 개발 세트 (BACE) 에서 ERM 기준의 정확도를 0.02 이내로 유지하면서 $\lambda$ 를 최대화하는 규칙을 사용하여 선택됩니다. 선택된 값은 기본 MLP 아키텍처의 경우 $\lambda=300$ 입니다.
성능: 일치된 2 $\times$ ERM 연산 (두 네트워크 훈련) 에서 트윈 - 부트스트랩은 $K=2$ 인 배깅보다 추가로 **중앙값 45%**의 churn 감소를 달성합니다. 이는 평균 순위에서 $5\times$ 연산이 필요한 $K=5$ 인 배깅의 성능과 일치합니다.

주요 결과

churn 의 규모

churn 비율: 9 가지 화학 벤치마크 (MoleculeNet, TDC ADME/Tox, 재료 과학) 에서 교차 - 샘플 churn 은 테스트 예측의 **8.0~21.8%**를 뒤집습니다.
집계 안정성: 재훈련 간 집계 정확도는 1.3~4.2% 포인트만 변동하여 중요한 예측 단위 불안정성을 숨깁니다.
소수 클래스 불안정성: 불균형 데이터셋에서 소수 클래스 예측은 다수 클래스 예측보다 2~4 $\times$ 더 불안정하여 가장 중요한 "활성" 또는 "독성" 예측에 영향을 미칩니다.

비교 성능

파라미터 측 vs 데이터 측: 딥 앙상블, MC 드롭아웃, SWA 는 churn 을 일관되게 감소시키지 못합니다. 배깅과 트윈 - 부트스트랩만이 churn 을 신뢰성 있게 감소시키는 유일한 방법입니다.
효율성: 트윈 - 부트스트랩은 $5\times$ 연산의 배깅 ( $K=5$ ) 과 비교 가능한 churn 감소를 달성하면서 2 $\times$ ERM 연산만 요구합니다.
분포 일치: 트윈 - 부트스트랩은 대칭 KL 발산 (분포 불일치) 을 배깅- $K=5$ 보다 추가로 약 $\sim9\times$ 감소시켜, argmax뿐만 아니라 전체 확률 분포의 우수한 안정화를 나타냅니다.

하류 영향

베이지안 최적화 (BO): BO 시뮬레이션에서 트윈 - 부트스트랩은 재훈련 간 상위 10 개 선택 분자의 자카드 중첩을 크게 증가시킵니다 (예: AMES 데이터셋에서 0.03 에서 0.68 로). 회귀 작업에서 최종 최선 획득 값의 교차 - 궤적 표준 편차를 34~100% 감소시킵니다.
분류 (Triage) 워크플로우: 추정된 churn 으로 테스트 예제를 정렬 (단일 추가 재훈련 사용) 하면 실무자가 가장 취약한 예측을 식별할 수 있습니다. churn 으로 순위 매겨진 상위 30% 예측을 검토하면 모든 클래스 뒤집기의 **58~100%**를 포착하여 예측 엔트로피보다 우수합니다.

일반화

이 방법은 아키텍처와 작업 전반에 걸쳐 일반화됩니다:

아키텍처: MLP, 그래프 동형 네트워크 (GIN), 사전 훈련된 백본 (ChemBERTa, ResNet-50) 에서 작동합니다.
하이퍼파라미터 튜닝: 최적의 $\lambda$ 값은 아키텍처에 따라 변합니다 (예: MLP 의 경우 $\lambda=300$ , GIN/ChemBERTa 의 경우 $\lambda=10$ ), 하지만 선택 규칙 (개발 세트에서 작은 정확도 하락을 조건으로 $\lambda$ 를 최대화) 은 변경 없이 전이됩니다.
작업: 방법의 순위 (트윈 - 부트스트랩 $\approx$ 배깅- $K=5$ > ERM) 는 분류 및 회귀 작업 모두에서 유효합니다.

중요성과 주장

이 논문은 교차 - 샘플 예측 churn이 과학적 ML 벤치마킹에서 누락된 지표라고 주장합니다. 이 지표를 보고하지 않으면 파라미터 측 불확실성 방법 (앙상블, 드롭아웃) 과 데이터 측 방법 (배깅, 트윈 - 부트스트랩) 은 운영 결정을 안정화하는 능력에서 근본적으로 다르지만 표준 정확도 지표에서는 구별되지 않는 것으로 나타납니다.

저자들은 다음과 같이 주장합니다:

Churn 은 운영 안정성 지표입니다: 폐쇄 루프 실험실과 가상 스크리닝에서 특정 선택된 분자의 재현성은 집계 정확도보다 더 중요합니다.
데이터 리샘플링이 핵심 레버입니다: 안정성은 모델 클래스 자체보다 훈련 절차가 데이터를 리샘플링하는 방식에 더 의해 결정됩니다.
트윈 - 부트스트랩은 실용적인 레시피를 제공합니다: 배포 파이프라인을 변경하지 않고 훈련 시 교차 - 샘플 안정성을 설계할 수 있는 계산 효율적인 ( $2\times$ ERM) 방법을 제공하며, 개발 세트에서 단일 하이퍼파라미터를 튜닝함으로써 가능합니다.

이 논문은 churn 감소를 통해 실험적 노동을 줄이고 계산적 분류 결정을 재현 가능하게 만드는 등 직접적인 운영적 결과가 있다고 결론지으며, 낮은 churn 이 정확성을 보장하지는 않는다는 점 (안정적으로 잘못된 모델은 여전히 잘못됨) 을 지적합니다.

Reducing cross-sample prediction churn in scientific machine learning