Ursprüngliche Autoren: Gordan Prastalo, Kevin Maik Jablonka

Veröffentlicht 2026-05-14

📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Gordan Prastalo, Kevin Maik Jablonka

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Das Problem: Das „Wettervorhersage"-Problem

Stellen Sie sich vor, Sie sind ein Wissenschaftler, der vorhersagen möchte, welche Moleküle gute Medikamente ergeben. Sie bauen ein Computermodell, um dies zu tun.

Nun stellen Sie sich vor, Sie trainieren dieses Modell mit einem bestimmten Datensatz. Es sagt voraus, dass Molekül A ein „Gewinner" ist (es wird als Medikament funktionieren).

Dann entscheiden Sie sich, das Modell neu zu trainieren. Sie ändern weder die Regeln noch die Datenquelle; Sie verwenden lediglich eine leicht andere zufällige Stichprobe derselben Daten (wie das Ziehen einer neuen Hand Karten aus demselben Deck).

Das erschütternde Ergebnis:
Wenn Sie das Modell neu trainieren, sagt es plötzlich, dass Molekül A ein „Verlierer" ist und Molekül B der neue Gewinner ist.

Das Papier nennt dies „Cross-Sample Prediction Churn" (Wechsel der Vorhersagen bei verschiedenen Stichproben). Es ist die Rate, mit der das Modell seine Entscheidung umkehrt, nur weil Sie die Trainingsdaten leicht gemischt haben.

Die Erkenntnis des Papiers: Bei 9 verschiedenen chemischen Tests änderte sich die Gesamtgenauigkeit des Modells nur minimal (etwa 1–4 %). Doch die spezifische Entscheidung für einzelne Moleküle kehrte sich in 8 % bis 22 % der Fälle um.
Die Analogie: Stellen Sie sich einen Richter vor, der insgesamt zu 95 % korrekt urteilt. Wenn Sie ihn jedoch bitten, 100 spezifische Fälle zu beurteilen, und Sie ihn bitten, dieselben 100 Fälle erneut zu beurteilen, nachdem er eine andere Mittagspause gemacht hat, könnte er bei 20 davon sein Urteil ändern. Das ist eine große Instabilität für die spezifischen Fälle, die am wichtigsten sind.

Warum aktuelle „Lösungen" nicht funktionieren

Wissenschaftler haben versucht, dies mit Standard-„Unsicherheits"-Tools zu beheben, wie zum Beispiel:

Deep Ensembles: Das Trainieren von 5 verschiedenen Modellen und das Mitteln ihrer Antworten.
MC Dropout: Das zufällige Abschalten von Teilen des Modells während des Testens, um zu sehen, wie stark die Antwort schwankt.
Stochastic Weight Averaging: Das Glätten der internen Mathematik des Modells.

Das Urteil des Papiers: Diese Tools sind wie der Versuch, eine wackelige Kamera zu reparieren, indem man den Fokus der Linse (die internen Einstellungen des Modells) justiert, während die Kamera immer noch von einer zitternden Hand (den Daten) gehalten wird.

Diese Methoden reparieren die „Linse", ignorieren aber die „zitternde Hand".
Das Papier stellte fest, dass diese Methoden den „Churn" nicht reduzierten. Sie verhinderten nicht, dass das Modell seine Entscheidungen umkehrte, wenn sich die Daten änderten.

Die Lösung: Zwei neue Methoden

Die Autoren schlagen zwei Methoden vor, die tatsächlich funktionieren, weil sie die „zitternde Hand" (die Daten) adressieren und nicht nur die „Linse".

1. K-Bootstrap Bagging (Der „Ausschuss"-Ansatz)

Funktionsweise: Anstatt ein Modell zu trainieren, trainieren Sie einen ganzen Ausschuss von Modellen (z. B. 5 davon). Jedes Mitglied des Ausschusses wird mit einer leicht anderen zufälligen Stichprobe der Daten trainiert. Wenn Sie eine Antwort benötigen, fragen Sie den gesamten Ausschuss und nehmen den Durchschnitt der Stimmen.
Das Ergebnis: Dies reduziert die Umkehrungsrate um 40–54 %.
Der Haken: Es erfordert fünfmal mehr Rechenleistung, um 5 Modelle statt 1 zu trainieren.

2. Twin-Bootstrap (Der „Zwillingsschwestern"-Ansatz)

Funktionsweise: Dies ist die Haupterfindung des Papiers. Stellen Sie sich vor, Sie trainieren zwei „Zwilling"-Neuronale Netze gleichzeitig.
- Zwilling A lernt aus Stichprobe X.
- Zwilling B lernt aus Stichprobe Y (eine leicht andere Stichprobe).
- Das Geheimnis: Jedes Mal, wenn sie lernen, werden die Zwillinge gezwungen, miteinander zu sprechen. Wenn sie bei einem Molekül unterschiedlicher Meinung sind, erhalten sie eine „Strafe" (ein Konsistenz-Verlust), um sie zur Einigung zu zwingen.
Das Ergebnis:
- Es reduziert die Umkehrungsrate um weitere 45 % im Vergleich zur Standard-Ausschuss-Methode.
- Dies wird mit nur 2-facher Rechenleistung erreicht (Training von zwei Zwillingen statt fünf separater Modelle).
- Die Genauigkeit bleibt genauso hoch wie beim ursprünglichen Modell.

Warum dies wichtig ist (Die „Realwelt"-Auswirkung)

Das Papier argumentiert, dass in wissenschaftlichen Labors Entscheidungen Molekül für Molekül getroffen werden.

Das Szenario: Ein Wissenschaftler verwendet das Modell, um die Top-10-Moleküle auszuwählen, die im Labor synthetisiert werden sollen.
Das Risiko: Wenn das Modell einen hohen „Churn" aufweist, könnte der Wissenschaftler heute Molekül #1 auswählen. Wenn er das Modell jedoch morgen neu trainiert (was in der Wissenschaft häufig vorkommt), könnte das Modell sagen: „Eigentlich ist Molekül #1 schlecht, versuchen wir Molekül #10."
Die Kosten: Dies verschwendet Zeit und Geld. Das Labor könnte das falsche Molekül synthetisieren oder Aufwand verschwenden, um dieselbe Liste erneut zu bewerten.

Das Papier schlägt vor, dass wissenschaftliche Berichte immer einen „Churn-Score" neben der Genauigkeit enthalten sollten. Nur zu wissen, dass ein Modell „zu 90 % genau" ist, reicht nicht aus; man muss wissen, ob diese Genauigkeit stabil ist oder ob das Modell einfach jedes Mal wild rät, wenn man die Seite aktualisiert.

Zusammenfassung

Das Problem: Wissenschaftliche KI-Modelle kehren ihre spezifischen Vorhersagen oft um, wenn sie mit leicht unterschiedlichen Daten neu trainiert werden, selbst wenn ihre Gesamtnote gut aussieht.
Der alte Weg: Standard-Tricks zur Messung der Unsicherheit (wie Ensembles) beheben dieses spezifische Problem nicht.
Der neue Weg:
1. Bagging: Trainieren Sie einen großen Ausschuss von Modellen (funktioniert gut, ist aber teuer).
2. Twin-Bootstrap: Trainieren Sie zwei Modelle gemeinsam und zwingen Sie sie zur Einigung (funktioniert noch besser und ist günstiger).
Das Ziel: Wissenschaftliche KI so zuverlässig machen, dass ein Wissenschaftler der spezifischen Empfehlung eines Moleküls vertrauen kann, in dem Wissen, dass sich die Empfehlung nicht nur ändert, weil sie den Trainingscode noch einmal ausgeführt haben.

Technische Zusammenfassung: Reduzierung des Cross-Sample Prediction Churn im Scientific Machine Learning

Problemdefinition: Cross-Sample Prediction Churn

Wissenschaftliche Machine-Learning-(ML-)Benchmarking-Studien berichten typischerweise über aggregierte Vorhersageleistung (z. B. Genauigkeit, AUC), versäumen es jedoch, die Stabilität einzelner Vorhersagen zu melden, wenn das Modell auf einer anderen Stichprobe derselben Trainingspopulation neu trainiert wird. Die Autoren definieren Cross-Sample Prediction Churn als den Anteil der Testvorhersagen, die ihre Klassenlabels zwischen zwei Modellen ändern, die auf unabhängigen Bootstraps desselben Trainingsdatensatzes trainiert wurden.

Während die aggregierte Genauigkeit oft stabil bleibt (mit Schwankungen von nur 1,3–4,2 Prozentpunkten über Neu-Trainierungen hinweg), zeigen die Autoren, dass einzelne Vorhersagen hochgradig instabil sind. Über neun Chemie-Benchmarks hinweg flippt 8,0 % bis 21,8 % der Testmoleküle ihre vorhergesagte Klasse zwischen Neu-Trainierungen. Diese „Per-Vorhersage-Stabilitätslücke" ist kritisch für operative Workflows in geschlossenen Laboren, der Bayes'schen Optimierung und dem virtuellen Screening, bei denen Modelloutputs experimentelle Entscheidungen direkt diktieren (z. B. welches Molekül synthetisiert werden soll). Ein hoher Churn impliziert, dass die spezifischen zur Synthese oder zum Screening ausgewählten Moleküle empfindlich auf die zufällige Stichprobenziehung der Trainingsdaten reagieren, wodurch der Workflow nicht reproduzierbar wird.

Methodik und vorgeschlagene Lösungen

Das Papier bewertet Standardverfahren zur Unsicherheitsquantifizierung auf der Parameterebene gegen Methoden auf der Datenebene, um zu bestimmen, welche diesen Churn reduzieren können.

1. Versagen von Verfahren auf der Parameterebene

Die Autoren testen drei Standardmethoden, die über Modellgewichte bei festen Daten variieren:

Deep Ensembles: Mitteln von Vorhersagen aus $K$ Modellen mit unterschiedlichen Initialisierungen.
Monte-Carlo (MC) Dropout: Mitteln stochastischer Forward-Passes eines einzelnen Modells.
Stochastic Weight Averaging (SWA): Mitteln von Gewichten aus einer einzelnen Trainings-Trajektorie.

Ergebnis: Diese Methoden reduzieren den Cross-Sample Churn nicht konsistent. Über die neun Benchmarks hinweg verschieben sie die Class-Flip-Rate um $-22,3\%$ bis $+12,5\%$ relativ zur Empirical Risk Minimization (ERM), ohne ein konsistentes Anzeichen einer Verbesserung. Die Autoren argumentieren, dass dies daran liegt, dass diese Methoden die Parameter-Varianz adressieren, während die Datenachse konstant gehalten wird, wohingegen die dominante Varianzquelle im Scientific ML bei kleinen Datensätzen die Stichprobenziehung der Daten selbst ist.

2. Daten-seitige Lösung A: K-Bootstrap Bagging

Der klassische Bagging-Ansatz (Breiman, 1996) trainiert $K$ Modelle auf $K$ unabhängigen Bootstraps des Trainingsdatensatzes und mittelt deren Vorhersagen.

Leistung: Reduziert den Churn um 40–54 % über alle Datensätze hinweg im Vergleich zu ERM.
Kosten: Erfordert $K \times$ die Rechenleistung eines einzelnen ERM-Trainingslaufs (z. B. $5\times$ für $K=5$ ).
Genauigkeit: Erzielt diese Reduktion ohne Kosten für die aggregierte Genauigkeit.

3. Daten-seitige Lösung B: Twin-Bootstrap

Die Autoren schlagen Twin-Bootstrap vor, eine Methode, die zwei Netzwerke ( $\theta_A, \theta_B$ ) gemeinsam auf unabhängigen Bootstraps ( $S_A, S_B$ ) des Trainingsdatensatzes trainiert.

Mechanismus: Die Netzwerke werden trainiert, um einen kombinierten Verlust zu minimieren, der aus der Standard-Cross-Entropy auf ihren jeweiligen Bootstraps plus einem symmetrischen KL-Divergenz-Konsistenzverlust ( $L_{cons}$ ) zwischen ihren Vorhersagen auf der Vereinigung der Mini-Batches besteht.
Datenüberlappung: Aufgrund des Bootstrap-Sampling mit Zurücklegen teilen sich die beiden Bootstraps erwartungsgemäß etwa 40 % der Trainingsindizes. Der Konsistenzverlust wirkt auf diese Überlappung, während die Cross-Entropy-Verluste sich auf den nicht-geteilten Rest spezialisieren.
Hyperparameter ( $\lambda$ ): Das Gewicht des Konsistenzverlusts wird auf einem Entwicklungssatz (BACE) unter Verwendung einer Regel ausgewählt, die $\lambda$ maximiert, während die Genauigkeit innerhalb von 0,02 des ERM-Baselines bleibt. Der ausgewählte Wert beträgt $\lambda=300$ für die Standard-MLP-Architektur.
Leistung: Bei angepassten 2 $\times$ ERM-Rechenkosten (Training zweier Netzwerke) reduziert Twin-Bootstrap den Churn um weitere median 45 % über Bagging mit $K=2$ hinaus. Es entspricht in der mittleren Rangfolge der Leistung von Bagging mit $K=5$ (was $5\times$ Rechenleistung erfordert).

Hauptergebnisse

Ausmaß des Churn

Churn-Raten: Auf 9 Chemie-Benchmarks (MoleculeNet, TDC ADME/Tox, Materialwissenschaft) flippt der Cross-Sample Churn 8,0–21,8 % der Testvorhersagen.
Aggregierte Stabilität: Die aggregierte Genauigkeit bewegt sich zwischen Neu-Trainierungen nur um 1,3–4,2 Prozentpunkte und verbirgt so die signifikante Instabilität auf Ebene der einzelnen Vorhersagen.
Instabilität der Minderheitsklasse: Auf unausgewogenen Datensätzen sind Vorhersagen der Minderheitsklasse 2–4 $\times$ instabiler als Vorhersagen der Mehrheitsklasse und betreffen die kritischsten „aktiven" oder „toxischen" Vorhersagen.

Vergleichende Leistung

Parameterebene vs. Datenebene: Deep Ensembles, MC Dropout und SWA versagen darin, den Churn konsistent zu reduzieren. Bagging und Twin-Bootstrap sind die einzigen Methoden, die den Churn zuverlässig reduzieren.
Effizienz: Twin-Bootstrap erreicht eine Churn-Reduktion, die mit $5\times$ -Rechenleistung Bagging ( $K=5$ ) vergleichbar ist, benötigt jedoch nur 2 $\times$ ERM-Rechenleistung.
Verteilungsgleichheit: Twin-Bootstrap reduziert die symmetrische KL-Divergenz (Verteilungsabweichung) um einen zusätzlichen Faktor von $\sim9\times$ über Bagging- $K=5$ hinaus, was eine überlegene Stabilisierung der gesamten Wahrscheinlichkeitsverteilung und nicht nur des Argmax anzeigt.

Auswirkungen auf nachgelagerte Prozesse

Bayes'sche Optimierung (BO): In BO-Simulationen erhöht Twin-Bootstrap signifikant die Jaccard-Überlappung der Top-10-ausgewählten Moleküle zwischen Neu-Trainierungen (z. B. von 0,03 auf 0,68 auf dem AMES-Datensatz). Es reduziert die Standardabweichung des final-besten akquirierten Werts über Trajektorien hinweg um 34–100 % bei Regressionsaufgaben.
Triage-Workflow: Das Sortieren von Testbeispielen nach ihrem geschätzten Churn (unter Verwendung eines einzelnen zusätzlichen Neu-Trainings) ermöglicht es Praktikern, die fragilsten Vorhersagen zu identifizieren. Die Überprüfung der Top 30 % der nach Churn gerankten Vorhersagen erfasst 58–100 % aller Class Flips und übertrifft dabei die Vorhersage-Entropie.

Generalisierung

Die Methode generalisiert über Architekturen und Aufgaben hinweg:

Architekturen: Funktioniert bei MLPs, Graph Isomorphism Networks (GIN) und vortrainierten Backbones (ChemBERTa, ResNet-50).
Hyperparameter-Tuning: Während der optimale $\lambda$ -Wert sich mit der Architektur ändert (z. B. $\lambda=300$ für MLP, $\lambda=10$ für GIN/ChemBERTa), bleibt die Auswahlregel (maximiere $\lambda$ unter der Bedingung eines geringen Genauigkeitsabfalls auf dem Entwicklungssatz) unverändert übertragbar.
Aufgaben: Die Rangfolge der Methoden (Twin-Bootstrap $\approx$ Bagging- $K=5$ > ERM) gilt sowohl für Klassifikations- als auch für Regressionsaufgaben.

Bedeutung und Behauptungen

Das Papier argumentiert, dass Cross-Sample Prediction Churn eine fehlende Metrik im Scientific-ML-Benchmarking ist. Ohne die Meldung dieser Metrik erscheinen Verfahren zur Unsicherheitsquantifizierung auf der Parameterebene (Ensembles, Dropout) und auf der Datenebene (Bagging, Twin-Bootstrap) auf Standard-Genauigkeitsmetriken ununterscheidbar, obwohl sie sich fundamental in ihrer Fähigkeit unterscheiden, operative Entscheidungen zu stabilisieren.

Die Autoren behaupten, dass:

Churn die operative Stabilitätsmetrik ist: In geschlossenen Laboren und beim virtuellen Screening ist die Reproduzierbarkeit der spezifischen ausgewählten Moleküle kritischer als die aggregierte Genauigkeit.
Daten-Resampling der entscheidende Hebel ist: Die Stabilität wird mehr durch die Art und Weise bestimmt, wie das Trainingsverfahren Daten resamplet, als durch die Modellklasse selbst.
Twin-Bootstrap ein praktisches Rezept bietet: Es liefert eine rechen-effiziente Methode ( $2\times$ ERM), um Cross-Sample-Stabilität während des Trainings zu integrieren, ohne die Bereitstellungs-Pipeline zu ändern, indem einfach ein einzelner Hyperparameter auf einem Entwicklungssatz angepasst wird.

Das Papier schließt, dass die Reduzierung von Churn direkte operative Konsequenzen hat, indem sie verschwendete experimentelle Arbeit reduziert und computergestützte Triage-Entscheidungen reproduzierbar macht, wobei jedoch angemerkt wird, dass ein niedriger Churn keine Korrektheit garantiert (ein stabil falsch liegendes Modell ist immer noch falsch).

Reducing cross-sample prediction churn in scientific machine learning