Oorspronkelijke auteurs: Gordan Prastalo, Kevin Maik Jablonka

Gepubliceerd 2026-05-14

📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Gordan Prastalo, Kevin Maik Jablonka

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Het Probleem: Het "Weersverwachting"-Probleem

Stel je voor dat je een wetenschapper bent die probeert te voorspellen welke moleculen goede medicijnen zullen worden. Je bouwt een computermodel om dit te doen.

Stel je nu voor dat je dat model traint op een specifieke dataset. Het voorspelt dat Molecuul A een "winnaar" is (het zal werken als een geneesmiddel).

Maar dan besluit je het model opnieuw te trainen. Je verandert de regels of de bron van de data niet; je gebruikt gewoon een iets andere willekeurige steekproef van dezelfde data (zoals het trekken van een nieuwe hand kaarten uit hetzelfde deck).

Het Schokkende Resultaat:
Wanneer je het model opnieuw traint, zegt het plotseling dat Molecuul A een "verliezer" is en dat Molecuul B de nieuwe winnaar is.

Het artikel noemt dit "Cross-Sample Prediction Churn" (wisseling van voorspellingen tussen steekproeven). Het is de snelheid waarmee het model zijn beslissing omdraait, alleen omdat je de trainingsdata lichtelijk hebt geschud.

De Bevinding van het Artikel: Bij 9 verschillende chemische tests veranderde de algehele nauwkeurigheid van het model slechts een klein beetje (ongeveer 1–4%). Maar, de specifieke beslissing voor individuele moleculen keerde 8% tot 22% van de keren om.
De Analogie: Stel je een rechter voor die in het algemeen 95% nauwkeurig is. Maar als je vraagt om 100 specifieke zaken te beoordelen, en je vraagt hen om dezelfde 100 zaken opnieuw te beoordelen na een ander lunchpauze, kunnen ze hun vonnis over 20 van die zaken veranderen. Dat is veel instabiliteit voor de specifieke zaken die het meest belangrijk zijn.

Waarom Huidige "Oplossingen" Niet Werken

Wetenschappers hebben geprobeerd dit op te lossen met standaard "onzekerheids"-tools, zoals:

Deep Ensembles: Het trainen van 5 verschillende modellen en het middelen van hun antwoorden.
MC Dropout: Het willekeurig uitschakelen van delen van het model tijdens het testen om te zien hoe veel het antwoord wankelt.
Stochastic Weight Averaging: Het gladstrijken van de interne wiskunde van het model.

Het Oordeel van het Artikel: Deze tools zijn als proberen een trillende camera te repareren door de lensfocus (de interne instellingen van het model) aan te passen, terwijl de camera nog steeds wordt vastgehouden door een trillende hand (de data).

Deze methoden repareren de "lens" maar negeren de "trillende hand".
Het artikel vond dat deze methoden de churn niet verminderden. Ze stopten het model er niet mee om zijn beslissingen om te draaien wanneer de data veranderde.

De Oplossing: Twee Nieuwe Methoden

De auteurs stellen twee methoden voor die echt werken omdat ze de "trillende hand" (de data) aanpakken in plaats van alleen de "lens".

1. K-Bootstrap Bagging (De "Comité"-Aanpak)

Hoe het werkt: In plaats van één model te trainen, train je een heel comité van modellen (bijvoorbeeld 5). Elk lid van het comité wordt getraind op een iets andere willekeurige steekproef van de data. Wanneer je een antwoord nodig hebt, vraag je het hele comité en neem je het gemiddelde stemresultaat.
Het Resultaat: Dit verlaagt het omdraaiprocent met 40–54%.
De Haken: Het vereist 5 keer meer rekenkracht om 5 modellen te trainen in plaats van 1.

2. Twin-Bootstrap (De "Tweelingzussen"-Aanpak)

Hoe het werkt: Dit is de belangrijkste uitvinding van het artikel. Stel je voor dat je twee "tweeling"-neuronale netwerken tegelijkertijd traint.
- Tweeling A leert van Steekproef X.
- Tweeling B leert van Steekproef Y (een iets andere steekproef).
- Het Geheime Ingrediënt: Elke keer dat ze leren, worden de tweelingen gedwongen met elkaar te praten. Als ze het oneens zijn over een molecuul, krijgen ze een "straf" (een consistentieverlies) om ze te dwingen het eens te worden.
Het Resultaat:
- Het verlaagt het omdraaiprocent met een extra 45% in vergelijking met de standaard comité-methode.
- Het bereikt dit met slechts 2x de rekenkracht (het trainen van twee tweelingen in plaats van vijf aparte modellen).
- Het houdt de nauwkeurigheid even hoog als het oorspronkelijke model.

Waarom Dit Belangrijk Is (De "Real World"-Impact)

Het artikel betoogt dat in wetenschappelijke laboratoria beslissingen molecuul per molecuul worden genomen.

Het Scenario: Een wetenschapper gebruikt het model om de top 10 moleculen te kiezen om in een lab te synthetiseren.
Het Risico: Als het model een hoge "churn" heeft, kan de wetenschapper vandaag Molecuul #1 kiezen. Maar als ze het model morgen opnieuw trainen (wat vaak gebeurt in de wetenschap), kan het model zeggen: "Eigenlijk is Molecuul #1 slecht, laten we Molecuul #10 proberen."
De Kosten: Dit kost tijd en geld. Het lab kan het verkeerde molecuul synthetiseren, of moeite verspillen aan het opnieuw evalueren van dezelfde lijst.

Het artikel suggereert dat wetenschappelijke rapporten altijd een "Churn Score" moeten bevatten naast de nauwkeurigheid. Alleen weten dat een model "90% nauwkeurig" is, is niet genoeg; je moet weten of die nauwkeurigheid stabiel is of dat het model gewoon wild gokt elke keer dat je de pagina ververst.

Samenvatting

Het Probleem: Wetenschappelijke AI-modellen draaien hun specifieke voorspellingen vaak om wanneer ze opnieuw worden getraind op iets andere data, zelfs als hun algemene score er goed uitziet.
De Oude Manier: Standaard trucs om onzekerheid te meten (zoals ensembles) lossen dit specifieke probleem niet op.
De Nieuwe Manier:
1. Bagging: Train een groot comité van modellen (werkt goed, maar duur).
2. Twin-Bootstrap: Train twee modellen samen en dwing ze het eens te worden (werkt nog beter en is goedkoper).
Het Doel: Maak wetenschappelijke AI betrouwbaar genoeg zodat een wetenschapper kan vertrouwen op het specifieke molecuul dat het aanbeveelt, wetende dat de aanbeveling niet verandert alleen omdat ze de trainingscode nog één keer hebben uitgevoerd.

Technische Samenvatting: Vermindering van Cross-Sample Prediction Churn in Wetenschappelijk Machine Learning

Probleemdefinitie: Cross-Sample Prediction Churn

Benchmarkstudies voor wetenschappelijk machine learning (ML) rapporteren doorgaans geaggregeerde voorspellingsprestaties (bijv. nauwkeurigheid, AUC), maar laten na de stabiliteit van individuele voorspellingen te rapporteren wanneer het model wordt herbouwd op een andere steekproef uit dezelfde trainingspopulatie. De auteurs definiëren cross-sample prediction churn als het fractioneel aantal testvoorspellingen dat van klasselabel verandert tussen twee modellen die zijn getraind op onafhankelijke bootstraps van dezelfde trainingsset.

Hoewel de geaggregeerde nauwkeurigheid vaak stabiel blijft (met slechts 1,3–4,2 procentpunten variatie tussen herbouwingen), tonen de auteurs aan dat individuele voorspellingen uiterst instabiel zijn. Over negen chemische benchmarks heen flippen 8,0% tot 21,8% van de testmoleculen hun voorspelde klasse tussen herbouwingen. Deze "per-voorspelling stabiliteitskloof" is kritiek voor operationele workflows in gesloten-lus laboratoria, Bayesiaanse optimalisatie en virtuele screening, waarbij modeluitkomsten experimentele beslissingen direct dicteren (bijv. welk molecuul moet worden gesynthetiseerd). Hoge churn impliceert dat de specifieke moleculen die worden geselecteerd voor synthese of screening gevoelig zijn voor de willekeurige steekproef van de trainingsdata, waardoor de workflow niet-reproduceerbaar wordt.

Methodologie en Voorgestelde Oplossingen

Het artikel evalueert standaard methoden aan de parameterkant tegenover methoden aan de data-kant om te bepalen welke deze churn kunnen verminderen.

1. Falen van Methodes aan de Parameterkant

De auteurs testen drie standaardmethoden die bemonsteren over modelgewichten bij vaste data:

Deep Ensembles: Gemiddelde voorspellingen van $K$ modellen met verschillende initialisaties.
Monte Carlo (MC) Dropout: Gemiddelde stochastische forward passes van een enkel model.
Stochastic Weight Averaging (SWA): Gemiddelde gewichten uit een enkele trainingsbaan.

Resultaat: Deze methoden verminderen cross-sample churn niet consistent. Over de negen benchmarks heen verschuiven ze de class-flip rate met $-22,3\%$ tot $+12,5\%$ ten opzichte van Empirical Risk Minimization (ERM), zonder een consistent teken van verbetering. De auteurs betogen dat dit komt omdat deze methoden parametervariatie aanpakken terwijl de data-as constant wordt gehouden, terwijl de dominante bron van variatie in wetenschappelijk ML met kleine datasets de data-steekproef zelf is.

2. Oplossing aan de Data-kant A: K-Bootstrap Bagging

De klassieke Bagging-benadering (Breiman, 1996) traint $K$ modellen op $K$ onafhankelijke bootstraps van de trainingsset en middelt hun voorspellingen.

Prestatie: Vermindert churn met 40–54% over alle datasets vergeleken met ERM.
Kosten: Vereist $K \times$ de rekkracht van één enkele ERM-trainingsrun (bijv. $5\times$ voor $K=5$ ).
Nauwkeurigheid: Bereikt deze reductie zonder kosten voor de geaggregeerde nauwkeurigheid.

3. Oplossing aan de Data-kant B: Twin-Bootstrap

De auteurs stellen Twin-Bootstrap voor, een methode die twee netwerken ( $\theta_A, \theta_B$ ) gezamenlijk traint op onafhankelijke bootstraps ( $S_A, S_B$ ) van de trainingsset.

Mechanisme: De netwerken worden getraind om een gecombineerde loss te minimaliseren, bestaande uit standaard cross-entropy op hun respectievelijke bootstraps plus een symmetrische KL-divergentie consistentieloss ( $L_{cons}$ ) tussen hun voorspellingen op de unie van de mini-batches.
Data-overlap: Door bootstrapping met vervanging delen de twee bootstraps naar verwachting ongeveer 40% van de trainingsindices. De consistentieloss werkt op deze overlap, terwijl de cross-entropy losses zich specialiseren op het niet-gedeelde restant.
Hyperparameter ( $\lambda$ ): Het gewicht van de consistentieloss wordt geselecteerd op een ontwikkelingsset (BACE) met een regel die $\lambda$ maximaliseert terwijl de nauwkeurigheid binnen 0,02 van de ERM-baseline blijft. De geselecteerde waarde is $\lambda=300$ voor de standaard MLP-architectuur.
Prestatie: Bij gelijkgestelde 2 $\times$ ERM-rekkracht (het trainen van twee netwerken) vermindert twin-bootstrap de churn met een extra mediaan 45% ten opzichte van bagging met $K=2$ . Het komt overeen met de prestaties van bagging met $K=5$ (wat $5\times$ rekkracht vereist) in gemiddelde rangorde.

Belangrijkste Resultaten

Omvang van Churn

Churn Rates: Op 9 chemische benchmarks (MoleculeNet, TDC ADME/Tox, materialenwetenschap) flippen cross-sample churn 8,0–21,8% van de testvoorspellingen.
Geaggregeerde Stabiliteit: De geaggregeerde nauwkeurigheid beweegt slechts 1,3–4,2 procentpunten tussen herbouwingen, waardoor de significante per-voorspelling instabiliteit wordt verborgen.
Instabiliteit Minderheidsklasse: Op onevenwichtige datasets zijn voorspellingen voor de minderheidsklasse 2–4 $\times$ instabieler dan voorspellingen voor de meerderheidsklasse, wat de meest kritieke "actieve" of "toxische" voorspellingen beïnvloedt.

Vergelijkende Prestaties

Parameterkant vs. Data-kant: Deep ensembles, MC dropout en SWA falen in het consistent verminderen van churn. Bagging en Twin-Bootstrap zijn de enige methoden die churn betrouwbaar verminderen.
Efficiëntie: Twin-Bootstrap bereikt een churnreductie vergelijkbaar met Bagging met $5\times$ -rekkracht ( $K=5$ ) terwijl het slechts 2 $\times$ ERM-rekkracht vereist.
Distributie-overeenstemming: Twin-Bootstrap vermindert de symmetrische KL-divergentie (distributie-ongenoegen) met een extra factor van $\sim9\times$ ten opzichte van Bagging- $K=5$ , wat wijst op superieure stabilisatie van de volledige waarschijnlijkheidsverdeling, niet alleen de argmax.

Impact Downstream

Bayesiaanse Optimalisatie (BO): In BO-simulaties verhoogt twin-bootstrap significant de Jaccard-overlap van de top-10 geselecteerde moleculen tussen herbouwingen (bijv. van 0,03 naar 0,68 op de AMES-dataset). Het vermindert de standaardafwijking over trajecten van de final-best acquired waarde met 34–100% in regressietaken.
Triage-workflow: Het sorteren van testvoorbeelden op hun geschatte churn (met behulp van één extra herbouwing) stelt practitioners in staat de meest fragiele voorspellingen te identificeren. Het beoordelen van de top 30% van de voorspellingen gerangschikt op churn vangt 58–100% van alle class flips op, wat beter presteert dan voorspellende entropie.

Generalisatie

De methode generaliseert over architecturen en taken:

Architecturen: Werkt op MLP's, Graph Isomorphism Networks (GIN) en voorgeïmplementeerde backbones (ChemBERTa, ResNet-50).
Hyperparameter Tuning: Hoewel de optimale $\lambda$ -waarde verandert per architectuur (bijv. $\lambda=300$ voor MLP, $\lambda=10$ voor GIN/ChemBERTa), blijft de selectieregel (maximaliseer $\lambda$ onder voorwaarde van een kleine nauwkeurigheidsdaling op de ontwikkelingsset) ongewijzigd overdraagbaar.
Taken: De rangschikking van methoden (Twin-Bootstrap $\approx$ Bagging- $K=5$ > ERM) geldt voor zowel classificatie- als regressietaken.

Betekenis en Claims

Het artikel betoogt dat cross-sample prediction churn een ontbrekende metriek is in benchmarkstudies voor wetenschappelijk ML. Zonder rapportage van deze metriek lijken methoden aan de parameterkant (ensembles, dropout) en methoden aan de data-kant (bagging, twin-bootstrap) niet van elkaar te onderscheiden op standaard nauwkeurigheidsmetrieken, ondanks dat ze fundamenteel verschillen in hun vermogen om operationele beslissingen te stabiliseren.

De auteurs claimen dat:

Churn de operationele stabiliteitsmetriek is: In gesloten-lus laboratoria en virtuele screening is de reproduceerbaarheid van de specifieke geselecteerde moleculen kritieker dan de geaggregeerde nauwkeurigheid.
Data-resampling de sleutelfactor is: Stabiliteit wordt meer bepaald door hoe de trainingsprocedure data resamplet dan door de modelklasse zelf.
Twin-Bootstrap een praktische recept biedt: Het biedt een rekkracht-efficiënte methode ( $2\times$ ERM) om cross-sample stabiliteit in te bouwen tijdens het trainen zonder de deploy-pipeline te wijzigen, simpelweg door het afstemmen van één hyperparameter op een ontwikkelingsset.

Het artikel concludeert dat het verminderen van churn directe operationele gevolgen heeft, door verspild experimenteel werk te snijden en computationele triage-beslissingen reproduceerbaar te maken, hoewel het opmerkt dat lage churn geen correctheid garandeert (een stabiel verkeerd model is nog steeds verkeerd).

Reducing cross-sample prediction churn in scientific machine learning