When should we trust the annotation? Selective prediction for molecular structure retrieval from mass spectra

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme bibliotheek hebt met duizenden boeken, maar je hebt alleen de kaft van een boekje in je hand. Je wilt weten welk boek het is. Je gebruikt een slimme computer die de kaft bekijkt en zegt: "Dit lijkt op boek A, of misschien boek B, of boek C."

In de wereld van chemie gebeurt precies dit. Wetenschappers krijgen een "massaspectrum" (een soort chemische vingerafdruk) van een onbekende stof en proberen te raden welke molecule het is. Soms raadt de computer het goed, maar vaak maakt hij fouten. En in gebieden als geneeskunde of milieuonderzoek kan een foutieve gok ernstige gevolgen hebben.

Deze paper introduceert een slimme manier om te zeggen: "Ik weet het niet zeker, dus ik ga het niet raden."

Hier is de uitleg, vertaald naar alledaagse taal:

1. Het Probleem: De "Gokke" Computer

Stel je voor dat je een detective bent die een verdachte probeert te identificeren op basis van een vaag silhouet.

De oude manier: De detective zegt altijd een naam, ook als hij maar 10% zeker is. Soms heeft hij gelijk, maar vaak niet.
Het risico: Als de detective een onschuldige man als crimineel aanwijst, is dat een ramp.
De nieuwe aanpak (Selectieve Voorspelling): De detective krijgt een nieuwe regel: "Als je niet zeker bent, zeg dan 'Ik weet het niet'." Hierdoor wordt de lijst met verdachten kleiner, maar is iedereen op die lijst wel echt verdacht.

2. De Drie Manieren om "Zekerheid" te Meten

De auteurs van dit paper hebben gekeken naar verschillende manieren om te bepalen wanneer de detective moet stoppen met gokken. Ze hebben drie soorten "zekerheidsmetingen" getest:

A. De "Bit-Check" (De details):
De computer kijkt naar elke losse bouwsteen van het molecuul. "Is er een zuurstofatoom? Ja. Is er een koolstofring? Ja."
- De les: Zelfs als de computer heel zeker is over de losse bouwstenen, kan hij toch de verkeerde molecule kiezen als er twee moleculen zijn die bijna identiek zijn. Het is alsof je zeker weet dat iemand een blauwe jas en een pet draagt, maar dat er duizenden mensen zijn die dat ook doen. Dit bleek een slechte indicator voor de uiteindelijke juiste naam.
B. De "Afstand" (Is dit een vreemdeling?):
De computer kijkt: "Lijkt dit silhouet op iets dat ik in mijn training heb gezien?" Als het heel anders is, is hij onzeker.
- De les: Dit werkt niet goed. De computer kan een heel bekend silhouet zien, maar toch de verkeerde naam geven omdat de "vergelijking" in de database lastig is.
C. De "Top-Kandidaten" (De ranglijst):
Dit is de winnaar. De computer kijkt niet naar losse details, maar naar de verhouding tussen de beste kandidaat en de tweede beste.
- De analogie: Stel je voor dat de computer zegt: "Dit is 90% boek A en 10% boek B." Dat is een groot verschil! De computer is zeker.
- Maar als hij zegt: "Dit is 51% boek A en 49% boek B," dan is het een flinke gok. Dan moet hij zeggen: "Ik weet het niet."
- Conclusie: Het kijken naar de ranglijst van de beste opties werkt veel beter dan het kijken naar losse details.

3. De "Veiligheidsnet" (Risico-beheersing)

De paper introduceert ook een wiskundig "veiligheidsnet".
Stel je voor dat een manager zegt: "Ik wil dat je niet meer dan 5% fouten maakt."
De computer gebruikt een slim algoritme (SGR) om een drempel te vinden.

Als de computer zegt: "Ik kan 100 boeken raden, maar dan maak ik 10% fouten," dan zegt het algoritme: "Nee, doe maar 80 boeken. Dan zit je veilig onder de 5%."
Het mooie is: de computer kan wiskundig bewijzen dat hij die 5% niet zal overschrijden. Het is alsof je een paraplu pakt en zegt: "Ik garandeer dat ik niet nat word, zolang het regent niet harder dan X."

4. Wat is de grote les?

De belangrijkste ontdekking van dit onderzoek is:
Kijk niet naar hoe zeker de computer is over de losse onderdelen, maar naar hoe zeker hij is over de winnaar in de wedstrijd.

Als je wilt weten of een molecule veilig is, is het niet belangrijk of de computer zeker weet dat er een koolstofatoom in zit.
Het is wel belangrijk of de computer zeker weet dat deze specifieke molecule de juiste is, en niet een andere die er heel erg op lijkt.

Samenvatting in één zin

Dit paper leert computers om te zeggen "Ik weet het niet" wanneer de top-kandidaten te veel op elkaar lijken, zodat we alleen op de zekerste antwoorden kunnen vertrouwen, en dat kunnen we zelfs wiskundig garanderen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "When should we trust the annotation? Selective prediction for molecular structure retrieval from mass spectra" in het Nederlands.

Probleemstelling

Het identificeren van moleculaire structuren uit tandem-massaspectrometrie (MS/MS) data is een fundamentele uitdaging in de metabolomica. Hoewel machine learning-methoden snel vooruitgang boeken, vertonen ze nog steeds aanzienlijke foutpercentages. In hoog-risico toepassingen, zoals klinische diagnostiek en milieucontrole, kunnen onjuiste annotaties ernstige gevolgen hebben.

Het huidige probleem is dat voorspellingsmodellen vaak geen mechanisme bieden om de betrouwbaarheid van individuele voorspellingen uit te drukken. Een model kan een structuur "voorspellen", maar de gebruiker weet niet of deze voorspelling betrouwbaar is of dat het model onzeker is. Er is dus behoefte aan een systeem dat niet alleen een antwoord geeft, maar ook aangeeft wanneer een antwoord niet vertrouwd kan worden, zodat het model kan afzien van een voorspelling (abstain) wanneer de onzekerheid te hoog is.

Methodologie

De auteurs introduceren een selectief voorspellingkader (selective prediction framework) voor het ophalen van moleculaire structuren uit MS/MS-spectra. Dit kader wordt geformuleerd binnen de risico-dekking trade-off (risk-coverage tradeoff).

1. Selectieve Classificatie:
Een selectieve classifier bestaat uit een voorspeller $f$ en een selectiefunctie $g$ . De functie $g$ bepaalt per invoer (spectrum) of het model een voorspelling doet of afziet.

Doel: Het maximaliseren van de dekking (aantal voorspellingen) terwijl het risico (foutpercentage) binnen de geaccepteerde voorspellingen onder een bepaalde drempel wordt gehouden.

2. Onzekerheidskwalificatie (Uncertainty Quantification):
De auteurs evalueren verschillende strategieën om onzekerheid te kwantificeren, verdeeld over twee niveaus van granulariteit:

Fingerprint-niveau: Onzekerheid over de voorspelde binaire bits van het moleculaire vingerafdruk (presence/absence van substructuren).
Retrieval-niveau: Onzekerheid over de rangschikking van kandidaat-structuren in de database.

3. Scoring Functies (Vertrouwensmaten):
Er wordt een breed scala aan scoringfuncties vergeleken om te bepalen welke voorspellingen betrouwbaar zijn:

Eerste-orde maten: Berekenbaar uit één voorspelling (bijv. maximale softmax-kans, verschil tussen top-2 scores).
Tweede-orde maten: Vereisen een verdeling over modelparameters (bijv. Deep Ensembles, MC Dropout, Laplace benadering) om aleatorische (data-gerelateerde) en epistemische (model-gerelateerde) onzekerheid te scheiden.
Afstand-gebaseerde maten: Meten hoe ver een spectrum ligt van de trainingsverdeling in de leerruimte (bijv. k-NN afstand, Mahalanobis afstand).

4. Risicobeperking met Statistische Garanties:
Om praktische toepassing mogelijk te maken, gebruiken de auteurs het SGR-algoritme (Selection with Guaranteed Risk). Dit is een distributie-vrije methode die een drempelwaarde ( $\tau$ ) kiest zodat het risico op de geaccepteerde voorspellingen met een hoge waarschijnlijkheid onder een door de gebruiker gespecificeerde waarde blijft, zelfs bij eindige steekproeven.

Experimentele Opzet

Dataset: MassSpecGym benchmark (231.104 spectra, 28.929 unieke moleculen).
Model: Een Multi-Layer Perceptron (MLP) die spectra afbeeldt op moleculaire vingerafdrukken, getraind met een contrastieve rangschikkingsverliesfunctie.
Onzekerheidsschatting: Gebruik van Deep Ensembles (5 leden), MC Dropout en Laplace benadering.
Evaluatiemetriek: Area Under the Risk-Coverage Curve (AURC) en dekking bij een vastgesteld doelrisico.

Belangrijkste Resultaten

Retrieval-niveau vs. Fingerprint-niveau:
- Onzekerheidsscores op fingerprint-niveau (bijv. totale entropie van de voorspelde bits) zijn slechte proxies voor het succes van de retrieval. Een model kan zeer zeker zijn over de vingerafdruk, maar als er meerdere kandidaten in de database zijn die structuurlijk zeer vergelijkbaar zijn, kan de retrieval toch falen.
- Retrieval-niveau scores presteren aanzienlijk beter.
Epistemische vs. Aleatorische Onzekerheid:
- Epistemische onzekerheid (onwetendheid van het model door beperkte trainingsdata) bleek niet effectief om betrouwbare annotaties te identificeren. Het presteerde vaak slechter dan totale onzekerheid of aleatorische onzekerheid.
- Aleatorische onzekerheid (onvermijdbare ruis/ambiguïteit in de data) en eerste-orde vertrouwen (zoals de kans op de top-kandidaat) leverden de sterkste risico-dekking trade-offs op.
De Rol van de Scoring Functie:
- Voor exacte matching ( $K=1$ ) werkt de score gap (verschil tussen top-1 en top-2) het beste.
- Voor bredere zoekopdrachten ( $K>1$ ) wordt rangvariatie (rank variance) over steekproeven de sterkste indicator.
- Conclusie: De meest effectieve scores zijn die welke de totale voorspellende onzekerheid op het niveau van de taak (retrieval) meten, in plaats van alleen de epistemische component.
Risicobeperking:
- Met het SGR-algoritme kunnen onderzoekers een acceptabel foutpercentage specificeren (bijv. 5%) en krijgen ze een subset van annotaties die met hoge waarschijnlijkheid aan deze eis voldoen.
- Bij $K=20$ (relaxed retrieval) kan het model tot 87% van de spectra annoteren met een risico van 0,5. Bij exacte matching ( $K=1$ ) is de dekking lager omdat de basisfoutkans hoger is.

Bijdrage en Significantie

Systematische Evaluatie: Dit is het eerste werk dat een systematische evaluatie uitvoert van selectieve voorspelling voor moleculaire structurophaling uit massaspectrometrie.
Praktische Toepasbaarheid: Het bewijst dat rekenkundig goedkope, eerste-orde vertrouwenmaten (zoals de top-kandidaat kans) vaak beter presteren dan complexe Bayesian benaderingen voor het identificeren van betrouwbare annotaties.
Vertrouwensmechanisme: Het transformeert moleculaire identificatie van een "black box" voorspelling naar een onzekerheidsbewust beslissingsproces. Gebruikers kunnen nu een drempel voor fouten stellen en weten dat de geaccepteerde resultaten binnen die grenzen vallen.
Inzicht in Onzekerheid: Het werk weerlegt de aanname dat epistemische onzekerheid de belangrijkste indicator is voor afwijzing in dit domein. In plaats daarvan is het de totale onzekerheid (vooral aleatorisch) op het niveau van de kandidaat-rangschikking die het meest informatief is.

Kortom, de paper biedt een robuust kader om te bepalen wanneer een AI-voorspelling voor een molecuulstructuur betrouwbaar is, wat cruciaal is voor de implementatie van deze technologie in kritieke toepassingen zoals de geneeskunde en milieuwetenschappen.

When should we trust the annotation? Selective prediction for molecular structure retrieval from mass spectra

1. Het Probleem: De "Gokke" Computer

2. De Drie Manieren om "Zekerheid" te Meten

3. De "Veiligheidsnet" (Risico-beheersing)

4. Wat is de grote les?

Samenvatting in één zin

Probleemstelling

Methodologie

Experimentele Opzet

Belangrijkste Resultaten

Bijdrage en Significantie

Meer zoals dit

Efficient semiparametric estimation of marginal treatment effects with genetic instrumental variables

Functional Bias and Tangent-Space Geometry in Variational Inference

Shape-constrained density estimation with Wasserstein projection

Estimation of heterogeneous principal effects under principal ignorability

Uncertainty quantification for critical energy systems during compound extremes via BMW-GAM