Budget-Sensitive Discovery Scoring: A Formally Verified Framework for Evaluating AI-Guided Scientific Selection

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een gigantische bibliotheek hebt met 40.000 boeken, maar je weet dat slechts een paar honderd daarvan echte "treffer" zijn (bijvoorbeeld boeken die een geheim medicijn bevatten). Je hebt echter slechts een klein budget: je kunt hooguit 500 boeken uitlenen om te lezen en te testen.

De vraag is: Hoe kies je die 500 boeken zo slim mogelijk uit?

Dit is precies het probleem dat wetenschappers en artsen hebben bij het zoeken naar nieuwe medicijnen of het testen van zelfrijdende auto's. Ze moeten kiezen uit duizenden opties met een beperkt budget.

Dit artikel introduceert een nieuwe manier om te meten of een computerprogramma (of een AI) goed kiest. Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen.

1. Het Probleem: De "Valse Alarm" en de "Gemiste Kans"

Stel je voor dat je een vissenroede hebt in een meer vol vissen.

Valse positieven (Fouten): Je haalt een vissenroede uit het water en het is een oude schoen. Je hebt tijd en energie verspild. In de wetenschap kost dit duizenden dollars per test.
Valse negatieven (Gemiste kansen): Je ziet een grote vis, maar je gooit hem niet aan de haak. Je hebt een kans gemist.
Het budget: Je mag maar 500 worpen doen.

Tot nu toe keken wetenschappers alleen naar het totaal aantal vissen dat ze vingen (ongeacht hoeveel worpen het kostte). Maar in de echte wereld telt het budget. Je wilt niet 500 schoenen vangen, zelfs niet als je later ook 100 vissen vangt.

2. De Oplossing: De "BSDS" (De Slimme Score)

De auteurs hebben een nieuwe meetlat bedacht, de BSDS (Budget-Sensitive Discovery Score).

De Vergelijking: Stel je voor dat je een rekenmachine hebt die niet alleen telt hoeveel vissen je hebt, maar ook aftrekt hoeveel tijd je hebt verspild aan schoenen en hoeveel tijd je hebt verloren door te twijfelen.
De "Formele Verificatie": Het meest bijzondere is dat deze rekenmachine niet zomaar is bedacht. De auteurs hebben hem wiskundig bewezen met een computerprogramma (Lean 4). Het is alsof ze de blauwdruk van een brug hebben laten controleren door de strengste ingenieurs ter wereld voordat ze er één steen op legden. Je kunt er 100% op vertrouwen dat de formule klopt.

3. De Experimenten: Mens vs. Machine

De auteurs wilden weten: Kan een moderne AI (zoals een chatbot) beter vissen dan een simpele, oude methode?

Ze testten 39 verschillende strategieën:

De "Oude Man" (Random Forest): Een simpele, bewezen methode die al jaren werkt.
De "Moderne AI" (LLMs): De nieuwste, slimste chatbots (zoals de versies van Google, OpenAI, etc.).
De "Gemengde" methoden: AI die probeert de oude man te helpen.

Het Resultaat (De Verassing):
De nieuwe, dure AI's verliezen van de simpele, oude methode.

De simpele "Oude Man" (een Random Forest) pakte de meeste echte vissen met het minste budget.
De moderne AI's (de chatbots) deden het vaak net zo slecht als iemand die blindelings 500 boeken uit de bibliotheek plukt.
Zelfs als je de AI een paar voorbeelden gaf (zodat ze wisten waar ze naar moesten zoeken), konden ze de simpele methode niet verslaan.

Waarom?
De AI's zijn heel goed in het schrijven van mooie zinnen over chemie, maar ze zijn slecht in het rekenen van de specifieke structuur van een molecuul om te zeggen of het werkt. Het is alsof je een briljante schrijver vraagt om een auto te repareren: hij kan er prachtige verhalen over schrijven, maar hij kan de motor niet fixen.

4. De Les voor de Wereld

Dit onderzoek leert ons drie belangrijke dingen:

Simpel is soms beter: In de wetenschap is een oude, betrouwbare methode vaak slimmer dan de nieuwste hype, zeker als je geld en tijd beperkt hebt.
AI is nog niet klaar voor de "echte" beslissing: AI kan helpen met ideeën bedenken, maar als het gaat om het kiezen van de beste kandidaat voor een dure test, is een getrainde computer nog steeds de baas.
We hebben een betere meetlat nodig: De nieuwe "BSDS" score is een fantastisch hulpmiddel. Het zorgt ervoor dat we niet worden misleid door mooie cijfers, maar kijken naar wat er echt gebeurt binnen ons budget.

Kortom:
Het is alsof je een wedstrijd organiseert om de beste visser te vinden. Iedereen dacht dat de nieuwe, dure elektronische vishengel (de AI) zou winnen. Maar de winnaar bleek de oude, simpele hengel met een stukje touw (de Random Forest) te zijn. En dankzij de nieuwe meetlat van de auteurs weten we nu precies waarom de oude hengel beter was, zonder dat we hoeven te gokken.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Wetenschappelijke ontdekking, zoals het vinden van nieuwe medicijnen of het prioriteren van veiligheidsscenario's voor autonome voertuigen, is steeds meer afhankelijk van AI-systemen om kandidaten te selecteren voor dure experimentele validatie. Echter, er ontbreekt een gestructureerd, budgetbewust evaluatiekader om selectiestrategieën met elkaar te vergelijken.

Bestaande methoden hebben drie belangrijke tekortkomingen:

Budget-agnosticisme: Standaard classificatiemetrics (zoals AUROC of F1-score) integreren over alle operationele punten en verbergen de prestaties op het specifieke budget waar beslissingen daadwerkelijk worden genomen.
Asymmetrische kosten: Ze houden geen rekening met het feit dat een vals-positief resultaat (een verspilde experimentele beurt) andere kosten heeft dan een vals-negatief resultaat (een gemiste kans).
Gebrek aan abstentie: Ze belonen niet voor het bewust afzien van een beslissing bij twijfelachtige kandidaten, wat in de praktijk vaak de beste strategie is.

De opkomst van Large Language Models (LLMs) die plausibele maar mogelijk onjuiste wetenschappelijke voorstellen genereren, maakt het noodzakelijk om een methode te hebben die deze "hallucinaties" (vals-positieven) en overmatige terughoudendheid (abstentie) correct bestraft.

Methodologie: BSDS en DQS

De auteurs introduceren het Budget-Sensitive Discovery Score (BSDS) en de Discovery Quality Score (DQS) als een formeel gevalideerd evaluatiekader.

Formele Verificatie: Het kader is wiskundig bewezen met 20 stellingen die machine-gecheckt zijn met de Lean 4 bewijshulp. Dit garandeert dat de metric correct is, ongeacht hoe onbetrouwbaar de onderliggende AI-modellen zijn.
BSDS (Budget-Sensitive Discovery Score): Deze metric wordt berekend op elk specifiek budgetniveau ( $B$ $B$ ) en combineert drie componenten:
1. Recall (HR): Het percentage van de echte hits dat is geselecteerd.
2. False Discovery Rate (FDR): De straal voor vals-positieven, gewogen met een parameter $\lambda$ (de kosten van een foutieve validatie ten opzichte van een echte ontdekking).
3. Coverage Gap: De straal voor abstentie, gewogen met een parameter $\gamma$ (de kosten van het niet testen van een kandidaat).
  Formule: $BSDS(B) = HR@B - \lambda \cdot FDR@B - \gamma \cdot (1 - Cov@B)$ .
DQS (Discovery Quality Score): Dit is het gemiddelde van de BSDS over een spectrum van budgetten. Dit voorkomt dat een strategie een hoge score behaalt door alleen op één "gekozen" budget goed te presteren (cherry-picking).

Experimenteel Opzet

De auteurs hebben dit kader toegepast op een case study: drug discovery (HIV-remmers) en autonome voertuigveiligheid.

Dataset: MoleculeNet HIV (41.127 verbindingen, 3,5% actief) en aanvullende datasets (Tox21, ClinTox, etc.) en een AV-safety dataset.
Proposers: Er zijn 39 strategieën geëvalueerd, waaronder:
- Baselines (Random, Greedy-ML op basis van een Random Forest).
- Mechanistische varianten (Retrieval, Ensemble, etc.).
- LLM-configuraties: 14 zero-shot en 14 few-shot configuraties van 7 verschillende productielLM's (o.a. ChatGPT, Claude, Gemini, Llama).
Validatie: De evaluatie omvatte 1.000 bootstrap-replicaten, zowel met willekeurige splits als met "scaffold splits" (voor betere generalisatie naar nieuwe chemische series).

Belangrijkste Resultaten

De RF-baseline wint: De simpele Greedy-ML strategie (een Random Forest die kandidaten rangschikt op voorspelde waarschijnlijkheid) behaalde de beste DQS (-0.046). Deze presteerde beter dan alle MLP-varianten en alle LLM-configuraties. Extra MLP-rerankinglagen verslechterden de prestaties van de RF in plaats van ze te verbeteren.
LLMs voegen geen meerwaarde toe: Geen enkele LLM (noch zero-shot, noch few-shot) kon de Greedy-ML-baseline verslaan op de HIV- of Tox21-datasets.
- In Direct mode (alleen SMILES-string) presteerden LLMs bijna willekeurig of slechter dan willekeurig.
- In Rerank mode (waarbij de LLM de RF-voorspellingen moet verbeteren) verbeterden ze de prestaties ten opzichte van direct, maar bleven ze significant onder de RF-baseline. De LLM voegde ruis toe in plaats van orthogonale signalen.
Ablatie-onderzoek: Varianten die BSDS proberen te optimaliseren via een MLP (BSDS-Recursive) of via recursieve feature-augmentatie, presteerden slechter dan de simpele RF. Dit suggereert dat de huidige architectuur van LLMs en MLP's niet in staat is om de discriminatieve kracht van een goed getrainde RF op deze specifieke taken te overtreffen.
Generalisatie: De rangorde van de strategieën bleef grotendeels stabiel over vijf verschillende MoleculeNet-datasets (met prevalenties van 0,18% tot 46,2%) en het AV-safety domein.
Unieke inzichten van BSDS: Standaard metrics (zoals EF@1% en AUROC) konden 7 van de 8 op RF gebaseerde strategieën niet van elkaar onderscheiden omdat ze dezelfde scoreverdeling hadden. BSDS/DQS kon deze strategieën wel onderscheiden op basis van hun afweging tussen precisie, recall en budgetgebruik.

Bijdragen en Betekenis

Formeel Geverifieerd Kader: Dit is een van de eerste evaluatiemethoden voor wetenschappelijke ontdekking die volledig formeel is bewezen (Lean 4), wat vertrouwen biedt in de betrouwbaarheid van de vergelijkingen.
Realistische Evaluatie: Het kader simuleert echte deployment-scenario's waarbij een bestaand ML-model al is getraind en de vraag is of een LLM daar nog meerwaarde aan toevoegt. De conclusie is dat dit onder de huidige omstandigheden (zonder tools of uitgebreide RAG) niet het geval is.
Budgetbewustzijn: Het benadrukt dat de "beste" AI-strategie afhangt van het beschikbare budget en de kosten van fouten, iets wat traditionele metrics negeren.
Toekomstperspectief: Hoewel de huidige resultaten negatief zijn voor LLMs in deze specifieke context, biedt het kader een robuust instrument om toekomstige methoden (zoals Chain-of-Thought, Retrieval-Augmented Generation met literatuur, of tool-gebruik voor docking-simulaties) objectief te evalueren.

Conclusie: Voor de huidige generatie LLMs in drug discovery voegt het gebruik van SMILES-strings alleen (zonder extra tools of fine-tuning) geen meerwaarde toe boven een goed getrainde klassieke machine learning classifier (Random Forest). Het voorgestelde BSDS/DQS-kader biedt echter de nodige rigorousiteit om dit soort claims in de toekomst nauwkeurig te testen.

Budget-Sensitive Discovery Scoring: A Formally Verified Framework for Evaluating AI-Guided Scientific Selection

1. Het Probleem: De "Valse Alarm" en de "Gemiste Kans"

2. De Oplossing: De "BSDS" (De Slimme Score)

3. De Experimenten: Mens vs. Machine

4. De Les voor de Wereld

Probleemstelling

Methodologie: BSDS en DQS

Experimenteel Opzet

Belangrijkste Resultaten

Bijdragen en Betekenis

Meer zoals dit

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank