Budget-Sensitive Discovery Scoring: A Formally Verified Framework for Evaluating AI-Guided Scientific Selection

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein Schatzsucher. Sie haben eine riesige Karte mit 40.000 Schatzinseln (Molekülen), aber nur eine begrenzte Anzahl an Booten und Treibstoff (Ihr Budget), um die Inseln zu besuchen. Ihre Aufgabe: Finden Sie die wenigen echten Schätze (wirksame Medikamente) und vermeiden Sie, Zeit und Geld mit leeren Inseln zu verschwenden.

Das ist das Problem, das diese Wissenschaftler untersucht haben. Aber sie haben ein neues Werkzeug erfunden, um zu messen, wer bei dieser Suche am besten ist – und sie haben dabei herausgefunden, dass die neuesten, „intelligenten" KI-Modelle (Large Language Models, oder LLMs) in dieser spezifischen Aufgabe überraschend schlecht abschneiden.

Hier ist die Geschichte der Forschung, einfach erklärt:

1. Das Problem: Der alte Maßstab war ungenau

Früher haben Forscher bewertet, wie gut eine KI war, indem sie sagten: „Wie oft hat sie richtig geraten?" (wie ein Schultest).
Aber im echten Leben zählt das nicht.

Das Budget-Problem: Wenn Sie nur 50 Boote haben, ist es egal, ob Ihre KI bei 10.000 Inseln 90 % richtig liegt. Wichtig ist nur: Findet sie die Schätze in den ersten 50 Inseln?
Das Kosten-Problem: Ein falscher Fund kostet Tausende von Dollar (das Boot fahren zur leeren Insel). Ein verpasster Fund ist schwer zu beziffern, aber auch schlecht.
Das „Zurückhalten"-Problem: Eine gute KI sollte auch sagen können: „Ich bin mir bei dieser Insel nicht sicher, ich fahre lieber nicht hin", anstatt blind zu raten.

Bisher gab es keinen Maßstab, der all diese Dinge gleichzeitig berücksichtigt.

2. Die Lösung: Der „Budget-Sensitive Discovery Score" (BSDS)

Die Autoren haben einen neuen Bewertungsmaßstab erfunden, den sie BSDS nennen.
Stellen Sie sich das wie einen perfekten Richter vor, der von einem Roboter (einem mathematischen Beweis-System namens Lean 4) überprüft wurde, damit er niemals unfair urteilt.

Dieser Richter bewertet jeden Sucher (die KI-Strategie) an drei Punkten:

Trefferquote: Wie viele echte Schätze hast du gefunden?
Fehlerstrafe: Wie viele leere Inseln hast du besucht? (Das kostet Geld!)
Rückhalt-Strafe: Wie viele Inseln hast du ignoriert, obwohl du hättest hingehen sollen? (Das ist verpasste Chance).

Der Score ist wie ein Durchschnittswert über alle Budget-Größen. Man kann nicht einfach sagen: „Schau mal, bei 10 Inseln war ich super!" Der Richter schaut sich an, wie du bei 10, 50, 100 und 1000 Inseln performst.

3. Das Experiment: Der Kampf der Sucher

Die Forscher haben 39 verschiedene Sucher gegeneinander antreten lassen, um zu sehen, wer die besten Schatzkarten (Moleküle gegen HIV) findet.

Die Veteranen: Klassische mathematische Methoden (wie ein erfahrener Fischer mit einem einfachen Netz).
Die Hightech-Neulinge: Die neuesten, riesigen Sprach-KIs (wie ChatGPT, Claude, Gemini), die man einfach fragt: „Welches Molekül ist ein Schatz?" (ohne viel Training).
Die Misch-Teams: KIs, die versuchen, die alten Methoden mit ihrem Wissen zu verbessern.

4. Die überraschende Entdeckung: Der einfache Fischer gewinnt!

Das Ergebnis war schockierend für viele: Die einfachen, klassischen Methoden waren besser als die hochmodernen KIs.

Der Gewinner: Ein einfacher Algorithmus (Random Forest), der wie ein erfahrener Fischer ist, der einfach die Inseln nach einer bewährten Regel sortiert. Er fand die meisten Schätze mit dem wenigsten Treibstoff.
Die Verlierer: Die riesigen Sprach-KIs (LLMs).
- Wenn man sie einfach fragte (ohne Hilfe), waren sie fast so schlecht wie jemand, der völlig zufällig Inseln auswählt. Sie konnten die chemische Sprache (SMILES) nicht gut genug verstehen, um echte Schätze zu erkennen.
- Selbst wenn man ihnen die Vorhersagen des einfachen Fischers gab und sie bat, diese zu verbessern („Reranking"), haben sie es verschlimmert. Sie haben dem guten Plan des Fischers nur „Rauschen" (Verwirrung) hinzugefügt.

Die Analogie:
Stellen Sie sich vor, Sie haben einen erfahrenen Koch, der ein perfektes Rezept für eine Suppe hat (der einfache Algorithmus). Dann holen Sie einen berühmten, aber sehr theoretischen Koch (die KI), der noch nie in dieser Küche war, und bitten ihn, das Rezept zu verbessern.
Das Ergebnis? Der theoretische Koch verwirrt nur die Zutaten. Der einfache Koch mit dem bewährten Rezept macht die beste Suppe.

5. Warum ist das wichtig?

KI ist nicht immer die Antwort: In der wissenschaftlichen Entdeckung (wie bei Medikamenten) reicht es oft nicht, einfach eine große KI zu nehmen und zu hoffen. Manchmal sind spezialisierte, trainierte Modelle besser.
Der neue Richter hilft uns: Mit dem BSDS-System können wir jetzt genau messen, wann eine KI wirklich einen Mehrwert bringt und wann sie nur Geld verschwendet. Es verhindert, dass Firmen in teure KI-Technologien investieren, die in der Praxis nicht funktionieren.
Es gilt überall: Dieses System funktioniert nicht nur für Medikamente, sondern auch dafür, welche Autos sicher sind oder welche Materialien stark genug für Brücken sind.

Fazit

Die Forscher haben einen neuen, fairen Maßstab entwickelt, der zeigt: In der echten Welt der Entdeckung zählt nicht, wie „cool" oder „groß" eine KI klingt, sondern ob sie mit begrenztem Budget echte Ergebnisse liefert. Und bisher ist ein einfacher, bewährter Algorithmus oft besser als die neuesten Sprach-KIs.

Es ist eine Erinnerung daran, dass in der Wissenschaft manchmal der schlichte, solide Weg der beste ist – und dass wir neue Werkzeuge erst dann einsetzen sollten, wenn wir genau wissen, wie wir ihren Erfolg messen können.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die wissenschaftliche Entdeckung (z. B. in der Wirkstoffentwicklung oder bei der Sicherheitspriorisierung autonomer Fahrzeuge) stützt sich zunehmend auf KI-Systeme, um Kandidaten für teure experimentelle Validierungen auszuwählen. Es fehlt jedoch an einem prinzipiellen, budgetbewussten Bewertungsrahmen, um Auswahlstrategien zu vergleichen.

Lücken im aktuellen Stand: Herkömmliche Metriken wie AUROC oder F1-Score integrieren über alle Betriebspunkte hinweg und verschleiern die Leistung bei dem spezifischen Budget, unter dem tatsächlich Entscheidungen getroffen werden. Enrichment-Faktoren ignorieren die Kosten von Fehlalarmen (False Positives).
Das Dilemma: In realen Szenarien sind Fehler asymmetrisch kostspielig (ein False Positive verschwendet teure Experimente, ein False Negative ist eine verpasste Chance). Zudem fehlt es an Metriken, die die Option des „Abstinierens" (keine Entscheidung bei unsicheren Kandidaten) belohnen.
KI-Herausforderung: Große Sprachmodelle (LLMs) generieren plausible wissenschaftliche Vorschläge, aber es gibt keine verlässliche Methode, um zu bewerten, ob diese Vorschläge die experimentellen Ergebnisse im Vergleich zu etablierten ML-Modellen verbessern.

2. Methodik: Der BSDS/DQS-Rahmen

Die Autoren stellen den Budget-Sensitive Discovery Score (BSDS) und den daraus abgeleiteten Discovery Quality Score (DQS) vor.

Formale Verifizierung: Ein zentrales Merkmal ist, dass der Rahmenwerk durch 20 Theoreme formal verifiziert wurde, die mit dem Lean 4-Beweisassistenten maschinell überprüft wurden. Dies garantiert die mathematische Korrektheit der Metrik.
BSDS-Definition: Der Score bewertet eine Auswahlstrategie $\pi$ $π$ bei einem bestimmten Budget $B$ $B$ basierend auf drei Komponenten:
1. Recall (HR@B): Anteil der gefundenen wahren Treffer.
2. False Discovery Rate (FDR@B): Anteil der falschen Treffer (strafbar mit $\lambda$ ).
3. Coverage (Cov@B): Anteil der Kandidaten, die eine definitive Entscheidung erhalten (nicht abstinieren). Eine zu hohe Abstinenz wird mit $\gamma$ bestraft.
- Formel: $BSDS(B) = HR@B - \lambda \cdot FDR@B - \gamma \cdot (1 - Cov@B)$ .
DQS (Discovery Quality Score): Da das optimale Budget oft unbekannt ist, wird der BSDS über ein Spektrum von Budgets gemittelt. Dies verhindert, dass Strategien durch „Cherry-Picking" eines einzelnen günstigen Budgets hohe Scores erzielen.
Entscheidungsgrundlage: Der Rahmen basiert auf der Entscheidungstheorie, wobei $\lambda$ und $\gamma$ als Verhältnis der Kosten von Fehlentscheidungen bzw. verpasster Chancen zur Belohnung eines echten Treffers interpretiert werden.

3. Experimentelles Setup

Als Fallstudie wurde die Frage untersucht, ob LLMs einen marginalen Mehrwert zu einer bestehenden ML-Pipeline für die Wirkstoffkandidatenauswahl bieten.

Datensätze:
- Hauptfokus: MoleculeNet HIV (41.127 Verbindungen, 3,5% Aktivität).
- Validierung: Tox21, ClinTox, MUV-466, SIDER sowie ein autonomes Fahrzeug-Sicherheits-Dataset (AV Safety).
Bewertete Strategien (39 Proposer):
- Baselines: Zufällige Auswahl, „Greedy-ML" (Random Forest basierend auf SMILES-Eingaben).
- Mechanistische Ablationen: Varianten mit Retrieval (RAG-ähnlich), Prior-Wissen, Ensemble-Methoden und direkter Optimierung (MLP).
- LLM-Konfigurationen: 7 verschiedene Modelle (ChatGPT, Claude, Gemini, etc.) in Zero-Shot und Few-Shot (k=3) Modi, sowohl als direkte Klassifizierer als auch als Reranker für ML-Vorhersagen.
Protokoll: 1.000 Bootstrap-Replikate, Random- und Scaffold-Splits, verschiedene Budget-Fraktionen (1% bis 50%).

4. Wichtige Ergebnisse

Die Studie liefert fünf zentrale Erkenntnisse:

Dominanz des einfachen ML-Baselines: Der einfache Greedy-ML-Proposer (basierend auf einem Random Forest) erreicht den besten DQS (-0,046) und übertrifft alle MLP-Varianten sowie alle LLM-Konfigurationen. Zusätzliche MLP-Reranking-Schichten verschlechtern die diskriminierende Rangfolge des Random Forests.
Kein Mehrwert durch LLMs: Kein LLM (weder Zero-Shot noch Few-Shot) übertraf den Greedy-ML-Baseline auf den Datensätzen HIV oder Tox21.
- Direct Mode: LLMs, die nur SMILES-Strings bewerten, performen nahe dem Zufallsniveau oder sogar schlechter.
- Rerank Mode: Auch wenn LLMs ML-Vorhersagen erhalten, verschlechtern sie die Rangfolge im Vergleich zum reinen ML-Modell (sie fügen Rauschen hinzu, statt orthogonale Signale zu liefern).
Ablationsstudie: Die Versuche, den BSDS durch rekursive Merkmalsverfeinerung oder spezialisierte Verlustfunktionen (BSDS-Loss) zu optimieren, schlugen fehl. Die MLP-Modelle konnten die native Rangfolge des Random Forests nicht verbessern.
Unterscheidungsfähigkeit der Metrik: Herkömmliche Metriken (EF, AUROC) konnten zwischen verschiedenen Strategien, die denselben Random Forest nutzen, nicht unterscheiden (alle hatten identische Werte). BSDS/DQS hingegen unterschieden diese Strategien deutlich, indem sie die Trade-offs zwischen Präzision, Recall und Abstinenz sichtbar machten.
Robustheit und Generalisierung: Die Hierarchie der Proposer (Greedy-ML > Reranker > LLMs) generalisierte über fünf verschiedene MoleculeNet-Datensätze (mit Prävalenzen von 0,18% bis 46,2%) und auf das nicht-pharmazeutische AV-Sicherheits-Domain. Die Rangordnung blieb auch über ein breites Spektrum von Parameterkombinationen ( $\lambda, \gamma$ ) stabil.

5. Bedeutung und Schlussfolgerungen

Praktische Implikation: Für die Wirkstoffentwicklung bedeutet dies, dass in realistischen Szenarien, in denen bereits ein trainiertes ML-Modell existiert, der Einsatz von LLMs (ohne komplexe Tool-Integration wie RAG oder Docking-Simulationen) keinen zusätzlichen Nutzen bringt und sogar schädlich sein kann.
Methodischer Fortschritt: Der BSDS/DQS-Rahmen bietet erstmals eine formell verifizierte, budget-sensitive Metrik, die asymmetrische Fehlerkosten und die Option zur Abstinenz berücksichtigt. Dies ist essenziell für die Bewertung von „Black-Box"-Modellen wie LLMs.
Zukunftsperspektiven: Die negativen Ergebnisse gelten für reine SMILES-Evaluation. Die Autoren sehen Potenzial in zukünftigen Ansätzen, die Chain-of-Thought-Reasoning, Retrieval-Augmented Generation (RAG) mit chemischen Datenbanken oder Tool-Augmentation (z. B. Docking-Simulatoren) integrieren.

Zusammenfassend stellt das Paper einen rigorosen, mathematisch gesicherten Bewertungsstandard vor und zeigt, dass für die aktuelle Generation von LLMs in der reinen Kandidatenauswahl etablierte, einfache ML-Modelle (wie Random Forests auf Fingerabdrücken) überlegen sind.

Budget-Sensitive Discovery Scoring: A Formally Verified Framework for Evaluating AI-Guided Scientific Selection

1. Das Problem: Der alte Maßstab war ungenau

2. Die Lösung: Der „Budget-Sensitive Discovery Score" (BSDS)

3. Das Experiment: Der Kampf der Sucher

4. Die überraschende Entdeckung: Der einfache Fischer gewinnt!

5. Warum ist das wichtig?

Fazit

1. Problemstellung

2. Methodik: Der BSDS/DQS-Rahmen

3. Experimentelles Setup

4. Wichtige Ergebnisse

5. Bedeutung und Schlussfolgerungen

Mehr davon

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank