Ursprüngliche Autoren: Pawel Dabrowski-Tumanski, Bartosz Topolski, Dariusz Plewczynski, Tomasz Jetka

Veröffentlicht 2026-06-01

📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Pawel Dabrowski-Tumanski, Bartosz Topolski, Dariusz Plewczynski, Tomasz Jetka

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ⚕️ Dies ist eine KI-generierte Erklärung eines Preprints, das nicht peer-reviewed wurde. Dies ist kein medizinischer Rat. Treffen Sie keine Gesundheitsentscheidungen auf Grundlage dieses Inhalts. Vollständigen Haftungsausschluss lesen

Die Kernidee: Es ist nicht der Berg, sondern die Karte

Stellen Sie sich vor, Sie sind ein Wanderer, der versucht, das Gelände eines Gebirges (die „Aktivitätslandschaft“) vorherzusagen. Sie wissen, dass zwei Wanderer, die sehr nah beieinander stehen, manchmal völlig unterschiedliche Höhenlagen haben können – der eine steht auf einem sonnigen Gipfel, der andere in einem tiefen, dunklen Tal. In der Chemie nennt man das eine Aktivitätsklippe (Activity Cliff): zwei Moleküle, die fast identisch aussehen, aber sehr unterschiedliche biologische Wirkungen haben.

Lange Zeit glaubten Wissenschaftler, dass diese Klippen ein natürliches Merkmal der Moleküle selbst seien.

Diese Arbeit argumentiert, dass das falsch ist. Die Autoren behaupten, dass es davon abhängt, wie man die Karte zeichnet, ob man eine Klippe oder einen sanften Hang sieht.

Wenn Sie eine Karte verwenden, die die Entfernung misst, indem man „durch Wände geht“ (eine spezifische mathematische Methode), könnten zwei Wanderer weit voneinander entfernt erscheinen. Wenn Sie eine Karte verwenden, die die Entfernung misst, indem man „in einer geraden Linie fliegt“, könnten dieselben Wanderer direkt nebeneinander liegen. Die Arbeit beweist, dass die „Klippe“ nicht immer im Molekül liegt; manchmal ist sie eine Illusion, die durch das Lineal erzeugt wird, mit dem Sie messen.

Das Experiment: Die sechsstufigen Detektiv-Pipeline

Um dies zu beweisen, bauten die Forscher eine „sechsstufige Detektiv-Pipeline“, um 15 verschiedene Arten von Karten (Repräsentationen) und Linealen (Metriken) über drei verschiedene biologische Targets (wie verschiedene Arten von Schlössern, die die Moleküle zu öffnen versuchen) zu testen.

Hier ist das, was sie in jedem Schritt herausfanden, übersetzt in Analogien:

1. Die „Null-Distanz“-Falle (Geometrie)

Der Test: Sehen verschiedene Moleküle auf der Karte exakt gleich aus?
Das Ergebnis: Einige Karten (wie „ChemBERTa“) sind so verschwommen, dass fast jedes Molekül so aussieht, als stünde es am exakt gleichen Ort. Es ist wie eine Karte, auf der jede Stadt auf demselben Punkt gezeichnet ist. Andere Karten (wie „Morgan Fingerprints“) sind scharf und deutlich, behandeln aber 3D-Zwillinge (Stereoisomere) als identisch, obwohl der eine ein linker Handschuh und der andere ein rechter Handschuh ist.

2. Die „Klippen-Jagd“ (Anreicherung/Enrichment)

Der Test: Wenn man sich die 100 am ähnlichsten erscheinenden Molekülpaare ansieht, wie viele von ihnen sind tatsächlich Klippen?
Das Ergebnis: Hier gehen die Karten extrem weit auseinander. Auf demselben Datensatz fand eine Karte 142 Klippen, während eine andere 7.903 Klippen fand.
Die Metapher: Es ist wie die Suche nach Schlaglöchern auf einer Straße. Eine Karte sagt: „Es gibt hier keine Schlaglöcher, nur eine glatte Straße.“ Eine andere sagt: „Es ist ein Minenfeld!“ Die Straße hat sich nicht verändert; die Karte hat sich verändert.

3. Der „Steilheits“-Check (Gradienten)

Der Test: Wie abrupt sind die Abfälle in der Landschaft?
Das Ergebnis: Einige Karten zeigen eine Landschaft, die größtenteils glatt ist und sanfte Hänge hat. Andere zeigen eine Landschaft voller plötzlicher, erschreckender Abstürze. Interessanterweise schien das „Dopamin-D2“-Target (ein spezifisches Protein) eine natürlich raue Landschaft zu haben, egal welche Karte man verwendete.

4. Der „Insel“-Test (Topologie)

Der Test: Bilden die Klippen distinkte Inseln oder sind sie alle zu einem großen Klumpen zusammengeschmolzen?
Das Ergebnis: Gute Karten zeigen Klippen als deutliche Inseln, was Wissenschaftlern hilft zu verstehen, warum die Klippe existiert (z. B. „Oh, diese ganze Gruppe von Molekülen versagt wegen dieser spezifischen Form“). Schlechte Karten lassen alles zu einem einzigen, verwirrenden Klumpen kollabieren, bei dem man nichts mehr unterscheiden kann.

5. Das „Vorhersage“-Spiel (Maschinelles Lernen)

Der Test: Kann ein Computer lernen, Klippen vorherzusagen, indem er nur auf die Karte schaut?
Das Ergebnis: Wenn die Karte verschwommen ist (wie die „ChemBERTa“-Karte), wird der Computer verwirrt und rät zufällig. Wenn die Karte eine klare Struktur hat, kann der Computer die Muster lernen. Dies bestätigte, dass die „Klippe“ eine Eigenschaft der Geometrie der Karte ist, nicht nur der Biologie.

6. Der „Realitäts“-Check (Stereoisomere & Paare)

Der Test: Sie untersuchten zwei spezifische, reale Szenarien:
- Stereoisomere: Moleküle, die Spiegelbilder sind (wie linke und rechte Hände).
- Matched Pairs: Moleküle, die sich durch einen winzigen chemischen Austausch unterscheiden.
Das Ergebnis:
- Fingerprints (altmodische Karten) sind schlecht darin, Spiegelbilder zu erkennen (sie denken, links und rechts seien dasselbe), aber gut darin, winzige chemische Veränderungen zu sehen.
- Learned Embeddings (KI-Karten) sind gut darin, Spiegelbilder zu erkennen, übersehen aber manchmal die winzigen chemischen Veränderungen.
- Fazit: Keine einzelne Karte ist perfekt in allem.

Die wichtigsten Erkenntnisse

1. Es gibt keine „beste“ Karte
Die Arbeit kommt zu dem Schluss, dass man nicht einfach eine einzige „beste“ Art wählen kann, um Moleküle zu messen.

Wenn Sie Klippen zwischen Molekülen finden wollen, die sich sehr ähnlich sehen (hohe Ähnlichkeit), sind Morgan Fingerprints am besten.
Wenn Sie den Unterschied zwischen linken und rechten Molekülen (Stereochemie) erkennen müssen, ist MolFormer die einzige Methode, die gut funktioniert.
Wenn Sie nach winzigen chemischen Veränderungen suchen, sind MACCS oder RDKit Fingerprints am besten.

2. Die „Klippe“ ist eine Entscheidung
Wenn ein Wissenschaftler sagt: „Diese zwei Moleküle sind eine Aktivitätsklippe“, dann sagt er eigentlich: „Diese zwei Moleküle sind eine Aktivitätsklippe gemäß der spezifischen Karte und dem Lineal, das ich gewählt habe.“ Wenn man die Karte ändert, kann die Klippe verschwinden oder aus dem Nichts auftauchen.

3. Die „Kein Gratisessen“-Regel
Genau wie in der Wirtschaft gibt es auch in der Chemie kein „Gratisessen“. Man kann keine Karte haben, die perfekt darin ist, Spiegelbilder zu sehen, perfekt bei winzigen chemischen Änderungen ist und gleichzeitig perfekt darin, Klippen vorherzusagen. Verschiedene Karten heben unterschiedliche Merkmale der molekularen Welt hervor.

Zusammenfassung

Diese Arbeit ist eine Warnung an Wissenschaftler: Vertrauen Sie der Karte nicht blind. Die Art und Weise, wie Sie Moleküle visualisieren und messen, verändert grundlegend die Geschichte, die Sie darüber erzählen, wie sie funktionieren. Um die wahre Natur eines Wirkstoffs zu verstehen, müssen Sie wissen, durch welche „Linse“ Sie schauen, denn die Linse selbst erschafft die Klippen, die Sie sehen.

Technisches Resümee: Die Geometrie von Activity Cliffs

Problemstellung

Activity Cliffs – Paare strukturell ähnlicher Verbindungen, die große Unterschiede in der biologischen Potenz aufweisen – werden weithin als intrinsische Merkmale chemischer Datensätze angesehen, welche die Grenzen der Vorhersagbarkeit von Struktur-Wirkungs-Beziehungen (SAR) definieren. Die Definition eines Activity Cliffs ist jedoch operational und hängt von zwei benutzerdefinierten Schwellenwerten ab: einer Potenzdifferenz (typischerweise $\ge$ 1 Log-Einheit) und einer strukturellen Ähnlichkeitsgrenze.

Das zentrale Problem, das in dieser Arbeit adressiert wird, ist, dass die strukturelle Ähnlichkeit keine intrinsische Eigenschaft eines Molekülpaares ist, sondern eine Eigenschaft des Metrikraums, in dem die Moleküle eingebettet sind. Folglich bestimmt die Wahl der molekularen Repräsentation (Embedding) und des Ähnlichkeitsmaßes fundamental, welche Paare als Cliffs qualifizieren, wie viele existieren und ob sie vorhersagbar sind. Die Autoren argumentieren, dass sich das Feld auf Morgan-Fingerprints mit Tanimoto-Ähnlichkeit als Standard geeinigt hat, ohne systematisch zu charakterisieren, wie unterschiedliche Repräsentationen die Aktivitätslandschaft organisieren. Dieser Mangel an systematischer Untersuchung führt zu Schlussfolgerungen über Aktivitätslandschaften, die eher die Wahl der Metrik als die zugrunde liegende Biologie widerspiegeln könnten.

Methodik

Die Autoren schlagen eine sechsstufige Analyse-Pipeline vor, die darauf ausgelegt ist, die Hypothese systematisch zu testen, dass Activity Cliffs eine Konvolution aus der Geometrie der Repräsentation und der Zielbiologie sind. Diese Pipeline untersucht geometrisch distinkte Eigenschaften der Aktivitätslandschaft, geordnet nach Skala und logischer Abhängigkeit. Ein Scheitern in einem früheren Schritt macht die nachfolgenden Schritte uninterpretierbar.

Die Pipeline wurde auf fünfzehn (Embedding, Metrik)-Konfigurationen über drei Bioaktivitäts-Datensätze (SARS-CoV-2 Main Protease, Faktor Xa und Dopamin-D2-Rezeptor) angewendet, die für ihre Herausforderungen durch Activity Cliffs bekannt sind. Die Konfigurationen umfassten:

Klassische Fingerprints: Morgan (Radius 2, 1024 Bits), RDKit-topologisch und MACCS-Keys (166 Bits).
Gelernte Embeddings: MolFormer, ChemBERTa und Chemeleon (MPNN trainiert auf Mordred-Deskriptoren).
Metriken: Tanimoto, Dice, Cosine, L1 und L2 Distanzen.

Die sechsstufige Pipeline

Paarweise Distanzgeometrie: Analysiert die Verteilung paarweiser Distanzen, um fundamentale Einschränkungen zu identifizieren. Zu den Metriken gehören der Anteil von Null-Distanz-Paaren ( $p_0$ ), der Variationskoeffizient (CV) für den diskriminativen Bereich, der relative Kontrast (RC) und die Hubness-Skewness ( $S_{Nk}$ ), um Probleme der Nachbarschafts-Reliabilität zu detektieren.
Activity Cliff Enrichment: Bewertet den kumulativen Anteil an Cliffs ( $F(n)$ ) unter den top $n\,\%$ ähnlichsten Paaren. Eine flachere Kurve deutet auf eine bessere Performance hin (weniger Cliffs unter ähnlichen Paaren). Der Anreicherungskoeffizient $G$ quantifiziert das Ausmaß der Cliff-Depletion.
Aktivitätsgradienten-Verteilung: Berechnet den Structure-Activity Landscape Index (SALI), $L(i,j) = |\Delta pK_i| / d(x_i, x_j)$ , für alle Paare. Die Verteilung dieser Gradienten wird an eine Kohlrausch–Williams–Watts (KWW) Überlebensfunktion angepasst, um den Formparameter $b$ zu bestimmen. $b=2$ indiziert eine glatte, leicht abfallende Landschaft (Rayleigh-Ceiling), während $b < 2$ auf schwere Tails und häufige extreme Gradienten hindeutet.
Persistente Homologie des Cliff-Subraums: Verwendet die Vietoris–Rips-Filtration auf Cliff-beteiligten Molekülen, um zusammenhängende Komponenten ( $H_0$ ) zu verfolgen. Die mittlere Persistenz ( $\mu_{pers}$ ) und die maximale Persistenz ( $p_{max}$ ) messen die topologische Trennung von Cliff-anfälligen Clustern.
Geometrische Sonden der Repräsentationsstruktur: Trainiert Klassifikatoren (Logistische Regression, XGBoost, Siamese Networks) auf der absoluten Embedding-Differenz $|e_i - e_j|$ , um die Existenz von Cliffs vorherzusagen. Gap-Statistiken ( $\Delta_{lin}$ und $\Delta_{arch}$ ) charakterisieren den linearen vs. nicht-linearen Charakter sowie den Reichtum an Feature-Interaktionen des Embedding-Raums.
Benchmarking gegen chemische Grundwahrheit: Validiert Repräsentationen gegen zwei strukturell definierte Subpopulationen, die unabhängig von der eigenen Ähnlichkeitsmaß der Pipeline sind:
- Stereoisomere: Paare mit identischen Graphen, aber unterschiedlichen 3D-Konfigurationen.
- Matched Molecular Pairs (MMPs): Paare, die durch eine einzige chemische Transformationen miteinander verwandt sind.
- Die Performance wird durch den Variationskoeffizienten (CV) der Distanzverteilung unter den Cliff-Paaren innerhalb dieser Subpopulationen bewertet.

Kernergebnisse

1. Repräsentationsabhängigkeit der Cliff-Anzahlen

Die Wahl der Repräsentation verändert die beobachtete Anzahl an Activity Cliffs drastisch. Auf dem SARS-CoV-2-Datensatz bei 90 % Ähnlichkeit variierte die Anzahl der identifizierten Cliff-Paare über die Konfigurationen hinweg um den Faktor 55:

Morgan Tanimoto: 142 Paare.
Chemeleon Cosine: 752 Paare.
RDKit Dice: 7.903 Paare.
Dies zeigt, dass die „Cliffiness“ eines Datensatzes weitgehend ein geometrisches Artefakt der gewählten Repräsentation ist.

2. Performance nach Repräsentationstyp

Morgan Tanimoto: Zeigt die stärkste Cliff-Anreicherung ( $G$ ) und die beste Generalisierung über Scaffolds hinweg. Seine Geometrie ist bimodal (Beta-verteilt) und organisiert den Raum um die Scaffold-Identität. Es leidet jedoch unter vollständiger Stereochemie-Blindheit ( $p_{0,stereo} = 100\%$ ).
MolFormer Cosine: Die einzige Konfiguration, die eine signifikante Stereochemie-Sensitivität aufweist (hoher CV für Stereoisomere, $p_{0,stereo} = 0$ ). Es kodiert die Stereozentrum-Information als Richtungsvariation, wodurch die Cosine-Distanz (sensibel gegenüber Winkelunterschieden) der L1/L2-Distanz überlegen ist.
MACCS und RDKit Dice: Am empfindlichsten gegenüber Matched-Molecular-Pair (MMP)-Transformationen; sie erreichen den höchsten CV für MMPs. Sie kodieren fragmentbasierte Muster effektiv, teilen aber die Stereochemie-Blindheit anderer Fingerprints.
ChemBERTa: Versagt einheitlich über alle Kriterien aufgrund von „Embedding Collapse“. Es erzeugt stark konzentrierte Distanzen (niedriger CV, hohe Hubness), was zu einem geometrisch degenerierten Raum führt, in dem die meisten Moleküle unabhängig von der Aktivität ähnlich erscheinen.
Chemeleon: Erzeugt die reichhaltigste topologische Cliff-Struktur (hohe Persistenz), zeigt aber eine dramatische Abhängigkeit von der Metrik: L1/L2-Distanzen führen beim Dopamin-D2-Target zu einem topologischen Kollaps, während Cosine die Struktur beibehält.

3. Zielspezifische Rauheit der Landschaft

Die Analyse offenbart intrinsische Unterschiede in den Ziel-Landschaften, unabhängig von der Repräsentation:

SARS-CoV-2: Die glatteste Landschaft (höchste $b$ -Werte, Annäherung an den Rayleigh-Ceiling $b=2$ ).
Faktor Xa: Mittlere Rauheit.
Dopamin D2: Die raueste Landschaft. Keine Konfiguration erreichte $b=2$ auf diesem Target, was darauf hindeutet, dass strukturierte Diskontinuitäten unabhängig vom Embedding bestehen bleiben. Die Autoren führen dies auf die konformative Flexibilität von GPCRs und die Aggregation heterogener Assay-Daten in ChEMBL zurück.

4. Nicht-Redundanz der Pipeline-Schritte

Jeder Schritt offenbarte Fehlermodi, die für andere unsichtbar waren. Beispielsweise zeigte RDKit einen hohen diskriminativen Bereich (Schritt 1), aber eine schlechte Cliff-Anreicherung (Schritt 2) und schwere Gradienten-Tails (Schritt 3). Die persistente Homologie (Schritt 4) deckte topologische Kollapse in RDKit und Chemeleon auf, die durch paarweise Statistiken nicht vollständig erfasst wurden.

Bedeutung und Ansprüche

Das Paper behauptet, dass Activity Cliffs keine intrinsischen Eigenschaften von Molekülpaaren sind, sondern emergente Eigenschaften des gewählten (Embedding, Metrik)-Paares. Die Autoren schlagen keine einzelne „beste“ Repräsentation vor; vielmehr argumentieren sie, dass verschiedene Repräsentationen unterschiedliche, teilweise nicht überlappende Aspekte der molekularen Erkennung kodieren:

Fingerprints eignen sich hervorragend für Scaffold- und Fragment-Transformationen, versagen aber bei der Stereochemie.
Gelernte Embeddings (insbesondere mit Cosine-Distanz) eignen sich gut für die Stereochemie-Sensitivität, können aber die Fragment-Spezifität von Fingerprints für MMPs vermissen lassen.
Kein „Free Lunch“: Keine einzelne Konfiguration ist gleichzeitig in allen Kriterien exzellent.

Die Bedeutung dieser Arbeit liegt in der Bereitstellung eines Rahmens zur Diagnose der geometrischen Eigenschaften von Aktivitätslandschaften. Sie legt nahe, dass die Auswahl einer Repräsentation ohne Charakterisierung ihrer Geometrie zu Schlussfolgerungen führt, die die Metrik statt der Biologie widerspiegeln. Die Autoren schlagen vor, sich von einem universellen Standard (Morgan/Tanimoto) weg zu bewegen hin zu einer aufgabenbezogenen Auswahl:

Nutzen Sie Morgan Tanimoto für die SAR-Analyse innerhalb struktureller Serien.
Nutzen Sie MolFormer Cosine für stereochemie-sensitive Aufgaben.
Nutzen Sie MACCS/RDKit Dice für die Annotation von MMP-Transformationen.
Nutzen Sie Chemeleon Cosine für die globale topologische Exploration.

Abschließend deuten die Autoren darauf hin, dass die „Rauheit“ der Landschaft eines Targets (z. B. die intrinsische Schwierigkeit, die Aktivität von Dopamin D2 vorherzusagen) durch Konsens über mehrere Repräsentationen hinweg identifiziert werden kann, um biologische Komplexität von Repräsentations-Artefakten zu unterscheiden.

The Geometry of Activity Cliffs: Representation Dependence and Multi-Scale Characterization of Activity Landscapes