De novo molecular structure elucidation from mass spectra via flow matching

Ghaith Mqawass (TUM School of Life Sciences Weihenstephan, Technical University of Munich, Germany, Machine Learning and Computational Sciences, Pfizer Research & Development, Berlin, Germany), Tuan Le (Machine Learning and Computational Sciences, Pfizer Research & Development, Berlin, Germany), Fabian Theis (TUM School of Life Sciences Weihenstephan, Technical University of Munich, Germany, TUM School of Computation, Information and Technology, Technical University of Munich, Germany, Institute of Computational Biology, Helmholtz Center Munich, Germany), Djork-Arné Clevert (Machine Learning and Computational Sciences, Pfizer Research & Development, Berlin, Germany)

Veröffentlicht 2026-03-13

📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Ansehen auf arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Die große Detektiv-Geschichte: Vom zerbrochenen Puzzle zum Bild

Stell dir vor, du hast ein wunderschönes, komplexes Bild (ein Molekül, wie Koffein oder ein Medikament). Jemand nimmt dieses Bild, wirft es auf den Boden und zertrümmert es in tausende kleine Scherben. Dann nimmt er eine Kamera und macht ein Foto von den Scherben, wie sie auf dem Boden liegen.

Das Problem: Du hast jetzt nur noch das Foto der Scherben (das Massenspektrum). Deine Aufgabe ist es, aus diesem Foto das ursprüngliche Bild wiederherzustellen. Das ist extrem schwierig, weil:

Viele verschiedene Bilder könnten genau dieselben Scherben ergeben haben.
Die Scherben sind durcheinander geworfen.
In der Chemie nennen wir das ein „inverses Problem": Vom Ergebnis auf die Ursache zu schließen, ist viel schwerer als vom Bild zum Ergebnis zu kommen.

Bisher waren Chemiker wie Detektive, die nur eine sehr ungenaue Liste von Scherben hatten und oft raten mussten. Viele Moleküle blieben für immer ein Rätsel – die sogenannte „dunkle Materie" der Chemie.

Die Lösung: MSFlow (Der neue Super-Detektiv)

Die Forscher haben einen neuen KI-Algorithmus namens MSFlow entwickelt. Man kann sich das wie ein zweistufiges Team aus einem Übersetzer und einem Architekten vorstellen.

Stufe 1: Der Übersetzer (Der Encoder)

Stell dir vor, das Foto der Scherben ist auf einer fremden, unverständlichen Sprache geschrieben. Der erste Teil des Systems (der Encoder) ist wie ein genialer Übersetzer.

Er schaut sich das Foto der Scherben an.
Er übersetzt dieses chaotische Bild in eine kontinuierliche, flüssige Sprache (in der Wissenschaft „CDDD-Embedding" genannt).
Die Analogie: Statt nur eine Liste von Scherben zu haben, erstellt er eine Art „Gefühl" oder eine „DNA" des ursprünglichen Bildes. Er sagt: „Dieses Foto riecht nach Kaffeebohnen und hat die Struktur eines kleinen Hauses." Diese „DNA" ist viel informativer als eine einfache Liste von Scherben.

Stufe 2: Der Architekt (Der Decoder)

Jetzt kommt der zweite Teil ins Spiel: Der Architekt (das Flow-Matching-Modell).

Frühere Methoden waren wie ein Architekt, der ein Haus Stein für Stein bauen musste, von links nach rechts (wie beim Schreiben eines Satzes). Wenn er einen Fehler machte, war das ganze Haus krumm.
MSFlow ist anders. Stell dir vor, der Architekt hat einen leeren Raum, der voll mit zufällig herumliegenden Ziegelsteinen ist (das ist die „Uniform Distribution").
Der Architekt bekommt die „DNA" vom Übersetzer (Stufe 1) als Bauplan.
Dann beginnt ein magischer Prozess (das Flow Matching): Die Ziegelsteine beginnen zu tanzen und sich langsam zu ordnen. Sie fließen von einem chaotischen Zustand in eine perfekte Struktur.
Der Vorteil: Der Architekt kann das ganze Bild gleichzeitig im Kopf haben (bidirektionale Aufmerksamkeit). Er weiß sofort, wo die Fenster sein müssen, während er die Wände baut. Er muss nicht raten, was als Nächstes kommt, sondern formt das Bild aus dem Chaos heraus.

Warum ist das so viel besser?

Die Forscher haben ihren neuen Detektiv gegen die alten Methoden getestet. Das Ergebnis ist beeindruckend:

Früher: Die alten Methoden schafften es, nur bei etwa 3 bis 8 von 100 Fällen das richtige Bild wiederherzustellen. Oft war das Bild nur noch eine krumme Skizze.
Mit MSFlow: Der neue Detektiv schafft es, bei 45 von 100 Fällen das Bild perfekt wiederherzustellen. Das ist eine Verbesserung um das 14-fache!
Selbst wenn er das Bild nicht zu 100% perfekt trifft, ist das Ergebnis oft so ähnlich, dass man sofort erkennt: „Aha, das ist fast das gleiche Bild!"

Ein wichtiger Hinweis: Wo liegt die Schwäche?

Die Forscher waren ehrlich und haben einen „Orakel-Test" gemacht. Sie gaben dem Architekten nicht die Übersetzung des Übersetzers, sondern das perfekte Original-Bauplan-DNA direkt.

Ergebnis: Dann hätte der Architekt in 86% der Fälle das perfekte Bild gebaut.
Was bedeutet das? Der Architekt (Stufe 2) ist eigentlich ein Genie. Das Problem liegt eher beim Übersetzer (Stufe 1). Manchmal gehen beim Übersetzen vom Foto der Scherben zur „DNA" noch zu viele Details verloren. Aber selbst mit diesem kleinen Verlust ist MSFlow viel besser als alles, was es vorher gab.

Fazit für den Alltag

Stell dir vor, du hast ein zerbrochenes Vasen-Foto. Früher konnten Computer nur raten, wie die Vase aussah, und lagen oft falsch. Mit MSFlow können Computer das Foto der Scherben in eine Art „Gefühl" übersetzen und daraus das Originalbild fast wie durch Magie wiederherstellen.

Das ist ein riesiger Schritt für die Wissenschaft, denn plötzlich können wir viele neue Medikamente, Naturstoffe und chemische Verbindungen entdecken, die bisher im Dunkeln lagen. Der Code für diesen neuen Detektiv ist jetzt für alle (die nicht kommerziell arbeiten) online verfügbar, damit jeder daran weiterbauen kann.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Massenspektrometrie (MS) ist ein zentrales Werkzeug in der Chemie und Biologie zur Identifizierung von Molekülen. Dennoch stellt die Umwandlung von Massenspektren (insbesondere Tandem-MS/MS-Daten) in vollständige molekulare Strukturen ein schwerwiegendes, unterbestimmtes inverses Problem dar.

Herausforderung: Der Mapping-Prozess von Struktur zu Spektrum ist oft „eins-zu-viele" (ein Molekül kann auf verschiedene Weisen fragmentieren und ähnliche Spektren erzeugen). Umgekehrt ist die Rekonstruktion der Struktur aus einem Spektrum mehrdeutig.
Folgen: Ein großer Teil der in metabolomischen Studien beobachteten Spektren bleibt unannotiert (die sogenannte „dunkle Materie" der Metabolomik). Bestehende Methoden, wie Datenbankabgleiche oder autoregressive Generierungsmodelle (z. B. basierend auf SMILES), stoßen an Grenzen, da sie entweder chemische Formelbeschränkungen nicht erzwingen können oder in suboptimalen lokalen Pfaden stecken bleiben.

2. Methodik: MSFlow

Die Autoren stellen MSFlow vor, ein zweistufiges Encoder-Decoder-Modell, das auf Flow Matching (einer generativen Technik) basiert, um diese Lücke zu schließen.

A. Architektur im Überblick

Das Modell besteht aus zwei Hauptphasen (siehe Abbildung 2 im Paper):

Stage 1: Spectrum Encoder (MIST):
- Ein Transformer-basierter Encoder (basierend auf MIST) kodiert das rohe Massenspektrum (Peak-Listen von m/z und Intensität) in einen kontinuierlichen, chemisch informativen Embedding-Raum.
- Als Zwischenrepräsentation werden CDDD (Continuous Descriptors for Drug Discovery) verwendet. Diese sind 512-dimensionale Vektoren, die aus einem Autoencoder stammen, der SMILES-Strings kanonisiert. CDDD werden gewählt, da sie informativer und verlustärmer sind als binäre Fingerabdrücke (wie Morgan-Fingerprints).
Stage 2: Discrete Flow Matching Decoder:
- Ein konditionierter Decoder rekonstruiert die Molekülstruktur aus den latenten CDDD-Embeddings.
- Repräsentation: Statt SMILES wird SAFE (Sequential Attachment-based Fragment Embedding) verwendet. SAFE zerlegt Moleküle in Fragmente und ist permutationsinvariant (die Reihenfolge der Fragmente ist irrelevant), was die Generierung erleichtert.
- Generativ-Modell: Der Decoder nutzt Discrete Flow Matching (DFM) über eine diskrete Zeit-Markov-Kette. Im Gegensatz zu Diffusionsmodellen, die oft kontinuierliche Räume nutzen, arbeitet DFM direkt mit diskreten Tokens (Atome, Bindungen).
- Architektur: Der Decoder hat eine BERT-ähnliche Architektur mit bidirektionaler Aufmerksamkeit. Er nutzt Adaptive Layer Normalization (AdaLN), um die Konditionierung durch das CDDD-Embedding $Y$ in die Generierung zu integrieren.
- Training: Das Modell wird mit Classifier-Free Guidance trainiert, wobei die Kondition (CDDD) zufällig weggelassen wird, um sowohl konditionierte als auch unbedingte Generierung zu lernen.

B. Datensätze

Training: Ein großer Korpus von ca. 2,8 Millionen Molekülen aus öffentlichen Datenbanken (DSSTox, HMDB, COCONUT, MOSES).
Evaluation: Zwei Benchmarks:
- NPLIB1 (CANOPUS): In-Distribution-Datensatz mit ca. 8.000 Spektren.
- MassSpecGym: Ein strenger Out-of-Distribution-Benchmark mit ca. 231.000 Spektren, bei dem die Testmoleküle strukturell deutlich größer und flexibler sind als die Trainingsdaten (minimale chemische Edit-Distanz von 10 zwischen Train/Test).

3. Wichtige Beiträge

Neue Generative Architektur: Einführung eines zweistufigen Flow-Matching-Ansatzes für die de-novo-Strukturaufklärung, der die Limitierungen autoregressiver Modelle (SMILES-basiert) und irreversibler Fingerabdruck-Encoder umgeht.
Verbesserte Repräsentation: Demonstration, dass kontinuierliche Deskriptoren (CDDD) als Konditionierung deutlich überlegen sind gegenüber binären Fingerabdrücken (ECFP/Morgan), da sie mehr chemische Information bewahren.
SAFE-Format: Nutzung von SAFE anstelle von SMILES, um Permutationsinvarianz und bessere Handhabung von Molekülfragmenten zu gewährleisten.
State-of-the-Art Ergebnisse: Deutliche Verbesserung der Genauigkeit gegenüber allen bisherigen Methoden auf beiden Benchmarks.

4. Ergebnisse

Die Evaluation zeigt, dass MSFlow die aktuellen State-of-the-Art-Methoden (wie DiffMS, MS-BART, Spec2Mol) signifikant übertrifft:

NPLIB1 (CANOPUS):
- Top-1 Genauigkeit: 44,70 % (vs. 8,34 % bei DiffMS). Das ist eine 5,4-fache Verbesserung.
- Top-10 Genauigkeit: 58,53 %.
- Strukturelle Ähnlichkeit (Tanimoto): 0,72 (vs. 0,35 bei DiffMS).
- MCES (Graph Edit Distance): 3,79 (vs. 11,95 bei DiffMS), was bedeutet, dass die generierten Moleküle strukturell viel näher am Ziel sind.
MassSpecGym (Schwieriger OOD-Benchmark):
- Top-1 Genauigkeit: 32,00 % (vs. 2,30 % bei DiffMS). Eine ~14-fache Verbesserung.
- Top-10 Genauigkeit: 42,53 %.
- Auch hier übertrifft MSFlow alle Baselines in Genauigkeit und struktureller Ähnlichkeit.
Ablationsstudien:
- Ein Vergleich zeigt, dass der Flow-Matching-Decoder allein (mit CDDD-Konditionierung) bereits stark ist, aber die Kombination mit dem MIST-Encoder und der Verwendung von CDDD statt ECFP den größten Gewinn bringt.
- Oracle-Experiment: Wenn das Modell mit perfekten (Ground-Truth) CDDD-Deskriptoren statt den vorhergesagten konditioniert wird, steigt die Top-1-Genauigkeit auf 86,55 %. Dies zeigt, dass der Encoder (Spektrum-zu-CDDD) derzeit der Hauptlimitierungsfaktor ist, nicht der Decoder.
Robustheit: Das Modell zeigt eine hohe Robustheit gegenüber Molekülen unterschiedlicher Größe und Flexibilität (Anzahl rotierbarer Bindungen), wobei es bei großen Molekülen (>40 Atome) besser abschneidet als RNN-basierte Baselines.

5. Bedeutung und Fazit

MSFlow stellt einen bedeutenden Fortschritt in der computergestützten Chemie dar.

Praktische Relevanz: Die Fähigkeit, bis zu 45 % der Spektren korrekt zu rekonstruieren (und in Top-10 sogar 58 %), eröffnet neue Möglichkeiten für die Entdeckung unbekannter Metaboliten und Naturstoffe, die bisher als „dunkle Materie" galten.
Technischer Durchbruch: Die Kombination aus Flow Matching, diskreten Token-Modellen und kontinuierlichen chemischen Deskriptoren beweist, dass generative Modelle für inverse Probleme in der Chemie effektiver sind als traditionelle autoregressive Ansätze.
Zukunftsausblick: Die Studie identifiziert die Kodierung von Spektren in Deskriptoren als kritischen Engpass. Zukünftige Forschung sollte sich auf noch ausdrucksstärkere Spektrum-Repräsentationen konzentrieren, um die theoretische Obergrenze (Oracle-Leistung) zu erreichen.

Der Code und die trainierten Modelle sind für nicht-kommerzielle Nutzung auf GitHub verfügbar.