NMIRacle: Multi-modal Generative Molecular Elucidation from IR and NMR Spectra

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un détective privé dans le monde de la chimie. Votre mission ? Résoudre l'identité d'un mystérieux inconnu (une molécule) en n'ayant que deux indices flous : son empreinte digitale sonore (la spectroscopie IR) et son portrait-robot de ses voisins (la résonance magnétique nucléaire, ou RMN).

Traditionnellement, seul un expert chimiste, avec des années d'expérience, pouvait assembler ces pièces de puzzle pour deviner la structure de la molécule. C'est long, difficile et sujet aux erreurs humaines.

Voici NMIRacle, un nouveau super-détective créé par l'intelligence artificielle qui change la donne. Voici comment il fonctionne, expliqué simplement :

1. Le problème : Un puzzle géant sans image de référence

Les molécules sont comme des Lego. Il existe des milliards de façons d'assembler ces briques. Les spectres (les données que l'on reçoit) sont comme des photos floues de la boîte de Lego : on voit des formes et des couleurs, mais pas exactement comment les pièces s'emboîtent. De plus, ces photos sont souvent bruitées (comme une photo prise dans le brouillard).

Les anciennes méthodes d'IA essayaient de deviner la molécule directement à partir de ces photos floues, un peu comme si on demandait à un enfant de dessiner un château de Lego juste en regardant une photo floue de la boîte. Ça ne marche pas très bien.

2. La solution NMIRacle : Une approche en deux étapes

L'équipe derrière NMIRacle a eu une idée brillante : au lieu de deviner la molécule d'un seul coup, ils décomposent le problème en deux étapes, comme un architecte qui dessine d'abord les fondations avant de construire la maison.

Étape 1 : Apprendre à assembler les briques (Le "Pré-entraînement")

Avant même de regarder les photos floues, l'IA apprend à jouer avec les briques Lego.

L'astuce : Au lieu de lui dire "il y a une brique rouge", on lui dit "il y a trois briques rouges et deux briques bleues".
Pourquoi c'est important ? Les anciennes méthodes disaient juste "oui/non" (il y a une brique ou pas). NMIRacle compte le nombre exact de chaque type de morceau. C'est comme si on lui donnait la liste de la quantité de chaque pièce dans la boîte. Cela l'aide à comprendre la structure beaucoup mieux, même sans voir la photo finale.

Étape 2 : Relier les indices à la construction (Le "Fine-tuning")

Maintenant que l'IA sait parfaitement assembler des molécules à partir de listes de pièces, on lui apprend à lire les photos floues.

On lui montre les spectres (les photos floues) et on lui demande : "Si tu voyais cette photo floue, quelle liste de pièces (comptées) devrais-tu utiliser pour reconstruire la molécule ?"
L'IA apprend à faire le lien entre le bruit de la photo et la liste précise des pièces. Une fois qu'elle a deviné la liste des pièces, elle utilise son expertise de l'Étape 1 pour assembler la molécule finale.

3. Pourquoi c'est génial ? (Les analogies)

Le traducteur de langues : Imaginez que les spectres sont une langue étrangère difficile et que les molécules sont une autre langue. Les anciennes méthodes essayaient de traduire directement, ce qui donnait du charabia. NMIRacle passe par une "langue intermédiaire" (la liste des pièces comptées) qui est plus facile à comprendre pour l'IA, rendant la traduction finale beaucoup plus précise.
La robustesse : Ce système fonctionne même avec des molécules très complexes (comme des gratte-ciels de Lego) et avec des données imparfaites. Il ne panique pas quand les données sont bruitées.

4. Les résultats

Dans les tests, NMIRacle a battu tous les autres détectives (les autres modèles d'IA). Il arrive à deviner la bonne structure de la molécule beaucoup plus souvent, même quand les indices sont ténus.

En résumé :
NMIRacle ne devine pas la molécule directement. Il apprend d'abord à être un expert constructeur de molécules en comptant les pièces, puis il apprend à traduire les "photos floues" des spectres en une liste de pièces à assembler. C'est une méthode plus intelligente, plus précise et capable de résoudre des mystères chimiques que personne n'aurait pu résoudre seul auparavant.

C'est un pas de géant pour la découverte de médicaments et la compréhension de la matière, car cela permet d'identifier des substances inconnues beaucoup plus vite et avec plus de fiabilité.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La détermination de la structure moléculaire d'un composé inconnu à partir de données spectroscopiques est un défi fondamental en chimie, crucial pour la découverte de médicaments, la métabolomique et la conception de matériaux.

Complexité : L'espace chimique des molécules "similaires aux médicaments" est immense (estimé à $>10^{33}$ pour moins de 36 atomes lourds), rendant l'exploration exhaustive impossible.
Limites des approches actuelles : Les méthodes traditionnelles reposent sur l'interprétation experte ou la recherche dans des bases de données, ce qui est subjectif et limité aux molécules déjà connues.
Défis du Deep Learning : Les méthodes génératives récentes souffrent de plusieurs lacunes :
- Utilisation d'une seule modalité spectrale (négligeant les informations complémentaires).
- Dépendance à un prétraitement lourd (extraction de pics, assignation de multiplets) qui n'est pas toujours disponible sur des données expérimentales brutes.
- Hypothèses de fortes informations a priori (formule chimique, squelette moléculaire) souvent indisponibles en conditions réelles.
- Évaluation limitée à de petites molécules (moins de 20 atomes lourds, peu d'éléments).

L'objectif de ce travail est de résoudre la formulation la plus difficile : la génération directe de structures moléculaires à partir de spectres bruts, multi-modaux (IR, 1H-NMR, 13C-NMR), sans hypothèses fortes ni prétraitement complexe.

2. Méthodologie : Le Framework NMIRacle

NMIRacle est un cadre génératif en deux étapes qui apprend à partir de tableaux d'intensités spectrales brutes, en minimisant les hypothèses de prétraitement.

A. Représentation Moléculaire : Fragments "Count-Aware"

Contrairement aux approches précédentes qui utilisent des indicateurs binaires (présence/absence de fragment), NMIRacle utilise une représentation comptable (count-aware).

Vocabulaire : Un ensemble de 991 motifs chimiques (SMARTS).
Vecteur de composition : Pour une molécule $M$ , le vecteur $c = (c_1, ..., c_{|V|})$ indique le nombre d'occurrences de chaque fragment $f_j$ . Cela capture non seulement l'identité des fragments mais aussi leur fréquence, essentiel pour les motifs répétés (ex: chaînes, cycles).

B. Architecture en Deux Étapes

Étape 1 : Pré-entraînement (Fragments $\to$ Molécule)

Objectif : Apprendre un générateur conditionnel $p_\phi(y | c)$ qui reconstruit une séquence SMILES ( $y$ ) à partir du vecteur de composition de fragments ( $c$ ).
Modèle : Un Transformer encode les fragments et leurs comptages (via des embeddings appris) et décode la séquence SMILES de manière auto-régressive.
Avantage : Cela établit une "priorité moléculaire" robuste, apprenant les règles de connectivité atomique basées sur la composition chimique plutôt que sur des séquences brutes.

Étape 2 : Affinement (Spectres $\to$ Molécule)

Encodeur Multi-Spectres : Un encodeur $q_\psi$ $q_{ψ}$ traite les spectres bruts (IR, 1H-NMR, 13C-NMR) pour produire un embedding latent $z_\psi(S)$ $z_{ψ} (S)$ .
- IR et 1H-NMR : Traités comme des profils d'intensité continus (normalisés, convolutions 1D).
- 13C-NMR : Traités comme des positions de décalage chimique discrètes (binarisation des pics).
- Fusion : Utilisation d'attention intra-modale (au sein d'un spectre) et inter-modale (entre les différents types de spectres) pour capturer les corrélations structurelles.
Conditionnement : L'encodeur spectral remplace le vecteur de fragments $c$ dans le générateur pré-entraîné. Le modèle est affiné pour approximer $p(y | S) \approx p_\phi(y | z_\psi(S))$ .
Apprentissage Multi-Tâches : L'objectif combine la reconstruction de la séquence SMILES et la prédiction de la composition des fragments (tête de classification) pour renforcer la cohérence chimique.

3. Contributions Clés

Framework Génératif Multi-Modal : NMIRacle est le premier modèle à opérer directement sur des combinaisons de spectres IR, 1H-NMR et 13C-NMR bruts, sans extraction de pics manuelle.
Représentation "Count-Aware" : Introduction d'une représentation de fragments basée sur le comptage (occurrences) au lieu de la binaire, offrant une description structurelle plus fidèle et transférable.
Architecture Hybride : Combinaison d'un encodeur spectral hiérarchique (fusionnant IR et NMR) avec un générateur pré-entraîné sur des fragments, permettant de transférer des connaissances chimiques profondes.
Évaluation Rigoureuse : Tests sur un jeu de données multimodal contenant jusqu'à 35 atomes lourds et 9 éléments chimiques différents, dépassant les limites des benchmarks précédents (souvent limités à <20 atomes).

4. Résultats Expérimentaux

Les expériences ont été menées sur un jeu de données de ~790k molécules (Alberts et al., 2024) avec une séparation stricte train/test pour garantir l'évaluation sur des molécules jamais vues.

Performance Globale : NMIRacle surpasse systématiquement les baselines (NMR2Struct, Spec2Mol, Transformers SMILES/SELFIES) sur toutes les métriques (Validité chimique, Similarité Tanimoto, Distance d'édition de graphes, Précision Top-k).
- Avec les trois spectres (IR + 1H + 13C), NMIRacle atteint une Précision Top-1 de 0,48 et Top-15 de 0,66, contre 0,41/0,58 pour le meilleur concurrent (NMR2Struct).
Robustesse à la Complexité : Le modèle maintient une performance supérieure même pour les molécules complexes (fort nombre d'atomes lourds, d'éléments uniques et de cycles), là où les autres modèles voient leur performance chuter drastiquement.
Analyse des Échecs : Les erreurs proviennent principalement de la prédiction incorrecte des fragments (composition), soulignant la difficulté de déduire les groupes fonctionnels à partir de spectres ambigus, plutôt que de problèmes de connectivité une fois les fragments identifiés.
Pré-entraînement : L'utilisation de la représentation "count-aware" améliore significativement la reconstruction par rapport aux indicateurs binaires (Top-1 de 0,63 à 0,70).

5. Signification et Impact

Réalisme et Généralisation : En travaillant sur des données brutes et en évitant les hypothèses fortes (formule chimique connue), NMIRacle se rapproche davantage des conditions expérimentales réelles où l'analyste ne connaît rien du composé.
Avancée pour la Découverte de Médicaments : La capacité à élucider des structures complexes et inédites (hors bases de données) ouvre la voie à l'identification rapide de métabolites inconnus ou de nouveaux candidats-médicaments.
Fondation pour l'IA Chimique : Ce travail démontre que l'intégration de priors chimiques (représentation par fragments) avec des modèles génératifs profonds est une voie prometteuse pour résoudre des problèmes d'inversion de données spectroscopiques, dépassant les limites des approches purement end-to-end basées sur les séquences.

En résumé, NMIRacle représente une avancée majeure vers l'automatisation robuste de l'élucidation structurelle, combinant la puissance des modèles génératifs modernes avec une compréhension chimique profonde des motifs moléculaires.