Auteurs originaux : Gordan Prastalo, Kevin Maik Jablonka

Publié 2026-05-14

📖 6 min de lecture🧠 Analyse approfondie

Auteurs originaux : Gordan Prastalo, Kevin Maik Jablonka

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée ni approuvée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Le Problème : Le Problème de la « Prévision Météorologique »

Imaginez que vous êtes un scientifique tentant de prédire quelles molécules feront de bons médicaments. Vous construisez un modèle informatique pour ce faire.

Maintenant, imaginez que vous entraînez ce modèle sur un ensemble de données spécifique. Il prédit que la Molécule A est une « gagnante » (elle fonctionnera comme un médicament).

Mais ensuite, vous décidez de réentraîner le modèle. Vous ne changez ni les règles ni la source des données ; vous utilisez simplement un échantillonnage aléatoire légèrement différent de ces mêmes données (comme tirer une nouvelle main de cartes depuis le même jeu).

Le Résultat Choc :
Lorsque vous réentraînez le modèle, il déclare soudainement que la Molécule A est une « perdante » et que la Molécule B est la nouvelle gagnante.

Le document appelle cela la « Volatilité de la Prédiction Inter-Échantillons ». C'est le taux auquel le modèle inverse sa décision simplement parce que vous avez légèrement mélangé les données d'entraînement.

La Découverte du Document : Dans 9 tests chimiques différents, la précision globale du modèle n'a changé que très peu (environ 1 à 4 %). Cependant, la décision spécifique pour les molécules individuelles a changé 8 % à 22 % du temps.
L'Analogie : Imaginez un juge qui est précis à 95 % dans l'ensemble. Mais si vous lui demandez de juger 100 affaires spécifiques, et que vous lui demandez de rejuger les mêmes 100 affaires après avoir pris une pause déjeuner différente, il pourrait changer son verdict sur 20 d'entre elles. C'est une instabilité considérable pour les cas spécifiques qui comptent le plus.

Pourquoi les « Solutions » Actuelles Ne Fonctionnent Pas

Les scientifiques ont tenté de résoudre ce problème en utilisant des outils standards d'« incertitude », tels que :

Les Ensembles Profonds : Entraîner 5 modèles différents et moyenner leurs réponses.
Le Dropout Stochastique (MC Dropout) : Désactiver aléatoirement des parties du modèle pendant les tests pour voir à quel point la réponse fluctue.
La Moyenne Stochastique des Poids : Lisser les mathématiques internes du modèle.

Le Verdict du Document : Ces outils sont comme essayer de réparer un appareil photo tremblant en ajustant la mise au point de l'objectif (les paramètres internes du modèle) alors que l'appareil est toujours tenu par une main qui tremble (les données).

Ces méthodes réparent l'« objectif » mais ignorent la « main qui tremble ».
Le document a constaté que ces méthodes ne réduisaient pas la volatilité. Elles n'empêchaient pas le modèle d'inverser ses décisions lorsque les données changeaient.

La Solution : Deux Nouvelles Méthodes

Les auteurs proposent deux méthodes qui fonctionnent réellement car elles s'attaquent à la « main qui tremble » (les données) plutôt qu'à l'« objectif ».

1. K-Bootstrap Bagging (L'Approche du « Comité »)

Fonctionnement : Au lieu d'entraîner un seul modèle, vous entraînez tout un comité de modèles (par exemple, 5 d'entre eux). Chaque membre du comité est entraîné sur un échantillon aléatoire légèrement différent des données. Lorsque vous avez besoin d'une réponse, vous demandez à tout le comité et prenez le vote moyen.
Le Résultat : Cela réduit le taux d'inversion de 40 à 54 %.
L'Inconvénient : Cela nécessite 5 fois plus de puissance informatique pour entraîner 5 modèles au lieu d'un seul.

2. Twin-Bootstrap (L'Approche des « Sœurs Jumelles »)

Fonctionnement : C'est la principale invention du document. Imaginez entraîner deux réseaux de neurones « jumeaux » en même temps.
- Le Jumeau A apprend à partir de l'Échantillon X.
- Le Jumeau B apprend à partir de l'Échantillon Y (un échantillon légèrement différent).
- Le Secret : Chaque fois qu'ils apprennent, les jumeaux sont forcés de se parler. S'ils ne sont pas d'accord sur une molécule, ils reçoivent une « pénalité » (une perte de cohérence) pour les forcer à s'accorder.
Le Résultat :
- Il réduit le taux d'inversion de 45 % supplémentaires par rapport à la méthode standard de comité.
- Il y parvient avec seulement 2 fois la puissance informatique (entraîner deux jumeaux au lieu de cinq modèles séparés).
- Il maintient la précision aussi élevée que celle du modèle original.

Pourquoi Cela Compte (L'Impact « Monde Réel »)

Le document soutient que dans les laboratoires scientifiques, les décisions sont prises molécule par molécule.

Le Scénario : Un scientifique utilise le modèle pour sélectionner les 10 meilleures molécules à synthétiser en laboratoire.
Le Risque : Si le modèle a une forte « volatilité », le scientifique pourrait choisir la Molécule #1 aujourd'hui. Mais s'il réentraîne le modèle demain (ce qui arrive souvent en science), le modèle pourrait dire : « En fait, la Molécule #1 est mauvaise, essayons la Molécule #10. »
Le Coût : Cela gaspille du temps et de l'argent. Le laboratoire pourrait synthétiser la mauvaise molécule, ou perdre des efforts à réévaluer la même liste.

Le document suggère que les rapports scientifiques devraient toujours inclure un « Score de Volatilité » aux côtés de la précision. Savoir simplement qu'un modèle est « précis à 90 % » ne suffit pas ; vous devez savoir si cette précision est stable ou si le modèle ne fait que deviner wildly à chaque fois que vous actualisez la page.

Résumé

Le Problème : Les modèles d'IA scientifique inversent souvent leurs prédictions spécifiques lorsqu'ils sont réentraînés sur des données légèrement différentes, même si leur score global semble bon.
L'Ancienne Façon : Les astuces standards pour mesurer l'incertitude (comme les ensembles) ne résolvent pas ce problème spécifique.
La Nouvelle Façon :
1. Bagging : Entraîner un grand comité de modèles (fonctionne bien, mais coûte cher).
2. Twin-Bootstrap : Entraîner deux modèles ensemble et les forcer à s'accorder (fonctionne encore mieux et est moins cher).
L'Objectif : Rendre l'IA scientifique suffisamment fiable pour qu'un scientifique puisse faire confiance à la molécule spécifique qu'elle recommande, sachant que cette recommandation ne changera pas simplement parce qu'ils ont exécuté le code d'entraînement une fois de plus.

Résumé technique : Réduction de l'instabilité des prédictions inter-échantillons en apprentissage automatique scientifique

Définition du problème : Instabilité des prédictions inter-échantillons

Les benchmarks d'apprentissage automatique (ML) scientifique rapportent généralement des performances prédictives agrégées (par exemple, précision, AUC) mais omettent de rendre compte de la stabilité des prédictions individuelles lorsque le modèle est réentraîné sur un autre tirage de la même population d'entraînement. Les auteurs définissent l'instabilité des prédictions inter-échantillons (cross-sample prediction churn) comme la fraction des prédictions de test qui changent d'étiquette de classe entre deux modèles entraînés sur des bootstraps indépendants du même ensemble d'entraînement.

Alors que la précision agrégée reste souvent stable (variant de seulement 1,3 à 4,2 points de pourcentage entre les réentraînements), les auteurs démontrent que les prédictions individuelles sont hautement instables. Sur neuf benchmarks de chimie, 8,0 % à 21,8 % des molécules de test changent de classe prédite entre les réentraînements. Cet « écart de stabilité par prédiction » est critique pour les flux de travail opérationnels dans les laboratoires en boucle fermée, l'optimisation bayésienne et le criblage virtuel, où les sorties du modèle dictent directement les décisions expérimentales (par exemple, quelle molécule synthétiser). Une forte instabilité implique que les molécules spécifiques sélectionnées pour la synthèse ou le criblage sont sensibles à l'échantillonnage aléatoire des données d'entraînement, rendant le flux de travail non reproductible.

Méthodologie et solutions proposées

L'article évalue les techniques standard d'incertitude côté paramètres par rapport aux méthodes côté données pour déterminer lesquelles peuvent réduire cette instabilité.

1. Échec des techniques côté paramètres

Les auteurs testent trois méthodes standard qui échantillonnent sur les poids du modèle avec des données fixes :

Deep Ensembles (Ensembles profonds) : Moyenne des prédictions de $K$ modèles avec des initialisations différentes.
Dropout Monte Carlo (MC) : Moyenne des passes avant stochastiques d'un seul modèle.
Stochastic Weight Averaging (SWA) : Moyenne des poids d'une seule trajectoire d'entraînement.

Résultat : Ces méthodes ne réduisent pas de manière cohérente l'instabilité inter-échantillons. Sur les neuf benchmarks, elles déplacent le taux de changement de classe de $-22,3\%$ à $+12,5\%$ par rapport à la minimisation du risque empirique (ERM), sans signe cohérent d'amélioration. Les auteurs soutiennent que cela s'explique par le fait que ces méthodes traitent la variance des paramètres tout en maintenant l'axe des données constant, alors que la source dominante de variance en ML scientifique avec de petits ensembles de données est l'échantillonnage des données lui-même.

2. Solution côté données A : Bagging K-Bootstrap

L'approche classique du Bagging (Breiman, 1996) entraîne $K$ modèles sur $K$ bootstraps indépendants de l'ensemble d'entraînement et moyenne leurs prédictions.

Performance : Réduction de l'instabilité de 40 à 54 % sur tous les ensembles de données par rapport à l'ERM.
Coût : Nécessite $K \times$ la puissance de calcul d'une seule exécution d'entraînement ERM (par exemple, $5\times$ pour $K=5$ ).
Précision : Atteint cette réduction sans coût pour la précision agrégée.

3. Solution côté données B : Twin-Bootstrap

Les auteurs proposent le Twin-Bootstrap, une méthode qui entraîne deux réseaux ( $\theta_A, \theta_B$ ) conjointement sur des bootstraps indépendants ( $S_A, S_B$ ) de l'ensemble d'entraînement.

Mécanisme : Les réseaux sont entraînés pour minimiser une perte combinée composée de l'entropie croisée standard sur leurs bootstraps respectifs, plus une perte de cohérence par divergence KL symétrique ( $L_{cons}$ ) entre leurs prédictions sur l'union des mini-lots.
Chevauchement des données : En raison de l'échantillonnage bootstrap avec remise, les deux bootstraps partagent environ 40 % des indices d'entraînement en espérance. La perte de cohérence agit sur ce chevauchement, tandis que les pertes d'entropie croisée se spécialisent sur le reste non partagé.
Hyperparamètre ( $\lambda$ ) : Le poids de la perte de cohérence est sélectionné sur un ensemble de développement (BACE) selon une règle qui maximise $\lambda$ tout en maintenant la précision à moins de 0,02 de la référence ERM. La valeur sélectionnée est $\lambda=300$ pour l'architecture MLP par défaut.
Performance : À puissance de calcul 2 $\times$ ERM équivalente (entraînement de deux réseaux), le twin-bootstrap réduit l'instabilité d'un médian de 45 % supplémentaire par rapport au bagging avec $K=2$ . Il égale la performance du bagging avec $K=5$ (qui nécessite $5\times$ de puissance de calcul) en rang moyen.

Résultats clés

Magnitude de l'instabilité

Taux d'instabilité : Sur 9 benchmarks de chimie (MoleculeNet, TDC ADME/Tox, sciences des matériaux), l'instabilité inter-échantillons fait basculer 8,0–21,8 % des prédictions de test.
Stabilité agrégée : La précision agrégée ne varie que de 1,3 à 4,2 points de pourcentage entre les réentraînements, masquant l'instabilité significative par prédiction.
Instabilité de la classe minoritaire : Sur les ensembles de données déséquilibrés, les prédictions de la classe minoritaire sont 2 à 4 fois plus instables que celles de la classe majoritaire, affectant les prédictions « actives » ou « toxiques » les plus critiques.

Performance comparative

Côté paramètres vs Côté données : Les ensembles profonds, le dropout MC et le SWA échouent à réduire l'instabilité de manière cohérente. Le bagging et le twin-bootstrap sont les seules méthodes à réduire de manière fiable l'instabilité.
Efficacité : Le twin-bootstrap atteint une réduction de l'instabilité comparable au Bagging avec $5\times$ de puissance de calcul ( $K=5$ ) tout en ne nécessitant que 2 $\times$ de puissance de calcul ERM.
Accord distributionnel : Le twin-bootstrap réduit la divergence KL symétrique (désaccord distributionnel) d'un facteur supplémentaire d'environ $\sim9\times$ au-delà du Bagging- $K=5$ , indiquant une stabilisation supérieure de la distribution de probabilité complète, et non seulement de l'argmax.

Impact en aval

Optimisation bayésienne (BO) : Dans les simulations de BO, le twin-bootstrap augmente considérablement le chevauchement de Jaccard des 10 molécules sélectionnées en tête entre les réentraînements (par exemple, de 0,03 à 0,68 sur l'ensemble de données AMES). Il réduit l'écart-type inter-trajectoire de la valeur acquise finale la meilleure de 34 à 100 % dans les tâches de régression.
Flux de travail de triage : Le tri des exemples de test par leur instabilité estimée (en utilisant un réentraînement supplémentaire unique) permet aux praticiens d'identifier les prédictions les plus fragiles. L'examen des 30 % supérieurs des prédictions classées par instabilité capture 58 à 100 % de tous les changements de classe, surpassant l'entropie prédictive.

Généralisation

La méthode se généralise à travers les architectures et les tâches :

Architectures : Fonctionne sur les MLP, les réseaux d'isomorphisme de graphes (GIN) et les backbones préentraînés (ChemBERTa, ResNet-50).
Réglage des hyperparamètres : Bien que la valeur optimale de $\lambda$ change avec l'architecture (par exemple, $\lambda=300$ pour MLP, $\lambda=10$ pour GIN/ChemBERTa), la règle de sélection (maximiser $\lambda$ sous réserve d'une faible baisse de précision sur l'ensemble de développement) se transpose inchangée.
Tâches : Le classement des méthodes (Twin-Bootstrap $\approx$ Bagging- $K=5$ > ERM) vaut pour les tâches de classification et de régression.

Importance et affirmations

L'article soutient que l'instabilité des prédictions inter-échantillons est une métrique manquante dans le benchmarking du ML scientifique. Sans rapporter cette métrique, les méthodes d'incertitude côté paramètres (ensembles, dropout) et les méthodes côté données (bagging, twin-bootstrap) apparaissent indiscernables sur les métriques de précision standard, malgré des capacités fondamentalement différentes à stabiliser les décisions opérationnelles.

Les auteurs affirment que :

L'instabilité est la métrique de stabilité opérationnelle : Dans les laboratoires en boucle fermée et le criblage virtuel, la reproductibilité des molécules spécifiques sélectionnées est plus critique que la précision agrégée.
Le rééchantillonnage des données est le levier clé : La stabilité est déterminée davantage par la manière dont la procédure d'entraînement rééchantillonne les données que par la classe du modèle elle-même.
Le Twin-Bootstrap offre une recette pratique : Il fournit une méthode efficace en calcul ( $2\times$ ERM) pour intégrer la stabilité inter-échantillons au moment de l'entraînement sans modifier le pipeline de déploiement, simplement en réglant un seul hyperparamètre sur un ensemble de développement.

L'article conclut que la réduction de l'instabilité a des conséquences opérationnelles directes, réduisant le travail expérimental gaspillé et rendant les décisions de triage computationnelles reproductibles, bien qu'il note qu'une faible instabilité ne garantit pas la justesse (un modèle faiblement instable reste faux).

Reducing cross-sample prediction churn in scientific machine learning