Auteurs originaux : Dennis Thumm, Ruben Wiedemann, Ying Chen

Publié 2026-05-29

📖 5 min de lecture🧠 Analyse approfondie

Auteurs originaux : Dennis Thumm, Ruben Wiedemann, Ying Chen

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée ni approuvée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Imaginez que vous essayez d'enseigner à une IA ultra-intelligente comment prédire l'avenir d'un système qui évolue dans le temps, comme le déplacement d'un médicament dans le corps humain ou la réaction d'une soufflerie à une rafale soudaine.

Habituellement, les modèles d'IA considèrent le temps par « instantanés » — comme un feuilletable où chaque page représente un moment fixe (1 seconde, 2 secondes, 3 secondes). Mais le monde réel n'attend pas qu'une horloge sonne. Il s'écoule en continu.

Ce papier traite de l'enseignement à une IA de comprendre ce flux, plutôt que de simples instantanés. Voici le détail utilisant des analogies simples :

1. Le Problème : Le Piège « Arrêt-Départ »

Les auteurs soulignent une erreur courante. Si vous essayez d'enseigner à une IA un processus continu (comme une rivière qui coule) en ne lui montrant que des instantanés pris à des moments spécifiques, l'IA apprend le calendrier des instantanés, et non la rivière elle-même.

L'Analogie : Imaginez que vous essayez d'apprendre comment une voiture accélère.
- La Mauvaise Façon (Discrète/Naïve) : Vous ne regardez le compteur de vitesse qu'à chaque fois que vous clignez des yeux. Si vous clignez lentement, vous voyez une accélération lente. Si vous clignez vite, vous voyez une accélération rapide. L'IA apprend que « la vitesse à laquelle je cligne » détermine la vitesse, et non le moteur.
- Le Résultat : L'IA est confuse. Si vous lui présentez un nouveau calendrier de clignements, elle échoue car elle a appris le motif de vos clignements, et non la physique de la voiture.

2. La Solution : La « Caméra Haute Vitesse »

Le papier propose une nouvelle méthode pour entraîner ces modèles, appelée Modèles Fondamentaux Causaux à Temps Continu. Au lieu de prendre un instantané par intervalle, ils utilisent une approche de « caméra haute vitesse ».

L'Analogie : Pour comprendre la voiture, vous enregistrez le moteur en marche à une vitesse ultra-élevée (des milliers d'images par seconde), créant une vidéo parfaite et fluide de l'accélération. Ensuite, vous montrez cette vidéo fluide à l'IA.
L'Astuce : Même si l'IA n'est testée que sur des instantanés lents (comme un médecin examinant un patient une fois par jour), elle a déjà appris la physique continue et fluide grâce à l'entraînement haute vitesse. Elle connaît la « loi de la rivière », et non seulement la « loi des instantanés ».

3. Les Trois Niveaux d'Entraînement

Les auteurs ont créé une « liste de classement » pour catégoriser la façon dont différents modèles gèrent le temps :

Niveau 1 (Le Feuilletable) : L'ancienne méthode. L'IA ne connaît que des pas de temps fixes. Elle échoue si le timing change.
Niveau 2 (Le Caméraman Fainéant) : L'IA tente d'être continue mais ne prend qu'une photo entre deux observations. C'est mieux, mais elle reste confuse si les intervalles de temps changent. C'est comme deviner la vitesse de la voiture à partir de seulement deux photos floues.
Niveau 3 (Le Pro Haute Vitesse) : C'est ce que le papier réalise. L'IA simule la physique sur une grille ultra-fine (des milliers de micro-pas) puis ne montre à l'IA que les moments spécifiques qu'elle doit voir.
- Le Résultat : L'IA apprend les lois vraies et immuables du système. Peu importe que les observations arrivent chaque seconde, chaque heure ou à des moments aléatoires.

4. L'Expérience : Est-ce que ça Marche Vraiment ?

L'équipe a testé cela avec deux types de « moteurs physiques » :

Linéaire : Une physique simple et rectiligne (comme un ressort).
Non linéaire : Une physique complexe et tourbillonnante (comme un système météorologique chaotique).

Ils ont opposé le « Caméraman Fainéant » (Niveau 2) au « Pro Haute Vitesse » (Niveau 3).

La Découverte : Le Pro Haute Vitesse a gagné à chaque fois.
La Surprise : Lorsque l'IA était entraînée avec la méthode Haute Vitesse, elle n'avait même pas besoin qu'on lui dise « combien de temps s'est écoulé entre les observations ». Elle comprenait simplement le flux naturellement. Mais lorsqu'elle était entraînée avec la méthode Fainéante, l'IA devait se voir indiquer explicitement les intervalles de temps pour bien performer.

5. Tests Réels (Le Test « Zero-Shot »)

Les auteurs ont essayé d'utiliser leur nouvelle IA sur des données réelles qu'elle n'avait jamais vues auparavant (Zero-Shot).

Pharmacocinétique : Prédire les niveaux de médicaments dans le sang (Théophylline et Warfarine). L'IA a pu suivre la montée et la descente du médicament de manière surprenante, même si elle avait été entraînée sur des données synthétiques.
Systèmes Physiques : Une expérience en soufflerie. L'IA a prédit avec succès comment la vitesse de la soufflerie réagirait à un changement soudain de la puissance du ventilateur.

La Conclusion

Ce papier construit une meilleure « machine à remonter le temps » pour l'IA. En forçant l'IA à apprendre les lois lisses et continues de la façon dont les choses changent (en utilisant une simulation haute vitesse) plutôt que de simplement mémoriser les écarts entre les points de données, l'IA devient beaucoup plus intelligente pour prédire l'avenir, même lorsque les données arrivent à des moments étranges et irréguliers.

Ce que le papier NE prétend PAS :

Il ne prétend pas que c'est prêt à remplacer les médecins ou les ingénieurs pour l'instant.
Il ne prétend pas que cela résout chaque type de problème de séries temporelles.
Il admet que les tests réels étaient « préliminaires » et nécessitent plus de travail avant d'être utilisés dans des situations critiques.

C'est une étape fondamentale : prouver que si vous enseignez à une IA à voir le temps comme une rivière qui coule plutôt que comme une série de pierres de gué, elle apprend les règles de l'univers beaucoup mieux.

Résumé technique : Vers des modèles de fondation causaux en temps continu

1. Énoncé du problème

Les réseaux adaptés aux données antérieures (Prior-Data Fitted Networks, PFNs) ont réussi à étendre l'inférence causale aux données tabulaires et aux séries temporelles en temps discret en pré-entraînant des transformateurs sur des modèles causaux structurels (SCM) synthétiques. Cependant, les priors temporels causaux existants opèrent sur des grilles entières discrètes. Une tentative naïve d'étendre ces modèles au temps continu en réécrivant les mécanismes sous forme d'équations différentielles stochastiques (EDS) et en les intégrant une fois par intervalle d'observation échoue à atteindre une véritable continuité.

Le problème central réside dans le fait que si une EDS est résolue uniquement aux intervalles d'observation (intégration naïve), la loi conjointe de la trajectoire dépend du calendrier d'observation spécifique. Par conséquent, le prior reste effectivement un modèle de Markov en temps discret « déguisé en EDS », ne satisfaisant pas l'exigence selon laquelle le processus générateur de données doit être invariant par rapport au moment de l'observation. Cette limitation est critique pour les domaines comportant des données irrégulières et hétérogènes en termes de calendrier, tels que la pharmacocinétique (moments d'échantillonnage choisis cliniquement), les systèmes physiques avec des événements à délai variable, et les dossiers de santé électroniques comportant des données manquantes.

2. Méthodologie

2.1. Définition des priors causaux en temps continu

L'article établit un critère précis pour un prior causal en temps continu : la loi conjointe d'une trajectoire échantillonnée doit être invariante par rapport au calendrier d'observation. Le calendrier d'observation est traité comme une pure mesure, et non comme faisant partie du SCM temporel (TSCM) sous-jacent.

Sur la base de ce critère, les auteurs proposent une taxonomie à trois niveaux :

Niveau (A) Discret : SCM en temps discret standard définis uniquement sur une grille entière.
Niveau (B) Continu naïf : Une EDS intégrée une fois par intervalle d'observation (Euler–Maruyama sur la grille d'observation). La loi de la trajectoire varie avec la taille de l'intervalle $\Delta_i$ , échouant au critère de continuité.
Niveau (C) Continu sur grille fine : L'EDS est intégrée sur une grille fine ( $\Delta_{fine} \ll \min \Delta_{obs}$ ) puis sous-échantillonnée selon le calendrier d'observation. Lorsque $\Delta_{fine} \to 0$ , cela converge vers la vraie loi de l'EDS, satisfaisant approximativement le critère de continuité à un nombre fini d'étapes.

2.2. Construction du prior en temps continu

La construction proposée réalise le niveau (C) sur un graphe orienté acyclique (DAG) aléatoire avec les composants suivants :

Échantillonnage du graphe : Les variables sont échantillonnées à partir d'un DAG aléatoire ou de structures canoniques (par exemple, porte arrière, porte avant, variables instrumentales). Des confondants cachés peuvent être inclus.
Familles de mécanismes :
- Dérive linéaire : Processus d'Ornstein–Uhlenbeck (OU) où la dérive est une combinaison linéaire des parents.
- Dérive non linéaire : Petits perceptrons multicouches (MLP) avec des activations tanh remplaçant la somme linéaire des parents, bornés pour assurer la stabilité de la trajectoire.
Changement de régime : Une fraction des trajectoires suit un TSCM à changement de régime en temps continu avec une matrice de transition de Markov « collante », modélisant des ruptures structurelles (par exemple, phases d'absorption vs d'élimination en pharmacologie).
Interventions : Le prior prend en charge les interventions dures (fixation d'une valeur), douces (décalage de la dérive) et variant dans le temps sur des fenêtres spécifiques. Les contrefactuels sont générés en réutilisant le même bruit de Wiener.
Simulation : Les trajectoires sont générées en intégrant l'EDS sur une grille fine en utilisant Euler–Maruyama avec des incréments browniens rééchantillonnés à chaque pas fin, puis sous-échantillonnées selon le calendrier d'observation irrégulier.

2.3. Architecture : Encodeur PFN conscient de $\Delta t$

Le modèle utilise un encodeur transformateur causal opérant sur une fenêtre pré-intervention.

Encodage temporel : Au lieu d'encodages de position entiers appris, le modèle utilise un encodage de Fourier du temps continu : $\phi(t) = W_\phi [\sin(2\pi f_k t), \cos(2\pi f_k t)]$ .
Encodage des intervalles : Les intervalles inter-observations ( $\Delta t_i$ ) sont encodés en utilisant la même famille après une transformation $\log(1+\Delta t_i)$ .
Inférence : Le modèle prend en entrée les données observées, les horodatages, les spécifications d'intervention et un temps de requête pour prédire la distribution du résultat sous intervention.

3. Contributions clés

Critère de continuité : Une définition formelle exigeant l'invariance de la loi de la trajectoire par rapport aux calendriers d'observation, opérationnalisée via une taxonomie à trois niveaux.
Construction du niveau (C) : Une réalisation pratique de priors en temps continu utilisant une intégration sur grille fine, des DAG aléatoires, des dérives OU/MLP et des calendriers irréguliers.
Validation empirique : Une étude d'ablation contrôlée $2 \times 2$ (Encodeur $\times$ Intégrateur) démontrant que l'intégration sur grille fine est supérieure à l'intégration naïve, en particulier lorsque les grilles d'évaluation s'affinent.

4. Résultats expérimentaux

4.1. Étude d'ablation

Les auteurs ont entraîné des PFNs sur deux priors (OU linéaire et dérive neuronale non linéaire) avec deux intégrateurs (Naïf vs Fin) et deux encodeurs (Positionnel uniquement vs Conscient du temps).

Performance de l'intégrateur : L'intégration sur grille fine a surpassé l'intégration naïve dans 8 cellules expérimentales sur 8 pour les deux priors et les deux discrétisations d'évaluation. L'écart de performance ( $\Delta$ ) a augmenté de manière monotone à mesure que la grille d'évaluation devenait plus fine (par exemple, sur le prior neuronal, l'écart est passé de +0,0048 à +0,0088 lorsque les sous-pas d'évaluation se sont affinés). Cela confirme que l'entraînement sur grille fine aligne le modèle sur la limite réelle de l'EDS, tandis que l'entraînement naïf introduit un biais de discrétisation.
Performance de l'encodeur : L'avantage de l'encodeur conscient du temps (encodage de Fourier des intervalles) était conditionnel à l'intégrateur.
- Avec une intégration naïve, l'encodeur conscient du temps a nettement surpassé l'encodeur purement positionnel, compensant les dynamiques dépendantes du calendrier.
- Avec une intégration fine, le choix de l'encodeur s'est avéré empiriquement inerte (différence nulle), suggérant que le processus générateur de données était devenu suffisamment invariant au calendrier, éliminant le besoin de caractéristiques d'intervalle explicites.

4.2. Transfert zero-shot (préliminaire)

L'article rapporte des résultats préliminaires de transfert zero-shot sur trois jeux de données réels sans ajustement fin :

Pharmacocinétique (Théophylline et Warfarine) : Le modèle a obtenu une forte corrélation ( $r \approx 0,88$ ) sur la concentration plasmatique de Warfarine, suivant les trajectoires pilotées par la dose. La performance sur la Théophylline était modérée ( $r \approx 0,53$ pour le linéaire). Les auteurs notent que les améliorations de l'erreur quadratique moyenne (RMSE) par rapport aux bases naïves étaient faibles en raison du regroupement étroit des données de concentration, mais la corrélation de Pearson a confirmé le suivi dynamique.
Systèmes physiques (Chambre causale) : Sur un banc d'essai à impulsion en soufflerie, le PFN à mécanismes mixtes a atteint une corrélation de Pearson de $r = 0,95$ sur la dynamique des RPM, surpassant significativement le modèle linéaire ( $r = 0,39$ ). Cela suggère que le modèle a capturé avec succès des dynamiques exponentielles non linéaires et saturantes.

5. Importance et revendications

L'article revendique fournir un critère de continuité précis pour les modèles de fondation causaux, allant au-delà du « déguisement en EDS » des modèles discrets. L'importance principale réside dans la démonstration que l'intégration sur grille fine est nécessaire pour réaliser ce critère, comme en témoigne l'écart de performance croissant sur des grilles d'évaluation plus fines.

Les auteurs sont modestes dans leurs revendications concernant l'application réelle :

Les résultats de transfert zero-shot sont décrits comme « préliminaires » et « corroboratifs », pas encore compétitifs par rapport aux bases spécifiques au domaine (par exemple, NONMEM pour la pharmacocinétique).
Le succès sur la Chambre causale a nécessité un passage d'un benchmark de « bruit blanc » structurellement inadapté à un jeu de données avec des interventions binaires explicites et une dynamique réelle.
L'article reconnaît des limitations, notamment la nécessité d'une réplication multi-graines, l'incapacité des dérives neuronales actuelles à capturer le bruit corrélé dans le temps (seulement le bruit de Markov), et le caractère préliminaire du transfert sur données réelles.

Ce travail se positionne comme une étape fondamentale vers une véritable inférence causale en temps continu, offrant une construction permettant aux transformateurs d'amortir l'inférence causale sur une famille de TSCM pilotés par des EDS avec des calendriers d'observation irréguliers.

Towards Continuous-time Causal Foundation Models