Ursprüngliche Autoren: Dennis Thumm, Ruben Wiedemann, Ying Chen

Veröffentlicht 2026-05-29

📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Dennis Thumm, Ruben Wiedemann, Ying Chen

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie versuchen, einer superintelligenten KI beizubringen, die Zukunft eines Systems vorherzusagen, das sich im Laufe der Zeit verändert, wie etwa der Weg eines Medikaments durch den menschlichen Körper oder die Reaktion eines Windkanals auf einen plötzlichen Windstoß.

Normalerweise betrachten KI-Modelle die Zeit in „Schnappschüssen" – wie bei einem Daumenkino, bei dem jede Seite einen festen Moment darstellt (1 Sekunde, 2 Sekunden, 3 Sekunden). Doch die reale Welt wartet nicht darauf, dass eine Uhr tickt. Sie fließt kontinuierlich.

Dieser Artikel handelt davon, einer KI beizubringen, diesen Fluss zu verstehen, anstatt nur die Schnappschüsse. Hier ist die Aufschlüsselung mit einfachen Analogien:

1. Das Problem: Die „Stop-Start"-Falle

Die Autoren weisen auf einen häufigen Fehler hin. Wenn Sie versuchen, einer KI einen kontinuierlichen Prozess (wie einen fließenden Fluss) beizubringen, indem Sie ihr nur Schnappschüsse zu bestimmten Zeitpunkten zeigen, lernt die KI den Zeitplan der Schnappschüsse, nicht den Fluss selbst.

Die Analogie: Stellen Sie sich vor, Sie versuchen zu lernen, wie ein Auto beschleunigt.
- Der falsche Weg (Diskret/Naiv): Sie schauen nur jedes Mal auf den Tacho, wenn Sie blinzeln. Wenn Sie langsam blinzeln, sehen Sie eine langsame Beschleunigung. Wenn Sie schnell blinzeln, sehen Sie eine schnelle Beschleunigung. Die KI lernt, dass „wie schnell ich blinzle" die Geschwindigkeit bestimmt, nicht der Motor.
- Das Ergebnis: Die KI ist verwirrt. Wenn Sie ihr einen neuen Blinzeltakt zeigen, scheitert sie, weil sie das Muster Ihres Blinzelns gelernt hat, nicht die Physik des Autos.

2. Die Lösung: Die „Hochgeschwindigkeitskamera"

Der Artikel schlägt eine neue Methode zum Trainieren dieser Modelle vor, die Continuous-Time Causal Foundation Models (Kausale Grundmodelle für kontinuierliche Zeit) genannt wird. Anstatt ein Schnappschuss pro Lücke zu machen, verwenden sie einen Ansatz mit „Hochgeschwindigkeitskamera".

Die Analogie: Um das Auto zu verstehen, nehmen Sie den laufenden Motor mit einer extrem hohen Geschwindigkeit auf (Tausende von Bildern pro Sekunde) und erstellen so ein perfektes, flüssiges Video der Beschleunigung. Dann zeigen Sie der KI dieses flüssige Video.
Der Trick: Selbst wenn die KI nur an langsamen Schnappschüssen getestet wird (wie ein Arzt, der einen Patienten einmal am Tag untersucht), hat sie bereits die glatten, kontinuierlichen physikalischen Gesetze aus dem Hochgeschwindigkeitstraining gelernt. Sie kennt das „Gesetz des Flusses", nicht nur das „Gesetz der Schnappschüsse".

3. Die drei Ebenen des Trainings

Die Autoren erstellten eine „Tier-Liste", um zu kategorisieren, wie gut verschiedene Modelle mit der Zeit umgehen:

Tier 1 (Das Daumenkino): Der alte Weg. Die KI kennt nur feste Zeitschritte. Sie scheitert, wenn sich der Zeitplan ändert.
Tier 2 (Der faule Kameramann): Die KI versucht, kontinuierlich zu sein, macht aber nur ein Bild zwischen den Beobachtungen. Es ist besser, aber sie wird immer noch verwirrt, wenn sich die Zeitlücken ändern. Es ist, als würde man die Geschwindigkeit des Autos basierend auf nur zwei unscharfen Fotos schätzen.
Tier 3 (Der Hochgeschwindigkeits-Profi): Dies ist das, was der Artikel erreicht. Die KI simuliert die Physik auf einem extrem feinen Gitter (Tausende winziger Schritte) und zeigt der KI dann nur die spezifischen Zeitpunkte, die sie sehen muss.
- Das Ergebnis: Die KI lernt die wahren, unveränderlichen Gesetze des Systems. Es ist ihr egal, ob die Beobachtungen jede Sekunde, jede Stunde oder zu zufälligen Zeiten erfolgen.

4. Das Experiment: Funktioniert es wirklich?

Das Team testete dies mit zwei Arten von „Physik-Engines":

Linear: Einfache, geradlinige Physik (wie eine Feder).
Nicht-linear: Komplexe, sich windende Physik (wie ein chaotisches Wettersystem).

Sie stellten den „faulen Kameramann" (Tier 2) gegen den „Hochgeschwindigkeits-Profi" (Tier 3).

Die Erkenntnis: Der Hochgeschwindigkeits-Profi gewann jedes Mal.
Die Überraschung: Wenn die KI mit der Hochgeschwindigkeits-Methode trainiert wurde, musste ihr nicht einmal mitgeteilt werden, „wie viel Zeit zwischen den Beobachtungen vergangen war". Sie verstand den Fluss einfach natürlich. Wenn sie jedoch mit der faulen Methode trainiert wurde, musste ihr die Zeitlücke explizit mitgeteilt werden, um gut abzuschneiden.

5. Realwelt-Tests (Der „Zero-Shot"-Test)

Die Autoren versuchten, ihre neue KI auf reale Daten anzuwenden, die sie noch nie gesehen hatte (Zero-Shot).

Pharmakokinetik: Vorhersage von Medikamentenspiegeln im Blut (Theophyllin und Warfarin). Die KI konnte den Anstieg und Abfall des Medikaments überraschend gut verfolgen, obwohl sie auf synthetischen Daten trainiert worden war.
Physikalische Systeme: Ein Windkanalexperiment. Die KI sagte erfolgreich vorher, wie die Geschwindigkeit des Windkanals auf eine plötzliche Änderung der Ventilatorleistung reagieren würde.

Das Fazit

Dieser Artikel baut eine bessere „Zeitmaschine" für KI. Indem die KI gezwungen wird, die glatten, kontinuierlichen Gesetze zu lernen, wie sich Dinge verändern (unter Verwendung einer Hochgeschwindigkeitssimulation), anstatt nur die Lücken zwischen Datenpunkten auswendig zu lernen, wird die KI viel schlauer darin, die Zukunft vorherzusagen, selbst wenn die Daten zu seltsamen, unregelmäßigen Zeiten eintreffen.

Was der Artikel NICHT behauptet:

Er behauptet nicht, dass dies bereit ist, Ärzte oder Ingenieure zu ersetzen.
Er behauptet nicht, dass es jede Art von Zeitreihenproblem löst.
Er gibt zu, dass die Realwelt-Tests „vorläufig" waren und weitere Arbeit benötigen, bevor sie in kritischen Situationen eingesetzt werden können.

Es ist ein fundamentaler Schritt: Der Beweis, dass eine KI, wenn man ihr beibringt, die Zeit als einen fließenden Fluss und nicht als eine Reihe von Trittsteinen zu sehen, die Regeln des Universums viel besser lernt.

Technische Zusammenfassung: Auf dem Weg zu kontinuierlichen kausalen Fundamentalmodellen

1. Problemstellung

Prior-Data Fitted Networks (PFNs) haben die kausale Inferenz erfolgreich auf tabellarische Daten und diskrete Zeitreihen ausgeweitet, indem sie Transformer auf synthetischen strukturellen kausalen Modellen (SCMs) vortrainiert haben. Die bestehenden zeitlichen kausalen Priors operieren jedoch auf diskreten ganzzahligen Gittern. Ein naiver Versuch, diese auf kontinuierliche Zeit zu erweitern, indem Mechanismen als stochastische Differentialgleichungen (SDEs) umgeschrieben und einmal pro Beobachtungslücke integriert werden, scheitert daran, echte Kontinuität zu erreichen.

Das Kernproblem besteht darin, dass, wenn eine SDE nur zu Beobachtungsintervallen geschritten wird (naive Integration), das gemeinsame Gesetz der Trajektorie von dem spezifischen Beobachtungsplan abhängt. Folglich bleibt der Prior effektiv ein diskreter zeitlicher Markov-Modell „in SDE-Kleidung" und erfüllt nicht die Anforderung, dass der datengenerierende Prozess invariant gegenüber dem Zeitpunkt der Beobachtung sein muss. Diese Einschränkung ist kritisch für Domänen mit unregelmäßigen, planheterogenen Daten, wie z. B. Pharmakokinetik (klinisch gewählte Probenahmezeitpunkte), physikalische Systeme mit variablen Verzögerungsereignissen und elektronische Gesundheitsakten mit fehlenden Daten.

2. Methodik

2.1. Definition kontinuierlicher kausaler Priors

Die Arbeit etabliert ein präzises Kriterium für einen kontinuierlichen kausalen Prior: Das gemeinsame Gesetz einer gesampelten Trajektorie muss invariant gegenüber dem Beobachtungsplan sein. Der Beobachtungsplan wird als reine Messung behandelt, nicht als Teil des zugrunde liegenden zeitlichen SCM (TSCM).

Basierend auf diesem Kriterium schlagen die Autoren eine dreistufige Taxonomie vor:

Stufe (A) Diskret: Standard diskrete zeitliche SCMs, die nur auf einem ganzzahligen Gitter definiert sind.
Stufe (B) Naiv Kontinuierlich: Eine SDE, die einmal pro Beobachtungslücke integriert wird (Euler–Maruyama auf dem Beobachtungsgitter). Das Trajektorien-Gesetz variiert mit der Längengröße $\Delta_i$ und erfüllt das Kontinuitätskriterium nicht.
Stufe (C) Fein-Gitter Kontinuierlich: Die SDE wird auf einem feinen Gitter ( $\Delta_{fine} \ll \min \Delta_{obs}$ ) integriert und dann auf den Beobachtungsplan unterabgetastet. Wenn $\Delta_{fine} \to 0$ , konvergiert dies gegen das wahre SDE-Gesetz und erfüllt das Kontinuitätskriterium bei endlichen Schritten annähernd.

2.2. Konstruktion des kontinuierlichen Priors

Der vorgeschlagene Aufbau realisiert Stufe (C) auf einem zufälligen gerichteten azyklischen Graphen (DAG) mit folgenden Komponenten:

Graph-Sampling: Variablen werden aus einem zufälligen DAG oder kanonischen Strukturen (z. B. Back-Door, Front-Door, instrumentelle Variablen) gesampelt. Versteckte Confounder können einbezogen werden.
Mechanismus-Familien:
- Lineare Drift: Ornstein–Uhlenbeck (OU)-Prozesse, bei denen die Drift eine lineare Kombination der Eltern ist.
- Nichtlineare Drift: Kleine Multi-Layer-Perceptrons (MLPs) mit tanh-Aktivierungen, die die lineare Elternsumme ersetzen und zur Sicherung der Trajektorienstabilität begrenzt sind.
Regimewechsel: Ein Anteil der Trajektorien folgt einem TSCM mit kontinuierlichem Regimewechsel und einer „sticky"-Markov-Übergangsmatrix, um strukturelle Brüche zu modellieren (z. B. Absorptions- vs. Eliminationsphasen in der Pharmakologie).
Interventionen: Der Prior unterstützt harte (Festlegung eines Wertes), weiche (Verschiebung der Drift) und zeitvariable Interventionen über spezifische Fenster. Kontrafakten werden durch Wiederverwendung desselben Wiener-Rauschens generiert.
Simulation: Trajektorien werden durch Integration der SDE auf einem feinen Gitter mittels Euler–Maruyama mit neu gesampelten Brownschen Inkrementen bei jedem feinen Schritt erzeugt und dann auf den unregelmäßigen Beobachtungsplan unterabgetastet.

2.3. Architektur: $\Delta t$ -bewusster PFN-Encoder

Das Modell verwendet einen kausalen Transformer-Encoder, der auf einem prä-interventionsfenster operiert.

Zeit-Embedding: Anstelle von gelernten ganzzahligen Positions-Embeddings verwendet das Modell ein Fourier-Embedding der kontinuierlichen Zeit: $\phi(t) = W_\phi [\sin(2\pi f_k t), \cos(2\pi f_k t)]$ .
Lücken-Embedding: Zwischenbeobachtungslücken ( $\Delta t_i$ ) werden nach einer $\log(1+\Delta t_i)$ -Transformation mit derselben Familie eingebettet.
Inferenz: Das Modell nimmt beobachtete Daten, Zeitstempel, Interventionspezifikationen und eine Abfragezeit entgegen, um die Verteilung des Ergebnisses unter Intervention vorherzusagen.

3. Hauptbeiträge

Kontinuitätskriterium: Eine formale Definition, die die Invarianz des Trajektorien-Gesetzes gegenüber Beobachtungsplänen erfordert, operationalisiert durch eine dreistufige Taxonomie.
Stufe (C) Konstruktion: Eine praktische Realisierung kontinuierlicher Priors unter Verwendung von Fein-Gitter-Integration, zufälligen DAGs, OU/MLP-Driften und unregelmäßigen Plänen.
Empirische Validierung: Eine kontrollierte $2 \times 2$ -Ablationsstudie (Encoder $\times$ Integrator), die zeigt, dass Fein-Gitter-Integration der naiven Integration überlegen ist, insbesondere wenn sich die Evaluierungsgitter verfeinern.

4. Experimentelle Ergebnisse

4.1. Ablationsstudie

Die Autoren trainierten PFNs auf zwei Priors (Linear-OU und Nichtlinear-Neural-Drift) mit zwei Integratoren (Naiv vs. Fein) und zwei Encodern (Nur Positional vs. Zeitbewusst).

Integrator-Leistung: Fein-Gitter-Integration übertraf die naive Integration in 8 von 8 experimentellen Zellen über beide Priors und Evaluierungsdiskretisierungen hinweg. Die Leistungslücke ( $\Delta$ ) wuchs monoton, je feiner das Evaluierungsgitter wurde (z. B. beim neuronalen Prior stieg die Lücke von +0,0048 auf +0,0088, als die Evaluierungsschritte verfeinert wurden). Dies bestätigt, dass Fein-Gitter-Training das Modell mit dem wahren SDE-Limit in Einklang bringt, während naives Training Diskretisierungsverzerrungen einführt.
Encoder-Leistung: Der Vorteil des zeitbewussten Encoders (Fourier-Embedding von Lücken) war vom Integrator abhängig.
- Bei naiver Integration schnitt der zeitbewusste Encoder signifikant besser ab als der nur positionsbasierte Encoder und kompensierte die planabhängige Dynamik.
- Bei feiner Integration war die Encoder-Wahl empirisch inert (Nullunterschied), was darauf hindeutet, dass der datengenerierende Prozess hinreichend planinvariant geworden war, wodurch explizite Lückenmerkmale nicht mehr benötigt wurden.

4.2. Zero-Shot-Transfer (Vorläufig)

Die Arbeit berichtet über vorläufige Zero-Shot-Transfer-Ergebnisse auf drei realen Datensätzen ohne Feinabstimmung:

Pharmakokinetik (Theophyllin & Warfarin): Das Modell erreichte eine starke Korrelation ( $r \approx 0,88$ ) bei der Warfarin-Plasmakonzentration und verfolgte dosisgetriebene Trajektorien. Die Leistung bei Theophyllin war moderat ( $r \approx 0,53$ für linear). Die Autoren stellen fest, dass die RMSE-Verbesserungen gegenüber naiven Baselines aufgrund der engen Clusterung der Konzentrationsdaten gering waren, aber die Pearson-Korrelation die dynamische Verfolgung bestätigte.
Physikalische Systeme (Kausale Kammer): Auf einer Windkanal-Impulsanlage erreichte der gemischt-mechanistische PFN eine Pearson-Korrelation von $r = 0,95$ bei der Drehzahl-Dynamik und übertraf das lineare Modell ( $r = 0,39$ ) signifikant. Dies deutet darauf hin, dass das Modell nichtlineare, sättigende exponentielle Dynamiken erfolgreich erfasst hat.

5. Bedeutung und Behauptungen

Die Arbeit beansprucht, ein präzises Kontinuitätskriterium für kausale Fundamentalmmodelle bereitzustellen und über „SDE-Kleidung" für diskrete Modelle hinauszugehen. Die primäre Bedeutung liegt darin, zu demonstrieren, dass Fein-Gitter-Integration notwendig ist, um dieses Kriterium zu realisieren, wie durch die wachsende Leistungslücke auf feineren Evaluierungsgittern belegt wird.

Die Autoren sind in ihren Behauptungen bezüglich der Anwendung in der realen Welt bescheiden:

Die Zero-Shot-Transfer-Ergebnisse werden als „vorläufig" und „bestätigend" beschrieben, noch nicht wettbewerbsfähig mit domänenspezifischen Baselines (z. B. NONMEM für PK).
Der Erfolg bei der Kausalen Kammer erforderte einen Wechsel von einem strukturell ungeeigneten „weißes Rauschen"-Benchmark zu einem Datensatz mit expliziten binären Interventionen und realer Dynamik.
Die Arbeit erkennt Einschränkungen an, darunter die Notwendigkeit der Multi-Seed-Replikation, die Unfähigkeit aktueller neuronaler Driften, zeitkorreliertes Rauschen (nur Markov-Rauschen) zu erfassen, und den vorläufigen Charakter des Transfers auf reale Daten.

Die Arbeit positioniert sich als grundlegender Schritt hin zu echter kontinuierlicher kausaler Inferenz und bietet eine Konstruktion, die es Transformern ermöglicht, kausale Inferenz über eine Familie von SDE-getriebenen TSCMs mit unregelmäßigen Beobachtungsplänen zu amortisieren.

Towards Continuous-time Causal Foundation Models