AERO: An AI Agent for Adaptive Eligibility Refinement and Optimization of Clinical Trial Criteria in Real-World Trial Emulation

Das Papier stellt AERO vor, ein KI-Agenten-Framework, das die Eignungskriterien klinischer Studien für die Emulation von Realweltdaten optimiert, indem es große Sprachmodelle nutzt, um Kriterien systematisch zu klassifizieren und zu verfeinern, wodurch die Generalisierbarkeit und Genauigkeit von Behandlungseffektschätzungen verbessert werden, wie in einer WARCEF-Studien-Emulation demonstriert wurde.

Ursprüngliche Autoren: Li, X., James, J., Pellikka, P. A., Zong, N.

Veröffentlicht 2026-05-01
📖 6 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Li, X., James, J., Pellikka, P. A., Zong, N.

Originalarbeit lizenziert unter CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/). ⚕️ Dies ist eine KI-generierte Erklärung eines Preprints, das nicht peer-reviewed wurde. Dies ist kein medizinischer Rat. Treffen Sie keine Gesundheitsentscheidungen auf Grundlage dieses Inhalts. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie versuchen, einen berühmten, perfekt kontrollierten Kochwettbewerb (eine randomisierte kontrollierte Studie oder RCT) nachzustellen, indem Sie eine riesige, unordentliche Realwelt-Küche voller Zutaten aus tausenden verschiedenen Haushalten nutzen (Ihre elektronischen Gesundheitsakten).

Beim ursprünglichen Wettbewerb hatten die Richter eine sehr strenge Liste von Regeln: „Verwenden Sie nur Eier von Hühnern unter 2 Jahren", „Kein Salz, wenn der Koch eine spezifische Allergie hat" und „Der Koch muss in der Lage sein, 4 Stunden ohne Pause zu stehen." Diese Regeln stellten sicher, dass der Wettbewerb fair war und die Ergebnisse klar waren.

Wenn Sie jedoch versuchen, diese exakten Zutaten in der realen Küche zu finden, stoßen Sie auf eine Wand. Sie können das Alter des Huhns nicht allein durch einen Blick auf das Ei bestimmen. Sie haben keine Aufzeichnung über die Allergiegeschichte jedes Kochs. Und Sie können certainly nicht wissen, ob ein Koch 4 Stunden stehen könnte, wenn er es nie tatsächlich musste. Wenn Sie versuchen, die ursprünglichen Regeln genau so anzuwenden, wie sie geschrieben sind, könnten Sie am Ende 90 % Ihrer Küche wegwerfen und kaum noch Köche zum Studieren haben. Oder schlimmer noch: Sie behalten vielleicht versehentlich nur die „perfekten" Köche, wodurch Ihre Ergebnisse anders aussehen als die reale Welt.

Hier kommt AERO ins Spiel: Der intelligente Sous-Chef

Die Studie stellt AERO (AI Agent for Adaptive Eligibility Refinement and Optimization) vor. Denken Sie an AERO als einen hochintelligenten, gut informierten Sous-Chef, der Ihnen hilft, diese strengen Wettbewerbsregeln in etwas Umsetzbares für Ihre unordentliche Realwelt-Küche zu übersetzen, ohne den Geist des ursprünglichen Wettbewerbs zu verlieren.

So funktioniert AERO, unter Verwendung einfacher Metaphern:

1. Das „Vier-Fächer"-Sortiersystem

Anstatt blind zu versuchen, jede Regel zu befolgen, betrachtet AERO jede Regel und fragt: „Wofür dient diese Regel wirklich?" Es sortiert jede Regel in eines von vier Fächern:

  • Fach 1: Die „Muss-Haben" (Strenge Einschlusskriterien): Dies sind die Kernregeln, die definieren, für wen der Wettbewerb gedacht ist. Beispiel: „Der Koch muss Suppe zubereiten." AERO behält diese als harte Filter bei. Wenn Sie keine Suppe zubereiten, sind Sie draußen.
  • Fach 2: Die „Sicherheitswarnungen" (Strenge Ausschlusskriterien): Dies sind Regeln bezüglich Gefahr. Beispiel: „Niemand mit einer schweren Nussallergie darf eintreten." AERO behält diese ebenfalls bei, da Sicherheit nicht verhandelbar ist und in den Aufzeichnungen meist leicht zu erkennen ist.
  • Fach 3: Das „Hintergrundrauschen" (Confounder): Dies sind Regeln, die den Koch beschreiben, ihn aber nicht notwendigerweise disqualifizieren. Beispiel: „Der Koch muss in der Vergangenheit eine bestimmte Marke von Salz verwendet haben." In der realen Welt könnte dies nur ein Faktor sein, der den Geschmack der Suppe verändert, kein Grund, den Koch rauszuwerfen. AERO sagt: „Werfen Sie sie nicht raus! Schreiben Sie dies einfach auf und passen Sie es später an, wenn wir die Suppe probieren." So bleiben mehr Menschen in der Studie.
  • Fach 4: Die „Unmöglichen Aufgaben" (Verwerfen/Operativ): Dies sind Regeln, die in einer realen Küche keinen Sinn ergeben. Beispiel: „Der Koch muss in der Lage sein, ein 4-Stunden-Protokoll ohne Pause zu befolgen." Das kann man in einer Datenbank nicht überprüfen. AERO sagt: „Das können wir nicht messen, also lassen wir diese Regel ganz fallen, damit wir nicht versehentlich gute Köche ausschließen."

2. Die „Wissens-Bibliothekarin"

AERO rät nicht einfach. Es agiert wie eine Bibliothekarin, die vor einer Entscheidung drei verschiedene Bücher hervorholt:

  • Eine medizinische Enzyklopädie (UpToDate), um die Krankheit zu verstehen.
  • Einen intelligenten KI-Assistenten (Claude), um den Kontext zu interpretieren.
  • Ein Arzneimittelsicherheits-Handbuch (ToolUniverse), um auf gefährliche Wechselwirkungen zu prüfen.

Durch die Kombination der ursprünglichen Studienregeln mit diesem zusätzlichen Wissen entscheidet AERO, welche Regeln beizubehalten, welche anzupassen und welche zu verwerfen sind.

3. Die Testfahrt: Die WARCEF-Studie

Um zu prüfen, ob AERO funktioniert, nutzten die Forscher es, um die WARCEF-Studie nachzubilden.

  • Die ursprüngliche Studie: Verglich Warfarin (ein Blutverdünner) mit Aspirin bei Patienten mit Herzinsuffizienz. Das Ergebnis? Kein Unterschied. Die beiden Medikamente wirkten etwa gleich.
  • Das Problem: Wenn Sie versucht hätten, diese Patienten in realen Krankenhausdaten unter Verwendung der ursprünglichen strengen Regeln zu finden, hätten Sie wahrscheinlich eine winzige, seltsame Gruppe von Patienten erhalten, die nicht wie echte Menschen aussah.
  • Die AERO-Lösung: AERO sortierte die Regeln neu. Es behielt die Diagnose Herzinsuffizienz (Muss-Haben) und die Sicherheitsausschlüsse (Sicherheitswarnung). Aber es verschob Dinge wie „kürzlich implantieter Herzschrittmacher" oder „spezifische Medikamentenhistorie" in das Fach „Hintergrundrauschen", was bedeutet, dass diese Patienten behalten, aber die Mathematik später angepasst wurde.

Das Ergebnis:
Als sie die Studie mit den optimierten Regeln von AERO durchführten, erhielten sie ein Ergebnis von HR = 1,56 (was statistisch gesehen „keinen signifikanten Unterschied" bedeutet). Dies stimmte mit dem Schluss der ursprünglichen Studie überein (HR = 1,01, „kein Unterschied").

Die „Ablations"-Lehre (Das „Was-wäre-wenn"-Experiment)
Die Studie führte auch ein interessantes Experiment durch, um zu beweisen, warum die Sortierung von AERO wichtig ist. Sie nahmen eine spezifische Regel: „Keine Patienten mit einem bestimmten Blutverdünner (LMWH)."

  • Szenario A (Strenge Regel): Sie warfen alle Patienten mit diesem Blutverdünner aus der Studie. Plötzlich änderten sich die Ergebnisse! Es sah so aus, als wäre ein Medikament besser als das andere. Warum? Weil sie durch das Wegwerfen dieser Personen versehentlich die schwerstkranken Patienten entfernt hatten, was die Gruppe verzerrte.
  • Szenario B (Die AERO-Methode): Sie behielten diese Patienten, behandelten den Blutverdünner aber als „Hintergrundrauschen", um später dafür zu adjustieren. Das Ergebnis kehrte zu „Kein Unterschied" zurück und stimmte mit der ursprünglichen Wahrheit überein.

Die große Erkenntnis

Die Studie behauptet, dass die Entscheidung darüber, wer in eine Studie aufgenommen wird, die Ergebnisse verändert.

Wenn Sie versuchen, einen strengen Laborversuch kopieren und in die unordentliche reale Welt einzufügen, könnten Sie das Experiment zerstören. AERO fungiert als Übersetzer. Es nutzt KI und medizinisches Wissen, um zu sagen: „Diese Regel betrifft die Sicherheit, behalten Sie sie. Diese Regel betrifft die Logistik, werfen Sie sie weg. Diese Regel ist nur eine Eigenschaft, passen Sie dafür an."

Indem AERO dies tut, ermöglicht es Forschern, reale Krankenhausdaten zu nutzen, um Fragen zu beantworten, die normalerweise teure, kontrollierte Studien erfordern, und stellt gleichzeitig sicher, dass die Antwort immer noch genau und fair ist. Es überbrückt die Lücke zwischen der „perfekten Welt" eines Labors und der „unordentlichen Welt" eines echten Krankenhauses.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →