MedFeat: Model-Aware and Explainability-Driven Feature Engineering with LLMs for Clinical Tabular Prediction

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein erfahrener Arzt, der versuchen muss, den Gesundheitszustand eines Patienten vorherzusagen, indem er nur auf eine riesige Liste von Zahlen und Fakten schaut: Alter, Blutdruck, frühere Krankheiten, Laborwerte. Das ist wie ein riesiger, chaotischer Haufen aus Puzzleteilen.

Das Problem: Wenn man versucht, aus diesem Haufen automatisch die besten Puzzleteile für eine Vorhersage zu finden, scheitern viele moderne Computerprogramme oft. Sie sind zu stur oder zu kompliziert. Klassische Methoden funktionieren hier manchmal besser, aber sie brauchen einen menschlichen Experten, der stundenlang nach den richtigen Kombinationen sucht – das ist teuer und langsam.

Hier kommt MedFeat ins Spiel. Es ist wie ein super-intelligenter Assistent, der zwei besondere Fähigkeiten hat:

1. Der kluge Assistent (Die KI)

Stellen Sie sich MedFeat als einen medizinischen Detektiv vor, der nicht nur Daten sieht, sondern Verständnis hat. Frühere Versuche, Computer das Puzzeln zu lassen, waren wie ein Kind, das blindlings alle möglichen Kombinationen von Teilen zusammenklebt, ohne zu wissen, ob sie passen.

MedFeat hingegen nutzt eine große Sprach-KI (ein "Großes Sprachmodell", ähnlich wie Chatbots, aber medizinisch geschult). Diese KI kennt die medizinische Welt. Sie weiß zum Beispiel: "Ah, das Alter allein ist wichtig, aber wenn man es mit dem sozialen Status kombiniert, ergibt das ein viel stärkeres Warnsignal für Herzprobleme." Sie erfindet also neue, sinnvolle Puzzleteile (Merkmale), die vorher niemand bedacht hat.

2. Der Spiegel (Das Feedback-System)

Das ist der geniale Teil: Der Assistent arbeitet nicht im Dunkeln. Er hat einen Spiegel vor sich.

Der Spiegel zeigt dem Assistenten: "Hey, dieser neue Puzzleteil, den du gerade erfunden hast, hilft unserem Computer-Modell gar nicht weiter. Das Modell kann das schon selbst."
Oder er sagt: "Super! Dieser neue Teil ist genau das, was unserem Modell fehlt. Das Modell ist gut im Erkennen von Mustern, aber schlecht im Verstehen von komplexen Zusammenhängen über die Zeit. Dieser neue Teil füllt genau diese Lücke!"

Das nennt man "Modell-Bewusstsein". MedFeat fragt ständig: "Was kann unser Computer-Modell schon, und wo braucht es Hilfe?" So verschwendet es keine Zeit mit unnötigen Ideen.

3. Die Inseln (Die Strategie)

Stellen Sie sich vor, Sie müssten aus 10.000 Puzzleteilen die besten 100 finden. Wenn Sie alle auf einmal betrachten, werden Sie verrückt.
MedFeat macht es anders: Es baut kleine Inseln.

Es nimmt nur eine kleine Gruppe von besonders wichtigen Teilen (basierend darauf, welche Teile dem Computer schon am meisten geholfen haben).
Auf dieser kleinen Insel lässt es die KI neue Ideen entwickeln.
Wenn eine Idee funktioniert, wird sie ins große Puzzle integriert. Wenn nicht, wird sie verworfen, und die KI merkt sich: "Okay, das war eine Sackgasse."

Warum ist das so wichtig?

Es funktioniert auch bei schlechten Daten: In der Medizin sind Daten oft unvollständig oder verrauscht (wie ein Radio mit schlechtem Empfang). MedFeat findet trotzdem stabile Signale.
Es ist robust: Was heute funktioniert, funktioniert auch morgen noch. Wenn sich die Patientenpopulation ändert (z. B. von Intensivstationen auf normale Stationen), funktionieren die von MedFeat erfundenen Regeln immer noch. Das ist wie ein Kompass, der auch bei Sturm zeigt, wo Norden ist, während andere Karten verwirren.
Es ist sicher: Der Assistent sieht niemals die echten Patientendaten (keine Namen, keine Adressen). Er sieht nur die "Zusammenfassungen" und die Wichtigkeit der Daten. So bleibt die Privatsphäre gewahrt.

Das Ergebnis

In Tests hat MedFeat gezeigt, dass es medizinische Vorhersagen (z. B. "Wer wird in den nächsten 24 Stunden sterben?") deutlich genauer macht als die alten Methoden. Es findet die versteckten Zusammenhänge, die für Menschen schwer zu sehen sind, aber für Computer schwer zu lernen.

Kurz gesagt: MedFeat ist wie ein Team aus einem medizinischen Genie und einem klugen Computer, die zusammenarbeiten, um aus einem chaotischen Haufen von Daten die wichtigsten Hinweise zu filtern – und dabei immer genau wissen, was der Computer gerade noch nicht versteht.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Im Bereich der klinischen Vorhersage auf tabellarischen Daten (z. B. elektronische Patientenakten) zeigen klassische maschinelle Lernmodelle (wie baumbasierte Modelle oder logistische Regression) oft bessere Ergebnisse als tiefe neuronale Netze. Dies liegt an Herausforderungen wie starken Klassenungleichgewichten, heterogenen Feature-Typen, komplexen zeitlichen Mustern und unregelmäßigen fehlenden Werten.

Die manuelle Feature-Engineering ist jedoch teuer, zeitaufwendig und erfordert tiefes Domänenwissen. Automatisierte Methoden (z. B. AutoFeat, OpenFE) nutzen oft vordefinierte Operatoren, die den Suchraum einschränken und klinisch nicht begründete Features erzeugen können.

Neuere Ansätze nutzen Large Language Models (LLMs), um klinisches Wissen in die Feature-Erstellung zu integrieren. Allerdings weisen bestehende LLM-basierte Methoden (wie CAAFE, FeatLLM, OCTree) folgende Mängel auf:

Fehlende Modellbewusstheit (Model-Awareness): Sie ignorieren die Induktionsverzerrung des downstream-Modells. Ein Feature, das für einen Entscheidungsbaum nützlich ist, könnte für eine logistische Regression redundant sein und umgekehrt.
Ignorieren von Feature-Wichtigkeit: Alle Features werden als gleichwertig behandelt, was zu ineffizienten Suchen führt.
Skalierungsprobleme: Das Senden aller Feature-Namen an das LLM führt zu langen Prompts, die die Qualität der Generierung mindern.
Datenschutz: Viele Ansätze senden Rohdaten (Patientenbeispiele) an das LLM, was in klinischen Umgebungen oft verboten ist.

2. Methodik: MedFeat

MedFeat ist ein iteratives, feedback-getriebenes Framework, das LLMs nutzt, um Features zu generieren, die auf Erklärbarkeit (Explainability) und Modellbewusstheit basieren.

Kernkomponenten:

Explainability-Driven Feedback (SHAP-Werte):
- Anstatt nur Validierungsmetriken zu nutzen, berechnet MedFeat SHAP-Werte (SHapley Additive exPlanations) für das aktuelle Basismodell.
- Diese Werte dienen als Signal für die Wichtigkeit der Features. Sie steuern, welche Features für die Generierung neuer Kandidaten priorisiert werden, und liefern strukturierte Informationen an das LLM.
Modellbewusste Generierung (Model-Aware Generation):
- Der Prompt an das LLM wird dynamisch an das downstream-Modell angepasst.
- Beispiel Logistische Regression: Das LLM wird angewiesen, nichtlineare Transformationen und Interaktionen zu erstellen, da das Modell diese nicht selbst lernen kann.
- Beispiel XGBoost: Da Bäume nichtlineare Muster bereits lernen können, wird das LLM angewiesen, komplexe zeitliche Muster, globale Statistiken oder kontextabhängige Interaktionen zu generieren, die für Bäume schwerer zu erfassen sind, und redundante Transformationen zu vermeiden.
Importance-Weighted Island Sampling:
- Um die Prompt-Länge zu begrenzen und den Fokus zu erhöhen, werden nicht alle Features gleichzeitig an das LLM gesendet.
- Stattdessen werden „Inseln" (Islands) gebildet: Kleine Teilmengen von Features, die basierend auf ihrer SHAP-Wichtigkeit und ihrem Typ (statisch vs. temporal) gesampelt werden.
- Dies ermöglicht eine parallele Exploration verschiedener Feature-Kombinationen bei begrenztem Token-Verbrauch.
Feedback-Speicher (Memory Bank):
- Das System speichert erfolgreiche und gescheiterte Feature-Vorschläge.
- Gescheiterte Vorschläge werden vermieden, während erfolgreiche Muster in zukünftigen Iterationen priorisiert werden.
- Datenschutz: Es werden niemals patientenbezogene Rohdaten an das LLM gesendet. Nur Metadaten, Feature-Profile und aggregierte SHAP-Scores werden übermittelt.

Ablauf:

Training eines Basismodells auf den Originaldaten.
Berechnung von SHAP-Werten und Bildung von Feature-Inseln.
Generierung von Feature-Kandidaten durch das LLM basierend auf dem modellbewussten Prompt.
Lokale Validierung der Kandidaten.
Akzeptanz des besten Kandidaten (wenn er einen Schwellenwert $\beta$ überschreitet) und Update des Basismodells.
Wiederholung für $T$ Iterationen.

3. Hauptbeiträge

Erster modellbewusster LLM-Ansatz: MedFeat ist das erste Framework, das Feature-Vorschläge explizit an die Repräsentationsgrenzen des downstream-Modells anpasst, um Verschwendung von Evaluierungsbudgets zu vermeiden.
SHAP-gesteuerte Generierung: Die Nutzung von SHAP-Werten als Generierungssignal verbessert die Stabilität und Priorisierung von Features, insbesondere in verrauschten und unausgewogenen Datensätzen.
Effiziente Island-Strategie: Durch das Sampling von Feature-Inseln wird die Token-Nutzung begrenzt und die Qualität der Generierung durch Fokussierung auf informative Prädiktoren erhöht.
Datenschutzkonformität: Das Framework erfüllt strenge Datenschutzanforderungen, da keine Patientendaten das lokale Umfeld verlassen.

4. Ergebnisse

Die Evaluation erfolgte auf drei klinischen Datensätzen (IORD, MIMIC-IV, HRS) für verschiedene Aufgaben (z. B. 24-Stunden-Mortalität, Herzinsuffizienz, 10-Jahres-Mortalität).

Leistungssteigerung: MedFeat übertrifft konsistent starke Baselines (AutoFeat, OpenFE, CAAFE, FeatLLM, OCTree) sowohl im Standard-Modus (ohne Hyperparameter-Optimierung) als auch nach umfassender Optimierung (HPO).
- Beispiel: Bei der Vorhersage der 24-Stunden-Mortalität auf IORD-Daten stieg der AUC-Wert von 0,686 (Baseline) auf 0,740 (+7,87 %).
Robustheit: Die generierten Features zeigen eine hohe Generalisierungsfähigkeit über verschiedene Verteilungen hinweg (z. B. Transfer von ICU-Patienten auf allgemeine Krankenhauspatienten) und sind robust gegenüber zeitlichen Verschiebungen (Temporal Shift).
Stabilität: Im Gegensatz zu anderen Methoden, die oft einen Metrik-Verbesserung auf Kosten einer anderen erzielen (z. B. höherer F1, aber niedrigerer AUC), verbessert MedFeat sowohl AUC als auch F1 stabil.
Ablationsstudien: Das Entfernen der Modellbewusstheit oder der Feature-Wichtigkeits-Steuerung führt zu signifikanten Leistungseinbußen, was die Notwendigkeit dieser Komponenten unterstreicht.

5. Bedeutung und Ausblick

MedFeat bietet einen praktischen Weg zur skalierbaren, interpretierbaren und in der Praxis einsetzbaren Feature-Engineering in der Gesundheitsversorgung. Es adressiert die Lücke zwischen der hohen Leistungsfähigkeit von LLMs für klinisches Wissen und den spezifischen Anforderungen klinischer Tabellendaten (Datenschutz, Modellstabilität, Interpretierbarkeit).

Die Ergebnisse zeigen, dass durch die Kombination von Domänenwissen (LLM), Erklärbarkeit (SHAP) und Modellbewusstsein Features generiert werden können, die nicht nur die Vorhersagegenauigkeit steigern, sondern auch klinisch sinnvolle Muster erfassen, die über reine Datenkorrelationen hinausgehen. Dies ist besonders wertvoll für den Einsatz in realen klinischen Umgebungen, wo Robustheit gegenüber Verteilungsverschiebungen und Datenschutzpriorität haben.

MedFeat: Model-Aware and Explainability-Driven Feature Engineering with LLMs for Clinical Tabular Prediction

1. Der kluge Assistent (Die KI)

2. Der Spiegel (Das Feedback-System)

3. Die Inseln (Die Strategie)

Warum ist das so wichtig?

Das Ergebnis

1. Problemstellung

2. Methodik: MedFeat

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

DualDynamics: Synergizing Implicit and Explicit Methods for Robust Irregular Time Series Analysis

Robot Collapse: Supply Chain Backdoor Attacks Against VLM-based Robotic Manipulation

ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding

Advanced Assistance for Traffic Crash Analysis: An AI-Driven Multi-Agent Approach to Pre-Crash Reconstruction