MedFeat: Model-Aware and Explainability-Driven Feature Engineering with LLMs for Clinical Tabular Prediction

Each language version is independently generated for its own context, not a direct translation.

🏥 Il Problema: La Medicina è un Enigma Complesso

Immagina di dover prevedere se un paziente sarà dimesso dall'ospedale o se correrà rischi per la salute. Hai davanti a te un'enorme tabella piena di dati: età, pressione, numero di farmaci, orari di ricovero, ecc.

Fino a poco tempo fa, per fare queste previsioni, gli esperti umani (medici e data scientist) dovevano fare un lavoro enorme: creare manualmente nuove "piste".
Pensaci così: se i dati grezzi sono solo le singole note di uno spartito, l'ingegneria delle caratteristiche (feature engineering) è l'atto di comporre la melodia. Un esperto umano poteva dire: "Ehi, non guardiamo solo la febbre, ma guardiamo quanto velocemente sale la febbre rispetto all'età del paziente!".

Il problema?

È lento e costoso: richiede anni di esperienza.
È limitato: un umano non può provare milioni di combinazioni diverse.
I computer moderni (le Intelligenze Artificiali) spesso non riescono a trovare da soli queste "melodie" nascoste nei dati tabulari clinici, preferendo modelli più semplici e affidabili.

🤖 La Soluzione: MedFeat (Il "Chef" con la Mappa)

Gli autori hanno creato MedFeat, un nuovo sistema che usa i Modelli Linguistici Grandi (LLM), come quelli che usi per chattare, ma con un superpotere: l'ascolto.

Ecco come funziona, con un'analogia culinaria:

1. Il Cuoco Intelligente (L'LLM)

Immagina un cuoco geniale (l'LLM) che conosce la medicina alla perfezione. Il suo compito è inventare nuovi ingredienti (nuove caratteristiche) per migliorare la ricetta (il modello predittivo).
Invece di buttare a caso ingredienti nel pentolone, questo cuoco ha due regole d'oro:

Non inventa cose inutili: Se il modello di base è già bravo a capire le cose semplici (come un cuoco che sa già tagliare le verdure), il cuoco non gli chiede di tagliare le verdure. Gli chiede di inventare qualcosa di difficile, come un sugo complesso che il modello non sa fare da solo.
Ascolta il "Gusto" (Feedback): Dopo ogni tentativo, il cuoco chiede al modello: "Com'è venuta la ricetta?". Se il modello ha fatto un errore, il cuoco capisce perché e prova a correggere il tiro.

2. La Mappa del Tesoro (SHAP Values)

Come fa il cuoco a sapere quali ingredienti sono importanti? Usa una mappa del tesoro chiamata SHAP.
Questa mappa dice: "Attenzione, l'età è molto importante per la ricetta, ma la pressione è meno importante".
Invece di chiedere al cuoco di pensare a tutti gli ingredienti del mondo (che sarebbe troppo lungo e confuso), MedFeat gli mostra solo un piccolo gruppo di ingredienti "importanti" alla volta. È come se dicessi al cuoco: "Oggi lavoriamo solo su carne e spezie, domani su verdure e salse". Questo rende il processo veloce e preciso.

3. La Memoria (Il Diario di Bordo)

Il sistema tiene un diario di bordo.

Se il cuoco prova una ricetta che funziona, la scrive nel diario come "Successo".
Se prova una ricetta che fa schifo, la scrive come "Fallimento".
La prossima volta, il cuoco guarderà il diario per non ripetere gli stessi errori e per rifare le cose che hanno funzionato.

🚀 Perché è Geniale? (I Vantaggi)

Rispetta la Privacy: Il cuoco non vede mai i pazienti reali. Non gli vengono dati nomi o storie private. Gli vengono dati solo i "numeri" e le "regole". È come se gli dessi solo la lista della spesa, non i clienti che hanno ordinato.
Si Adatta al Modello: Se usi un modello semplice (come la Regressione Logistica), MedFeat gli crea ingredienti complessi per aiutarlo. Se usi un modello potente (come XGBoost), gli crea ingredienti che quel modello fatica a trovare da solo (come pattern temporali complessi).
Resistente al Tempo: I dati medici cambiano (nuovi farmaci, nuove malattie). I modelli che si basano solo sui dati di ieri spesso falliscono oggi. MedFeat crea regole basate sulla logica medica (es. "l'età e la povertà insieme sono pericolose"), che rimangono vere anche se i dati cambiano. È come avere una bussola invece di una mappa statica.

📊 I Risultati: Funziona Davvero?

Gli autori hanno provato MedFeat su tre grandi database ospedalieri reali (in UK, USA e dati intensivi).

Risultato: MedFeat ha battuto quasi tutti i metodi precedenti, sia quelli fatti a mano che quelli automatici.
Stabilità: Ha funzionato bene anche quando i dati erano sbilanciati (pochi pazienti malati, molti sani) o quando i dati cambiavano nel tempo.
Interpretabilità: Le nuove "ricette" create dal sistema hanno senso medico. Non sono formule magiche incomprensibili, ma combinazioni logiche che un medico può capire e spiegare.

In Sintesi

MedFeat è come avere un assistente medico-robot che:

Legge la mappa dei dati per capire cosa è importante.
Chiede a un esperto (l'LLM) di inventare nuove regole basate su cosa il modello attuale non sa fare.
Impara dagli errori passati senza mai violare la privacy dei pazienti.

Il risultato? Modelli medici più precisi, più stabili nel tempo e più facili da spiegare, che potrebbero salvare vite umane aiutando i medici a prendere decisioni migliori.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

Nelle previsioni cliniche basate su dati tabulari, i modelli classici (come gli alberi decisionali e la regressione logistica) con ingegneria delle caratteristiche (feature engineering) manuale spesso superano gli approcci basati sul Deep Learning. Tuttavia, l'ingegneria manuale è costosa, richiede tempo e competenze di dominio elevate.

I metodi esistenti di ingegneria automatica delle caratteristiche (AFE) e le recenti applicazioni dei Large Language Models (LLM) presentano limiti significativi:

Mancanza di consapevolezza del modello: Le proposte di feature sono spesso "model-agnostic", ignorando che diversi algoritmi (es. regressione logistica vs. XGBoost) hanno capacità rappresentative diverse. Ad esempio, gli ensemble di alberi possono apprendere interazioni non lineari direttamente, mentre la regressione logistica no.
Ignoranza dell'importanza delle feature: I metodi attuali trattano tutte le feature come intercambiabili, non dando priorità a quelle più informative.
Prompting inefficiente: Inviare l'elenco completo di tutte le feature all'LLM in ogni query porta a prompt troppo lunghi, diluendo il segnale predittivo e riducendo la qualità della generazione.
Mancanza di spiegabilità e privacy: Molti approcci non forniscono giustificazioni cliniche solide o richiedono l'invio di dati a livello di paziente agli LLM, violando le normative sulla privacy.

2. Metodologia: MedFeat

MedFeat è un framework iterativo, guidato dall'interpretabilità e consapevole del modello, che utilizza gli LLM per generare nuove feature cliniche in modo sicuro ed efficiente.

Componenti Chiave del Framework:

Feedback Guidato dall'Interpretabilità (SHAP):
- Invece di basarsi solo sulle metriche di validazione (che possono essere instabili a causa di sbilanciamento delle classi e rumore), MedFeat utilizza i valori SHAP (Shapley Additive exPlanations) calcolati sul modello di base per determinare l'importanza delle feature.
- Questi punteggi guidano la selezione delle feature su cui concentrare la generazione.
Campionamento a "Isole" (Island Sampling):
- Per evitare prompt eccessivamente lunghi, MedFeat non invia tutte le feature all'LLM.
- Crea "isole" di feature: sottoinsiemi piccoli e mirati di feature campionati in base alla loro importanza SHAP.
- Questo riduce l'uso di token, migliora la qualità della generazione focalizzandosi su regioni specifiche dello spazio delle feature e mantiene il contesto gestibile.
Generazione Consapevole del Modello (Model-Aware):
- Il prompt inviato all'LLM include vincoli specifici sul modello di apprendimento a valle (es. XGBoost o Regressione Logistica).
- Esempio: Se il modello è una regressione logistica, l'LLM è istruito a generare trasformazioni non lineari e termini di interazione espliciti. Se il modello è XGBoost, l'LLm è guidato a proporre pattern temporali complessi o statistiche globali che gli alberi faticano a catturare direttamente, evitando ridondanze.
Memoria di Successo/Fallimento:
- Il sistema mantiene una memoria delle feature proposte che hanno funzionato o fallito in iterazioni precedenti.
- Questo permette di evitare proposte inutili e di raffinare la strategia di generazione nel tempo.
Privacy-Preserving:
- Crucialmente, nessun dato grezzo a livello di paziente viene inviato all'LLM. L'LLM riceve solo metadati, descrizioni delle feature, punteggi di importanza aggregati e feedback strutturati.

Flusso di Lavoro Iterativo:

Addestramento di un modello di base e calcolo dei punteggi SHAP.
Creazione di isole di feature basate sull'importanza.
Prompting dell'LLM con il contesto dell'isola, i vincoli del modello e la memoria storica.
Validazione locale delle feature generate (esecuzione del codice Python generato).
Accettazione delle feature che migliorano le prestazioni di validazione oltre una soglia di tolleranza ( $\beta$ ) e aggiornamento del modello di base.

3. Contributi Principali

Primo framework LLM-aware: MedFeat è il primo sistema di ingegneria delle feature basato su LLM che integra esplicitamente la consapevolezza del modello di apprendimento, adattando le proposte alle capacità rappresentative del learner.
Guida basata su SHAP: Utilizza i punteggi di importanza come segnale primario per guidare il campionamento e il prompting, migliorando la stabilità rispetto alle sole metriche di validazione.
Efficienza e Scalabilità: La strategia di "isole" risolve il problema della lunghezza dei prompt, rendendo il processo scalabile per dataset ad alta dimensionalità.
Privacy e Sicurezza: Garantisce che i dati sensibili dei pazienti non lascino mai l'ambiente locale, inviando solo metadati e statistiche aggregate.

4. Risultati Sperimentali

Il framework è stato valutato su tre dataset clinici reali (IORD, MIMIC-IV, HRS) con compiti di previsione come mortalità a 24 ore, mortalità a 10 anni e insufficienza cardiaca.

Prestazioni Superiori: MedFeat ha migliorato costantemente le prestazioni rispetto a baseline classici (AutoFeat, OpenFE) e altri metodi basati su LLM (CAAFE, FeatLLM, OCTree).
- Su XGBoost, ha ottenuto il miglior AUC in tutti e 5 i task testati. Ad esempio, per la mortalità ospedaliera a 24 ore, l'AUC è passato da 0.686 a 0.740 (+7.87%).
- Su Regressione Logistica, ha mostrato miglioramenti ancora più significativi (fino al +12.61% di F1), poiché le feature ingegnerizzate espandono direttamente la capacità del modello lineare.
Robustezza all'Overfitting e Ottimizzazione: Anche dopo un'estesa ottimizzazione degli iperparametri (HPO), MedFeat ha mantenuto miglioramenti significativi, specialmente nelle metriche F1 su task sbilanciati, dimostrando che non sta semplicemente "memorizzando" il set di validazione.
Generalizzabilità: Le feature generate su una coorte (es. ICU di MIMIC) hanno mostrato capacità di trasferirsi con successo su popolazioni diverse (es. pazienti ospedalieri di IORD), mantenendo prestazioni stabili.
Resistenza al Drift Temporale: In scenari di distribuzione temporale (dati di anni diversi), i modelli arricchiti con MedFeat sono risultati più stabili rispetto ai modelli riaddestrati annualmente senza nuove feature, suggerendo che le feature scoperte catturano regolarità cliniche fondamentali.

5. Significato e Impatto

MedFeat rappresenta un passo avanti significativo verso l'implementazione pratica dell'IA in ambito sanitario:

Interpretabilità Clinica: Le feature generate non sono solo "scatole nere" ma sono accompagnate da giustificazioni cliniche (es. interazione tra età e deprivazione socioeconomica) e sono spesso tra le feature più importanti secondo SHAP.
Deployabilità: Offrendo un percorso scalabile per l'ingegneria delle feature che rispetta la privacy e si adatta ai vincoli dei modelli esistenti, MedFeat facilita l'adozione di sistemi predittivi robusti in ambienti reali.
Efficienza delle Risorse: Riduce la necessità di un tuning estensivo degli iperparametri e di riaddestramenti frequenti, rendendo i modelli più resilienti ai cambiamenti nella distribuzione dei dati nel tempo.

In sintesi, MedFeat dimostra che combinare la conoscenza di dominio degli LLM con segnali di interpretabilità e consapevolezza del modello può superare i limiti dei metodi automatici tradizionali, producendo feature clinicamente significative e statisticamente robuste.