MedFeat: Model-Aware and Explainability-Driven Feature Engineering with LLMs for Clinical Tabular Prediction

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 MedFeat 的新工具，它的任务是帮助医生和 AI 更好地利用医疗数据来预测病情（比如预测病人是否会死亡、是否会再次住院等）。

为了让你轻松理解，我们可以把医疗数据预测想象成**“做一道顶级的大餐”，而 MedFeat 就是那位“拥有超级大脑的米其林大厨助手”**。

1. 背景：为什么我们需要这个助手？

现状：在医疗领域，医生手里有一大堆数据（表格），比如病人的年龄、血压、心率、用药记录等。
难题：
- 传统方法：以前的 AI（像 XGBoost 这种树模型）很擅长处理这些表格，但它们只能“看到”原始数据。就像厨师只看到了“面粉、鸡蛋、糖”，却不知道怎么把它们组合成“蛋糕”。
- 人工挖掘：让专家医生手动去发现新的规律（比如“年龄大 + 贫困=高风险”），既费时间又容易漏掉很多细节。
- 现有 AI 助手：最近流行的“大语言模型”（LLM，比如我）虽然懂很多医学知识，但以前的用法太笨了。它们要么像无头苍蝇一样乱试，要么把太多无关信息塞给模型，导致效率低下，甚至忽略了“这道菜到底是用什么锅（模型）做的”这个关键问题。

2. MedFeat 是什么？（核心概念）

MedFeat 是一个**“懂行且会反思”**的 AI 助手。它不瞎猜，而是通过三个聪明的策略来帮医生“烹饪”出更好的预测模型：

策略一：看菜下碟（模型感知，Model-Aware）

比喻：这就好比厨师知道你是用“平底锅”（逻辑回归模型）还是“高压锅”（XGBoost 树模型）在炒菜。
- 如果是平底锅（线性模型），它很难自己把“面粉”和“糖”混合成“甜味”，所以助手会主动建议：“嘿，咱们把面粉和糖先混合成‘糖浆’吧！”（创造非线性特征）。
- 如果是高压锅（树模型），它自己就能把各种食材炒得很香，但可能不擅长处理“时间变化”或“全局统计”。助手就会建议：“咱们加个‘过去 24 小时心率波动幅度’吧，这个高压锅不太擅长算这个。”
作用：它不会给模型塞它已经会的东西，而是专门补模型“不会做”的短板。

策略二：听指挥、看重点（可解释性驱动，Explainability-Driven）

比喻：助手手里有一个**“聚光灯”**（SHAP 值）。
- 在尝试新菜谱前，它会先看看：现在的模型最依赖哪些食材？（比如“年龄”和“血压”是聚光灯照得最亮的）。
- 它不会去研究那些没人吃的“边角料”（不重要的特征），而是专注于把“聚光灯”下的食材进行创意组合。
- 比如，它发现“年龄”和“贫困指数”都很重要，就会建议：“咱们试试把这两个结合起来，看看能不能发现‘高龄且贫困’这个特殊的高风险人群。”

策略三：小步快跑、记得教训（反馈循环与记忆）

比喻：助手不是把整个厨房翻个底朝天，而是**“分岛探索”**。
- 它把食材分成几个小篮子（特征岛），每次只挑几个重要的进去尝试。这样既快又省资源。
- 记性很好：如果上次它建议加“盐”失败了，下次它就不会再试加盐；如果加“糖”成功了，它就会记住这个经验，下次继续优化。
- 隐私保护：它只跟大语言模型聊“食材清单”和“烹饪心得”，绝不把病人的具体名字和病历细节发给大模型，保护了病人隐私。

3. 它做得怎么样？（实验结果）

论文在三个真实的医疗数据集上做了测试（包括重症监护室 ICU 数据、普通住院数据和老年健康数据）：

更准了：在预测病人死亡率、出院时间等任务上，MedFeat 让模型的准确率（AUC）和关键指标（F1）都提升了。
更稳了：即使数据发生了“漂移”（比如不同年份、不同医院的数据风格变了），MedFeat 生成的“新菜谱”依然有效。这就像一道好菜，不管是在北京还是上海做，味道都很正。
更通用了：它甚至能把在 ICU 学到的“烹饪技巧”（特征），直接用到普通病房的数据上，效果依然很好。

4. 总结：这有什么意义？

想象一下，以前医生要预测病情，得像**“盲人摸象”**一样，靠经验去猜哪些数据有用。

现在有了 MedFeat：

它像一个懂医学的超级厨师，知道怎么把原始数据（食材）变成更有价值的特征（美味佳肴）。
它懂 AI 的脾气，知道给什么模型配什么菜。
它尊重隐私，只聊数据规律，不泄露病人秘密。
它越用越聪明，通过不断的尝试和反思，发现了很多人类医生可能忽略的深层规律（比如“年龄”和“社会地位”的相互作用）。

一句话总结：MedFeat 让 AI 在医疗预测中，不再只是死板地看表格，而是学会了像专家一样“思考”和“组合”数据，从而做出更精准、更可靠的医疗决策。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于利用大语言模型（LLM）进行临床表格数据特征工程的论文《MedFeat: Model-Aware and Explainability-Driven Feature Engineering with LLMs for Clinical Tabular Prediction》的详细技术总结。

1. 研究背景与问题 (Problem)

在临床预测任务中，尽管深度学习在图像和文本领域表现优异，但在结构化表格数据（Tabular Data）上，传统的机器学习模型（如基于树的模型 XGBoost）通常优于深度学习方法。然而，现有的自动特征工程方法存在以下局限性：

缺乏领域知识：传统自动特征工程（如 AutoFeat, OpenFE）依赖预定义的算子（算术组合、非线性变换），缺乏临床合理性，且搜索空间巨大，计算成本高。
忽视下游模型特性：现有的基于 LLM 的特征工程方法（如 CAAFE, FeatLLM）通常是模型无关（Model-agnostic）的。它们忽略了下游学习器的归纳偏置（Inductive Bias）。例如，逻辑回归需要显式的非线性交互，而树模型本身就能学习许多非线性模式，盲目生成特征会导致冗余。
忽视特征重要性：现有方法通常将所有特征平等对待，未利用特征重要性信号来指导生成，导致 LLM 在生成时注意力分散，且提示词（Prompt）长度随特征维度线性增长，影响生成质量。
隐私与稳定性：部分方法需要向 LLM 发送患者原始数据，违反隐私规定；且仅依赖验证集指标进行筛选，在数据不平衡和标签噪声下不稳定。

2. 方法论 (Methodology)

作者提出了 MedFeat，这是一个反馈驱动、模型感知（Model-Aware）的特征工程框架。其核心流程如下：

2.1 核心流程

MedFeat 采用迭代优化策略，每一轮迭代包含以下步骤：

基线训练与解释：在原始特征上训练下游模型（如 XGBoost 或逻辑回归），计算验证集上的 SHAP 值，获取特征重要性排序。
特征岛采样（Feature Island Sampling）：
- 根据 SHAP 重要性对特征进行加权采样，构建“特征岛”（Feature Islands）。
- 每个岛包含少量（如 3 个）高重要性或具有代表性的特征子集。
- 目的：限制提示词长度，降低 Token 消耗，并让 LLM 专注于局部特征空间，避免长上下文导致的注意力稀释。
模型感知的 LLM 生成：
- 构建包含模型约束的 Prompt。例如，若下游是 XGBoost，提示 LLM 生成树模型难以直接学习的特征（如复杂的时序模式、全局统计量、基于证据的临床评分）；若下游是逻辑回归，则提示生成显式的非线性交互项。
- 结合记忆库（Memory Bank）：记录之前成功和失败的特征提案，避免重复错误，强化成功模式。
- 隐私保护：LLM 仅接收特征元数据（名称、类别、描述）和 SHAP 重要性分数，不接收任何患者级原始数据。
验证与选择：
- 执行 LLM 生成的 Python 代码，在训练集和验证集上应用新特征。
- 重新训练下游模型并评估验证指标。
- 采用“赢家通吃”策略：如果某个特征岛带来的性能提升超过预设阈值（ $\beta$ ），则接受该特征并更新基线模型；否则拒绝。

2.2 关键技术点

可解释性驱动（Explainability-Driven）：利用 SHAP 值作为生成信号，不仅用于排序，还作为 Prompt 中的结构化信息，引导 LLM 关注对模型预测贡献最大的特征。
模型感知（Model-Aware）：根据下游模型的能力（如树模型 vs 线性模型）动态调整生成策略，填补模型的学习盲区。
岛屿搜索策略：通过小批量特征子集进行并行探索，平衡了搜索效率与生成质量。

3. 主要贡献 (Key Contributions)

首个模型感知的 LLM 特征工程框架：MedFeat 是第一个将下游学习器的表示能力限制纳入特征生成过程的 LLM 框架。它避免了生成模型已能隐式学习的冗余特征，专注于生成模型难以学习的特征。
基于 SHAP 的解释性引导：利用 SHAP 值作为生成信号，优先采样重要特征，并将重要性信息注入 Prompt，提高了特征生成的针对性和稳定性。
岛屿搜索与记忆机制：提出了基于重要性的“特征岛”采样策略，有效控制了 Prompt 长度和计算成本；引入成功/失败记忆库，实现了跨轮次的迭代优化。
隐私保护设计：整个流程无需向 LLM 发送患者原始数据，仅使用聚合的元数据和解释性分数，符合临床部署的隐私要求。

4. 实验结果 (Results)

作者在多个临床数据集（IORD, MIMIC-IV, HRS）和任务（24 小时死亡率、10 年死亡率、心衰预测等）上进行了广泛评估，对比了基线模型、传统自动特征工程（AutoFeat, OpenFE）及现有 LLM 方法（CAAFE, FeatLLM, OCTree）。

性能提升：
- 在默认超参数设置下，MedFeat 在几乎所有任务上都显著优于基线和其他 SOTA 方法。例如，在 IORD 数据集的 24 小时住院死亡率预测中，XGBoost 的 AUC 从 0.686 提升至 0.740（提升 7.87%）。
- 在超参数优化（HPO）后，MedFeat 依然保持竞争力，特别是在逻辑回归模型上，性能提升更为持久（因为线性模型更依赖显式特征工程）。
鲁棒性与泛化性：
- 跨队列泛化：将在 ICU 队列（MIMIC）上生成的特征迁移到普通住院队列（IORD），模型性能依然提升且更稳定，证明了 LLM 生成的特征具有跨分布的通用性。
- 时间漂移鲁棒性：在时间分布漂移（2020-2024 年数据）测试中，MedFeat 增强的模型比每年重新训练的基线模型表现更稳定，说明生成的特征捕捉了更本质的临床规律。
消融实验：
- 移除“模型感知”模块导致性能显著下降（特别是在极度不平衡任务中，F1 下降 35.9%），证明了针对模型特性生成特征的重要性。
- 移除“特征重要性引导”导致 AUC 和 F1 普遍下降，证实了 SHAP 信号对指导 LLM 的关键作用。

5. 意义与影响 (Significance)

临床部署的可行性：MedFeat 提供了一种可扩展、可解释且符合隐私规范的自动特征工程方案，解决了临床数据中类别不平衡、缺失值复杂和分布漂移等实际难题。
填补研究空白：它纠正了现有 LLM 特征工程忽视下游模型特性的问题，证明了“模型感知”是提升特征工程效率的关键。
实际价值：生成的特征不仅提升了预测精度，还往往具有明确的临床意义（如年龄与社会剥夺指数的交互作用），有助于医生理解模型决策，推动 AI 在医疗领域的落地。

总结：MedFeat 通过结合 LLM 的领域知识推理能力、SHAP 的可解释性信号以及对下游模型特性的感知，成功构建了一个高效、稳健且隐私安全的临床特征工程框架，显著提升了临床表格数据的预测性能。