Not Another Imputation Method: A Transformer-based Model for Missing Values in Tabular Datasets

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 NAIM（Not Another Imputation Method，意为“别再搞什么填补法了”）的新人工智能模型。

为了让你轻松理解，我们可以把处理数据中的“缺失值”想象成做一道复杂的菜肴，而缺失的数据就是食谱里缺少的食材。

1. 传统方法的困境：强行“补货”

在传统的机器学习方法中，如果食谱里缺了“盐”或“糖”（数据缺失），厨师（算法）通常有两条路走：

扔掉整道菜：如果缺了关键食材，就直接把这份食谱扔掉（删除样本）。这太浪费了，因为其他食材可能还是好的。
瞎猜补货（Imputation）：厨师根据经验猜：“嗯，这道菜通常放盐，那我就放一勺盐吧。”或者找隔壁桌要一点（KNN 算法），或者算个平均值填进去。
- 问题在于：这种“猜”出来的食材，味道可能不对，甚至会让整道菜变味。而且，如果厨师只学会了“猜”，一旦遇到完全没给过食谱的极端情况，他就束手无策了。

2. NAIM 的革新：学会“无中生有”

NAIM 就像一位拥有“透视眼”和“自适应能力”的超级大厨。它根本不需要去猜缺失的食材是什么，也不需要把缺料的食谱扔掉。

它的核心秘诀有两个：

秘诀一：特殊的“食材标签” (Feature-specific Embeddings)

传统做法：把“盐”和“糖”都当成普通的数字处理，缺了就填个 0。
NAIM 的做法：它给每种食材都贴上了专属的标签。
- 如果“盐”在，它就读取“盐”的味道。
- 如果“盐”不在，它不会填个假盐进去，而是直接给这个位置贴上一个特殊的标签：“此处无盐”。
- 这就好比它告诉大脑：“我知道这里缺了盐，但这不影响我判断这道菜是咸的还是甜的，因为我知道‘缺盐’本身也是一种信息。”

秘诀二：带“遮光板”的注意力机制 (Masked Self-Attention)

Transformer 模型（NAIM 的骨架）通常像一个人，试图同时看桌上的所有食材来思考。

传统问题：如果桌上有个空盘子（缺失数据），普通模型可能会盯着空盘子发呆，或者试图从空盘子里“看”出东西来，导致思路混乱。
NAIM 的做法：它在思考时，给那些空盘子戴上了黑色的遮光板。
- 它的注意力机制会明确地告诉大脑：“忽略这个空盘子！不要让它影响你的判断！”
- 这样，模型就能完全专注于现有的、真实的食材，从而做出更精准的判断。

秘诀三：特殊的“训练游戏” (Regularization)

为了让这位大厨在真正做菜时（测试阶段）不慌不乱，作者在训练时故意搞了个“恶作剧”：

随机抽走食材：在训练过程中，作者会随机把一些原本有的食材拿走，假装它们缺失了。
目的：强迫大厨练习“即使缺了东西也能做菜”的本领。
效果：等到真正面对缺失数据时，大厨早就习惯了，无论缺多少，都能从容应对，甚至表现得比那些靠“瞎猜”的厨师更好。

3. 实验结果：谁更厉害？

作者找了 5 个公开的数据集（就像 5 种不同的菜谱），让 NAIM 和 11 种现有的顶尖模型（包括随机森林、XGBoost 等）进行 PK。

场景：他们故意在训练数据和测试数据中制造了不同程度的“缺料”（从 0% 到 75% 缺失）。
结果：
- 在绝大多数情况下，NAIM 都赢了。
- 即使训练数据里一点缺失都没有，而测试数据里缺了很多，NAIM 依然表现优异。这说明它通过“随机抽走食材”的训练法，真正学会了如何处理缺失。
- 相比之下，那些依赖“瞎猜补货”的模型，一旦遇到没猜对的情况，成绩就下滑得很厉害。

总结

NAIM 的核心思想是：
不要试图去“修补”破碎的数据（因为修补往往会引入错误），而是直接学会如何与“破碎”共存。

它就像一位经验丰富的老中医，不需要你补全所有症状描述，只要看着你现有的症状（哪怕缺了几样），就能通过“忽略缺失项”和“利用现有信息”来精准诊断。这不仅提高了预测的准确性，也让 AI 在面对真实世界中不完美的数据时，变得更加皮实、可靠。

一句话概括：NAIM 不再费力去“填补”数据的坑，而是教会 AI 如何跳过这些坑，直接利用剩下的路跑得更快、更稳。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《Not Another Imputation Method: A Transformer-based Model for Missing Values in Tabular Datasets》（不再需要另一种插补方法：一种用于表格数据缺失值的基于 Transformer 的模型）的详细技术总结。

1. 研究背景与问题定义 (Problem)

核心挑战：表格数据（Tabular Data）在人工智能模型训练和测试中普遍存在缺失值问题。缺失值可能源于人为错误、非响应、数据损坏或系统性丢失。
现有方法的局限性：
- 传统插补（Imputation）：大多数现有方法（如均值填充、KNN、MICE）需要在训练前或推理前填充缺失值。这可能导致信息丢失、引入偏差，且难以确定哪种插补策略最适合特定任务。
- 模型适应性不足：虽然深度学习（DL）和 Transformer 架构在文本、图像等领域表现优异，但现有的表格数据 Transformer 模型（如 TabNet, TabTransformer, FTTransformer）通常缺乏处理缺失值的原生机制，或者仅依赖特定的树模型策略（如 MIA），无法同时有效处理分类和数值特征的缺失。
- 训练与推理的不匹配：许多模型在训练时假设数据完整，但在推理时遇到缺失数据，导致性能大幅下降。

目标：开发一种无需传统插补步骤，能够直接从包含缺失值的原始数据中学习并进行预测的 Transformer 模型。

2. 方法论：NAIM 模型 (Methodology)

作者提出了 NAIM (Not Another Imputation Method)，这是一种专为表格数据设计的基于 Transformer 的架构，其核心创新点如下：

A. 特征特定嵌入 (Feature-Specific Embeddings)

NAIM 对分类和数值特征采用了统一的嵌入策略，能够原生处理缺失输入：

分类特征：使用查找表（Lookup Table）。对于缺失值，使用一个特殊的“填充索引”（Padding Index，记为 <pad>），映射到一个不可训练的全零向量。
数值特征：为每个数值特征构建一个包含两个条目的查找表（“存在”和“缺失”）。
- 如果值存在，嵌入向量 = 偏置 + (特征值 × 可训练的特定特征向量)。
- 如果值缺失，嵌入向量 = 偏置 + (不可训练的全零向量)。
效果：这种设计确保了缺失值在嵌入阶段就被编码为特定的零向量，而不需要外部填充。

B. 改进的掩码自注意力机制 (Modified Masked Self-Attention)

这是 NAIM 最关键的创新。传统的掩码注意力通常用于防止信息泄露（如因果掩码）或忽略填充 token，但无法完全消除缺失特征对注意力权重的影响。

问题：在标准注意力计算 $Attention(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d}} + M)V$ 中，即使对缺失列应用了掩码 $M$ （设为 $-\infty$ ），缺失特征对应的行（Row）在 Softmax 后仍可能保留非零权重，导致其贡献未被完全消除。
解决方案：NAIM 提出了一种双重掩码机制：
$Attention(Q, K, V) = ReLU\left( \left( softmax\left(\frac{QK^T}{\sqrt{d}} + M\right) + M^T \right) \right) V$
- 首先应用掩码 $M$ 将缺失列的注意力权重设为 $-\infty$ 。
- 然后加上转置掩码 $M^T$ ，将缺失行对应的注意力权重也设为 $-\infty$ 。
- 最后通过 ReLU 激活函数确保非负。
结果：这种机制完全屏蔽了缺失值在注意力矩阵中的行和列贡献，确保模型仅基于可用信息进行计算。

C. 新颖的正则化技术 (Novel Regularization)

为了增强模型在未见过的缺失模式下的泛化能力，作者引入了一种基于 Cutout 思想的随机掩码策略：

机制：在每个训练 Epoch，以 50% 的概率随机选择样本，并随机掩码掉该样本中部分非缺失的特征（模拟缺失场景）。
目的：强制模型学习如何从部分信息中推断，而不是依赖特定的特征组合，从而提升模型在面对训练集完整但测试集缺失（或反之）情况下的鲁棒性。

3. 主要贡献 (Key Contributions)

首个原生支持缺失值的表格 Transformer：提出了一种无需任何预处理插补即可处理缺失值的 Transformer 架构，整合了特征特定嵌入和双重掩码注意力机制。
创新的正则化策略：通过训练过程中的随机特征掩码，显著提高了模型对缺失数据的泛化能力和鲁棒性。
广泛的实证评估：在 5 个公开数据集（Adult, BankMarketing, OnlineShoppers, SeismicBumps, Spambase）上进行了大规模实验，涵盖了 36 种不同的缺失率组合（训练集和测试集缺失率从 0% 到 75%）。
性能超越：证明了 NAIM 在大多数场景下优于现有的最先进（SOTA）方法，包括 6 种机器学习模型（如 XGBoost, Random Forest）和 5 种深度学习模型（如 TabTransformer, GRAPE），且这些对比模型均结合了 3 种不同的插补技术。

4. 实验结果 (Results)

整体性能：在 36 种实验配置中，NAIM 在 23 种情况下取得了最佳性能。统计显著性检验（Wilcoxon 符号秩检验）显示，NAIM 在 58.7% 的实验中显著优于竞争对手，仅在 1.6% 的情况下表现较差。
鲁棒性分析：
- 当训练集完整但测试集存在缺失时，传统插补方法性能下降明显，而 NAIM 保持稳健。
- 当训练集和测试集均存在高比例缺失（如 75%）时，NAIM 的性能下降幅度最小。
- 与仅使用 MIA 策略的树模型（如 XGBoost, Random Forest）相比，NAIM 在极端缺失场景下表现更优。
消融实验：
- 移除正则化（NAIM w/o reg）导致模型在训练集缺失时性能大幅下降，证明了正则化策略的重要性。
- 将 NAIM 与插补方法结合（NAIM + Imputer）并未带来额外提升，反而不如原生处理缺失值的 NAIM，证明了“不插补”策略的有效性。

5. 意义与影响 (Significance)

简化流程：NAIM 消除了繁琐且可能引入偏差的插补预处理步骤，简化了表格数据处理的流水线。
提升可靠性：在医疗、金融等关键领域，数据缺失往往是常态且可能具有信息量（Informative Missingness）。NAIM 能够直接利用可用数据，避免因错误插补导致的决策失误。
推动深度学习在表格数据中的应用：证明了 Transformer 架构经过适当修改后，可以成为处理表格数据（包括缺失值）的强大工具，挑战了“表格数据只需树模型”的传统观点。
开源贡献：作者公开了代码，促进了该领域的进一步研究和实际应用。

总结：NAIM 通过创新的嵌入机制、双重掩码注意力机制和随机掩码正则化，成功解决了表格数据中缺失值处理的难题，提供了一种无需插补、鲁棒性强且性能卓越的解决方案，代表了处理不完整表格数据的新范式。