Not Another Imputation Method: A Transformer-based Model for Missing Values in Tabular Datasets

本文提出了一种名为 NAIM 的新型 Transformer 模型,它通过特征特定嵌入和修改后的掩码自注意力机制,无需传统插补技术即可直接从含缺失值的表格数据中学习,并在多个数据集上展现出优于现有插补结合机器学习或深度学习方法的预测性能。

Camillo Maria Caruso, Paolo Soda, Valerio Guarrasi

发布于 2026-03-13
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 NAIM(Not Another Imputation Method,意为“别再搞什么填补法了”)的新人工智能模型。

为了让你轻松理解,我们可以把处理数据中的“缺失值”想象成做一道复杂的菜肴,而缺失的数据就是食谱里缺少的食材

1. 传统方法的困境:强行“补货”

在传统的机器学习方法中,如果食谱里缺了“盐”或“糖”(数据缺失),厨师(算法)通常有两条路走:

  • 扔掉整道菜:如果缺了关键食材,就直接把这份食谱扔掉(删除样本)。这太浪费了,因为其他食材可能还是好的。
  • 瞎猜补货(Imputation):厨师根据经验猜:“嗯,这道菜通常放盐,那我就放一勺盐吧。”或者找隔壁桌要一点(KNN 算法),或者算个平均值填进去。
    • 问题在于:这种“猜”出来的食材,味道可能不对,甚至会让整道菜变味。而且,如果厨师只学会了“猜”,一旦遇到完全没给过食谱的极端情况,他就束手无策了。

2. NAIM 的革新:学会“无中生有”

NAIM 就像一位拥有“透视眼”和“自适应能力”的超级大厨。它根本不需要去猜缺失的食材是什么,也不需要把缺料的食谱扔掉。

它的核心秘诀有两个:

秘诀一:特殊的“食材标签” (Feature-specific Embeddings)

  • 传统做法:把“盐”和“糖”都当成普通的数字处理,缺了就填个 0。
  • NAIM 的做法:它给每种食材都贴上了专属的标签。
    • 如果“盐”在,它就读取“盐”的味道。
    • 如果“盐”不在,它不会填个假盐进去,而是直接给这个位置贴上一个特殊的标签:“此处无盐”
    • 这就好比它告诉大脑:“我知道这里缺了盐,但这不影响我判断这道菜是咸的还是甜的,因为我知道‘缺盐’本身也是一种信息。”

秘诀二:带“遮光板”的注意力机制 (Masked Self-Attention)

Transformer 模型(NAIM 的骨架)通常像一个人,试图同时看桌上的所有食材来思考。

  • 传统问题:如果桌上有个空盘子(缺失数据),普通模型可能会盯着空盘子发呆,或者试图从空盘子里“看”出东西来,导致思路混乱。
  • NAIM 的做法:它在思考时,给那些空盘子戴上了黑色的遮光板
    • 它的注意力机制会明确地告诉大脑:“忽略这个空盘子!不要让它影响你的判断!”
    • 这样,模型就能完全专注于现有的、真实的食材,从而做出更精准的判断。

秘诀三:特殊的“训练游戏” (Regularization)

为了让这位大厨在真正做菜时(测试阶段)不慌不乱,作者在训练时故意搞了个“恶作剧”:

  • 随机抽走食材:在训练过程中,作者会随机把一些原本有的食材拿走,假装它们缺失了。
  • 目的:强迫大厨练习“即使缺了东西也能做菜”的本领。
  • 效果:等到真正面对缺失数据时,大厨早就习惯了,无论缺多少,都能从容应对,甚至表现得比那些靠“瞎猜”的厨师更好。

3. 实验结果:谁更厉害?

作者找了 5 个公开的数据集(就像 5 种不同的菜谱),让 NAIM 和 11 种现有的顶尖模型(包括随机森林、XGBoost 等)进行 PK。

  • 场景:他们故意在训练数据和测试数据中制造了不同程度的“缺料”(从 0% 到 75% 缺失)。
  • 结果
    • 在绝大多数情况下,NAIM 都赢了
    • 即使训练数据里一点缺失都没有,而测试数据里缺了很多,NAIM 依然表现优异。这说明它通过“随机抽走食材”的训练法,真正学会了如何处理缺失。
    • 相比之下,那些依赖“瞎猜补货”的模型,一旦遇到没猜对的情况,成绩就下滑得很厉害。

总结

NAIM 的核心思想是:
不要试图去“修补”破碎的数据(因为修补往往会引入错误),而是直接学会如何与“破碎”共存

它就像一位经验丰富的老中医,不需要你补全所有症状描述,只要看着你现有的症状(哪怕缺了几样),就能通过“忽略缺失项”和“利用现有信息”来精准诊断。这不仅提高了预测的准确性,也让 AI 在面对真实世界中不完美的数据时,变得更加皮实、可靠

一句话概括:NAIM 不再费力去“填补”数据的坑,而是教会 AI 如何跳过这些坑,直接利用剩下的路跑得更快、更稳。