FEAT: A Linear-Complexity Foundation Model for Extremely Large Structured Data

本文提出了 FEAT,一种专为超大规模结构化数据设计的线性复杂度基础模型,它通过多轴双路架构(结合自适应融合双 Mamba-2 与卷积门控线性注意力)替代了二次方复杂度的自注意力机制,在保持表达能力的同时实现了跨样本的线性建模,并在 11 个真实数据集上展现出优于基线的零样本性能及高达 40 倍的推理速度提升。

Zhenghang Song, Tang Qian, Lu Chen, Yushuai Li, Zhengke Hu, Bingbing Fang, Yumeng Song, Junbo Zhao, Sheng Zhang, Tianyi Li

发布于 2026-03-18
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 FEAT 的新模型,它的目标是解决一个非常棘手的问题:如何像处理海量文本或图片那样,高效且聪明地处理海量的“表格数据”(比如医疗记录、金融账单、电商订单等)。

为了让你轻松理解,我们可以把处理数据想象成**“在一个巨大的图书馆里找规律”**。

1. 现在的困境:三个大麻烦

在 FEAT 出现之前,处理这种超大规模表格数据主要面临三个“拦路虎”:

  • 麻烦一:算得太慢,内存爆炸(O(N²) 复杂度)
    • 比喻:想象图书馆有 10 万本书。以前的模型(基于 Transformer)就像是一个**“强迫症读者”。为了理解第 1 本书,它必须把第 1 本书和第 2 本、第 3 本……直到第 10 万本全部两两对比**一遍。
    • 后果:书越多,它要做的对比次数就呈指数级爆炸。一旦书超过 5 万本,电脑内存直接爆掉,或者算到地老天荒也跑不完。
  • 麻烦二:顺序错乱,记不住重点(线性模型的缺陷)
    • 比喻:为了快,有人想:“别两两对比了,我们像流水账一样,按顺序一本本读过去,只记个大概印象(隐藏状态)不就行了吗?”
    • 后果:但表格数据有个特点:顺序不重要(先读张三的病历,还是先读李四的,结果应该一样)。但“流水账”模型天生有“近因效应”,它只记得刚读过的,前面的全忘了。而且,表格里的数据是杂乱无章的,强行按顺序读,就像把乱序的拼图硬塞进一条传送带,导致模型“记性”变差,甚至完全学不到东西(表示崩溃)。
  • 麻烦三:数据太“脏”,容易学偏(长尾分布问题)
    • 比喻:现实世界的数据里充满了**“极端怪人”(比如一个亿万富翁混在一群普通人里,或者一个极端的医疗异常值)。以前的模型在训练时,假设大家都是“普通人”(正态分布)。一旦遇到这些“怪人”,模型就会情绪失控**(梯度爆炸),导致整个学习过程崩溃。

2. FEAT 的解决方案:聪明的“双轴”策略

FEAT 就像是一个**“超级图书管理员”**,它发明了三种新招数来解决上述问题:

招数一:双轴编码架构(既快又准)

FEAT 不再让所有书两两对比,也不只是按顺序死记硬背,而是用了**“双管齐下”**的策略:

  • 第一招:AFBM(动态本地记忆)
    • 比喻:它像是一个**“双耳听风”的侦探。它既能向前看,也能向后看(双向 Mamba 模型)。它不需要把整本书都背下来,而是像“过目不忘的速记员”,快速捕捉当前这一小段里书与书之间的局部联系**。这解决了“顺序不重要”的问题,因为它不依赖固定的先后顺序。
  • 第二招:Conv-GLA(全局记忆库)
    • 比喻:光有速记员还不够,还得有个**“超级档案柜”。FEAT 专门设了一个“全局记忆库”,它不压缩信息,而是把重要的线索稳稳地存起来**。
    • 效果:AFBM 负责抓细节和局部规律,Conv-GLA 负责存大局和长期记忆。两者结合,既保证了速度是线性的(书越多,时间只增加一点点),又保证了不会记混或遗忘

招数二:特殊的“防噪”训练法

  • 比喻:以前的训练像是在**“无菌室”里练手,用的全是完美的模拟数据。FEAT 则直接拉到了“嘈杂的菜市场”**去训练。
  • 做法:它专门设计了一套**“混合训练”方案,把模拟数据和真实的脏数据混在一起。更重要的是,它换了一个“情绪稳定的老师”**(Huber 损失函数)。
    • 当遇到“怪人”(极端异常值)时,这个老师不会大喊大叫(梯度爆炸),而是温和地指出错误,让模型学会**“抓大放小”**,在充满噪音的真实世界里也能稳得住。

3. 最终效果:快如闪电,准如神算

  • 速度提升:在测试中,当数据量达到50 万行时,FEAT 的推理速度比以前的模型快了40 倍!以前的模型可能直接死机,而 FEAT 依然稳如泰山。
  • 零样本能力:最神奇的是,FEAT 不需要针对每个新任务重新训练(就像你不需要为了去新城市学开车,只要拿到驾照就能开)。它可以直接利用已有的知识,“零样本”(Zero-shot)地处理从未见过的表格任务。
  • 表现:在 11 个真实的现实世界数据集(包括医疗、金融、电商等)上,FEAT 的表现不仅没有因为变快而变差,反而和那些最顶尖的慢速模型打成了平手,甚至在某些任务上更胜一筹

总结

FEAT 就是一个为超大规模表格数据量身定做的“超级大脑”。

它打破了“快就不准,准就慢”的魔咒。它通过**“双向速记 + 全局档案”的组合拳,既解决了算不过来的问题,又解决了记不住的问题,还能在脏乱差的真实数据环境中稳健运行**。

这意味着,未来我们可以用 AI 瞬间分析数百万条医疗记录来辅助诊断,或者实时处理海量金融交易来预警风险,而不再需要等待几天几夜,也不用担心电脑崩溃。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →