FEAT: A Linear-Complexity Foundation Model for Extremely Large Structured Data

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 FEAT 的新模型，它的目标是解决一个非常棘手的问题：如何像处理海量文本或图片那样，高效且聪明地处理海量的“表格数据”（比如医疗记录、金融账单、电商订单等）。

为了让你轻松理解，我们可以把处理数据想象成**“在一个巨大的图书馆里找规律”**。

1. 现在的困境：三个大麻烦

在 FEAT 出现之前，处理这种超大规模表格数据主要面临三个“拦路虎”：

麻烦一：算得太慢，内存爆炸（O(N²) 复杂度）
- 比喻：想象图书馆有 10 万本书。以前的模型（基于 Transformer）就像是一个**“强迫症读者”。为了理解第 1 本书，它必须把第 1 本书和第 2 本、第 3 本……直到第 10 万本全部两两对比**一遍。
- 后果：书越多，它要做的对比次数就呈指数级爆炸。一旦书超过 5 万本，电脑内存直接爆掉，或者算到地老天荒也跑不完。
麻烦二：顺序错乱，记不住重点（线性模型的缺陷）
- 比喻：为了快，有人想：“别两两对比了，我们像流水账一样，按顺序一本本读过去，只记个大概印象（隐藏状态）不就行了吗？”
- 后果：但表格数据有个特点：顺序不重要（先读张三的病历，还是先读李四的，结果应该一样）。但“流水账”模型天生有“近因效应”，它只记得刚读过的，前面的全忘了。而且，表格里的数据是杂乱无章的，强行按顺序读，就像把乱序的拼图硬塞进一条传送带，导致模型“记性”变差，甚至完全学不到东西（表示崩溃）。
麻烦三：数据太“脏”，容易学偏（长尾分布问题）
- 比喻：现实世界的数据里充满了**“极端怪人”（比如一个亿万富翁混在一群普通人里，或者一个极端的医疗异常值）。以前的模型在训练时，假设大家都是“普通人”（正态分布）。一旦遇到这些“怪人”，模型就会情绪失控**（梯度爆炸），导致整个学习过程崩溃。

2. FEAT 的解决方案：聪明的“双轴”策略

FEAT 就像是一个**“超级图书管理员”**，它发明了三种新招数来解决上述问题：

招数一：双轴编码架构（既快又准）

FEAT 不再让所有书两两对比，也不只是按顺序死记硬背，而是用了**“双管齐下”**的策略：

第一招：AFBM（动态本地记忆）
- 比喻：它像是一个**“双耳听风”的侦探。它既能向前看，也能向后看（双向 Mamba 模型）。它不需要把整本书都背下来，而是像“过目不忘的速记员”，快速捕捉当前这一小段里书与书之间的局部联系**。这解决了“顺序不重要”的问题，因为它不依赖固定的先后顺序。
第二招：Conv-GLA（全局记忆库）
- 比喻：光有速记员还不够，还得有个**“超级档案柜”。FEAT 专门设了一个“全局记忆库”，它不压缩信息，而是把重要的线索稳稳地存起来**。
- 效果：AFBM 负责抓细节和局部规律，Conv-GLA 负责存大局和长期记忆。两者结合，既保证了速度是线性的（书越多，时间只增加一点点），又保证了不会记混或遗忘。

招数二：特殊的“防噪”训练法

比喻：以前的训练像是在**“无菌室”里练手，用的全是完美的模拟数据。FEAT 则直接拉到了“嘈杂的菜市场”**去训练。
做法：它专门设计了一套**“混合训练”方案，把模拟数据和真实的脏数据混在一起。更重要的是，它换了一个“情绪稳定的老师”**（Huber 损失函数）。
- 当遇到“怪人”（极端异常值）时，这个老师不会大喊大叫（梯度爆炸），而是温和地指出错误，让模型学会**“抓大放小”**，在充满噪音的真实世界里也能稳得住。

3. 最终效果：快如闪电，准如神算

速度提升：在测试中，当数据量达到50 万行时，FEAT 的推理速度比以前的模型快了40 倍！以前的模型可能直接死机，而 FEAT 依然稳如泰山。
零样本能力：最神奇的是，FEAT 不需要针对每个新任务重新训练（就像你不需要为了去新城市学开车，只要拿到驾照就能开）。它可以直接利用已有的知识，“零样本”（Zero-shot）地处理从未见过的表格任务。
表现：在 11 个真实的现实世界数据集（包括医疗、金融、电商等）上，FEAT 的表现不仅没有因为变快而变差，反而和那些最顶尖的慢速模型打成了平手，甚至在某些任务上更胜一筹。

总结

FEAT 就是一个为超大规模表格数据量身定做的“超级大脑”。

它打破了“快就不准，准就慢”的魔咒。它通过**“双向速记 + 全局档案”的组合拳，既解决了算不过来的问题，又解决了记不住的问题，还能在脏乱差的真实数据环境中稳健运行**。

这意味着，未来我们可以用 AI 瞬间分析数百万条医疗记录来辅助诊断，或者实时处理海量金融交易来预警风险，而不再需要等待几天几夜，也不用担心电脑崩溃。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与核心问题 (Problem)

结构化数据（如医疗、金融、电商等领域的表格数据）在现实世界中广泛存在。现有的结构化数据大模型（LDMs）虽然试图将基础模型范式扩展到该领域，但在处理真实世界的大规模数据集时面临三大核心挑战：

二次方复杂度瓶颈 (Quadratic Complexity Bottleneck)：
- 现有的 LDMs 通常依赖全自注意力机制（Full Self-Attention）进行样本间的交互建模，其计算复杂度为 $O(N^2)$ （ $N$ 为样本数）。
- 这导致在处理大规模数据（如超过 5 万条记录）时，显存溢出或计算时间过长，无法捕捉全局数据分布。
线性建模下的表示崩溃 (Representation Collapse in Linear Modeling)：
- 为了降低复杂度，直接引入线性序列模型（如 SSM/Mamba 或 Linear Attention）会导致表示能力下降。
- 因果偏差 (Causal Bias)：标准线性模型（如 RNN/SSM）假设数据具有时间顺序，但结构化表格数据是排列不变 (Permutation-Invariant) 的，强制的顺序处理会引入人为的因果偏差。
- 状态压缩 (State Compression)：固定大小的隐藏状态在长序列中被迫压缩全局信息，导致“线性陷阱”，即早期样本的全局上下文被遗忘，信噪比严重下降。
重尾分布下的优化不稳定 (Instability under Heavy-Tailed Distributions)：
- 真实世界的结构化数据具有异方差性和重尾分布（存在极端离群值）。
- 现有的预训练方法多基于合成数据（i.i.d.假设）和静态损失函数（如 MSE），在面对真实数据的极端值时容易引发梯度爆炸，导致优化崩溃。

2. 方法论 (Methodology)

为了解决上述问题，作者提出了 FEAT，一个具有严格线性复杂度 $O(N)$ 的结构化数据基础模型。其核心架构包含三个主要部分：

2.1 单元级嵌入 (Cell-level Embedding)

3D 张量表示：将原始数据 $X \in \mathbb{R}^{N \times D}$ 转换为 $N \times D \times d$ 的张量，保留样本和特征的双重结构。
子空间正交判别特征编码 (S-DFE)：为了严格保持列的排列不变性，不学习静态位置编码，而是动态采样低秩正交矩阵，为每个特征列生成独特的、等距的“身份标识”，消除人为的顺序偏差。

2.2 多层双轴编码架构 (Multi-layer Dual-axis Encoding)

这是 FEAT 的核心创新，旨在替代二次方注意力，同时保持线性复杂度和强大的表示能力。每个编码块包含两个阶段：

特征轴建模 (Feature-axis Modeling)：
- 在样本内部，对 $D$ 个特征维度使用多头自注意力 (MHSA)，捕捉特征间的局部语义相关性。
样本轴建模 (Sample-axis Modeling)：
- 在样本维度 $N$ $N$ 上，采用混合线性架构，由 3 层 AFBM 和 1 层 Conv-GLA 组成：
  - AFBM (Adaptive-Fusion bi-Mamba-2)：结合前向和后向的 Mamba-2 状态空间模型。通过双向状态融合，消除单向因果偏差，捕捉样本间的动态局部依赖。
  - Conv-GLA (Convolutional Gated Linear Attention)：在 AFBM 之后引入。利用 1D 卷积进行局部平滑去噪，并通过显式的全局协方差记忆矩阵 (Explicit Global Covariance Memory) 来存储长程依赖。
  - 机制优势：AFBM 处理局部动态，Conv-GLA 通过门控机制（Gating）自适应抑制低信息量样本的方差积累，从而在保持 $O(N)$ 复杂度的同时，避免了长序列中的表示崩溃和噪声累积。

2.3 任务感知预测 (Task-aware Prediction)

支持分类、回归和缺失值填补。
采用多任务头（MLP）解码，利用上下文中的标记样本（Support Set）来预测未标记样本（Query Set）的标签，实现零样本（Zero-shot）推理。

2.4 混合预训练策略 (Hybrid Pre-training)

混合 SCM 生成管道：结合合成数据（基于结构因果模型 SCM）和真实数据。
- 引入无标度因果图（模拟真实世界的枢纽变量）。
- 基于原型的根初始化：打破 i.i.d. 假设，模拟样本聚类。
- 异方差噪声与重尾扭曲：引入信号依赖的噪声和 Kumaraswamy 扭曲，模拟真实数据的重尾分布。
鲁棒损失函数：
- 使用 Huber Loss (Smooth L1) 替代 MSE，以抵抗重尾分布中的离群值导致的梯度爆炸。
- 动态损失平衡策略，根据批次中不同任务（分类/回归/填补）的样本数量自动调整权重。

3. 主要贡献 (Key Contributions)

首个工业级线性复杂度结构化基础模型：FEAT 是第一个基于多层双轴编码架构的模型，实现了严格的 $O(N)$ 样本间建模复杂度，突破了 $O(N^2)$ 的显存墙。
创新的编码架构：提出了 AFBM + Conv-GLA 的互补机制。AFBM 解决因果偏差，Conv-GLA 解决长程记忆和噪声问题，成功在排列不变的表格数据上实现了线性建模而不发生表示崩溃。
鲁棒的预训练范式：首创了混合真实/合成数据的预训练策略，配合基于 Huber 的损失函数，有效解决了重尾分布下的优化不稳定问题，弥合了仿真与现实的差距。
极致的可扩展性：在 11 个真实世界数据集上的实验表明，FEAT 在样本量达到 50 万时，推理速度比现有基线快 40 倍，且保持了零样本预测性能。

4. 实验结果 (Results)

实验在 11 个真实世界基准数据集（涵盖分类、回归任务，如 TabPFN Suite, Tabzilla, TALENT, GI Benchmark 等）上进行：

可扩展性与效率 (Scalability & Efficiency)：
- 线性增长：当上下文从 5,000 扩展到 500,000 样本时，FEAT 的推理延迟仅从 ~150ms 增加到 ~560ms（线性增长）。
- 对比基线：基于 Transformer 的基线（如 LimiX, TabPFN）在样本量超过 50,000 时出现显存溢出（OOM）或延迟急剧增加（TabPFN 在 50k 样本时延迟高达 9 秒+，TabICL v2 在 500k 样本时延迟超过 22 秒）。
预测性能 (Predictive Performance)：
- 零样本能力：FEAT 在分类和回归任务中均达到了与最强基线（如 LimiX, TabPFN 2.5）相当甚至更优的性能。
- 具体表现：在 Tabzilla-CLS 分类任务上取得了最高的 AUC (0.9251)；在多个大规模稀疏数据集（如 CTR23-REG）上，FEAT 的表现优于 LimiX，证明了其长程建模的有效性。
- 鲁棒性：在存在重尾分布和离群值的真实工业数据（GI Benchmark）上表现稳健。

5. 意义与影响 (Significance)

突破规模限制：FEAT 证明了结构化数据基础模型可以处理数百万行级别的数据，而无需牺牲计算效率，这使得在超大规模工业场景（如实时风控、大规模推荐系统）中部署基础模型成为可能。
理论创新：解决了线性序列模型在排列不变数据上的“因果偏差”和“状态压缩”理论难题，为表格数据的深度学习提供了新的架构范式。
工业应用价值：通过混合预训练和鲁棒优化，FEAT 能够直接适应真实世界中充满噪声和异质性的数据分布，减少了针对特定数据集微调的需求，推动了“即插即用”的表格数据 AI 发展。

总结：FEAT 通过独特的双轴编码架构和鲁棒的预训练策略，成功打破了结构化数据基础模型在计算复杂度和表示能力之间的权衡，实现了在超大规模数据上的线性扩展和零样本高性能推理。