原作者： Maxim Ostroukhov, Ruslan Mikhailov, Vladimir Iashin, Artem Sokolov, Andrei Akshonov, Vitaly Protasov, Dmitrii Beloborodov, Vince Mullin, Roman Yokunda Enzmann, Georgios Kolovos, Jason Renders, Pavel N

发布于 2026-04-13

📖 1 分钟阅读☕ 轻松阅读

✨

这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 PRAGMA 的“超级大脑”，它是专门为银行和金融机构设计的。你可以把它想象成一位拥有读心术的资深银行家，它不需要你告诉它具体的规则，而是通过阅读数百万人的“生活日记”（交易记录），学会了如何预测风险、发现欺诈和推荐产品。

下面我用几个生动的比喻来拆解这篇论文的核心内容：

1. 核心问题：以前的银行家太“死板”了

想象一下，以前的银行系统就像是一个只会填表格的办事员。

如果你要评估一个人的信用，办事员会问：“你有房吗？有工作吗？”（静态数据）。
如果你要抓小偷，办事员会看：“这笔钱是不是转给了黑名单？”（规则匹配）。
痛点：现代人的银行生活太复杂了。你不仅转账，还在 App 里点来点去、看股票、发邮件、甚至只是浏览了一下页面。这些零碎的信息像是一堆乱糟糟的乐高积木，以前的办事员（传统模型）要么看不懂，要么为了拼凑出一个答案，需要人工把积木一块块分类、打磨（特征工程），效率极低且容易出错。

2. PRAGMA 是什么？一位“全知全能的阅读者”

PRAGMA 是一个基础模型（Foundation Model），就像是一个读过所有银行历史记录的“超级读者”。

它读什么？ 它不读文字书，它读的是**“事件流”**。比如：
- 事件 A：2023 年 11 月 2 日，用户往账户里存了 100 英镑。
- 事件 B：2023 年 11 月 2 日，用户看了一眼“金属计划”页面。
- 事件 C：2024 年 4 月 7 日，用户发了一封关于股票的邮件。
它怎么读？ 它不像人类那样把数字拆成"1"、"0"、"0"来读（那样会丢失大小概念），而是把每一笔交易看作一个完整的“故事片段”。它同时记住了：
1. 你是谁（静态档案：年龄、会员等级、所在地区）。
2. 你做了什么（动态历史：转账、购物、浏览）。
3. 时间节奏（多久没操作了？是周末还是工作日？）。

3. 它是如何学习的？（玩“填空游戏”）

PRAGMA 在训练时，玩了一个巨大的**“蒙眼猜词”游戏**（Masked Modelling）。

给它看一个人的完整交易记录，然后随机遮住其中几笔（比如遮住“转账金额”或“交易类型”）。
让它根据前后的上下文（比如“他在浏览股票页面后，紧接着做了一笔操作”）去猜被遮住的内容是什么。
结果：经过数万亿次这样的练习，它不再需要死记硬背规则，而是真正理解了金融行为背后的逻辑。比如，它学会了：“如果一个人在深夜频繁查看大额转账页面，然后突然尝试修改密码，这很可能是在准备欺诈。”

4. 它有多强？（“万能钥匙”）

以前，银行需要为每个任务专门训练一个“小专家”：

一个专家专门抓小偷（反欺诈）。
一个专家专门算信用分（信贷评分）。
一个专家专门猜你会买什么（产品推荐）。
PRAGMA 的做法：它只有一把**“万能钥匙”**（预训练好的核心模型）。
- 当需要抓小偷时，它稍微“微调”一下（LoRA 技术，就像给钥匙磨个尖），就能完美胜任。
- 当需要算信用分时，它换个“磨法”，又能完美胜任。
效果：论文显示，这把“万能钥匙”在几乎所有任务上都比那些专门训练的“小专家”更强，而且不需要重新造钥匙，省时省力。

5. 它的三个“超能力”版本

PRAGMA 有三种体型，适应不同需求：

PRAGMA-S (小个子)：只有 1000 万参数，像个实习生。反应快，适合简单的任务（比如预测用户会不会买某个产品）。
PRAGMA-M (中个子)：1 亿参数，像个资深经理。平衡了速度和智力。
PRAGMA-L (大个子)：10 亿参数，像个行业泰斗。虽然训练慢、吃算力，但在最难的任务（如信贷评分，判断一个人会不会赖账）上，它能发现人类专家都看不到的深层规律，表现惊人地好。

6. 它的局限性：它不是“读心术”

虽然 PRAGMA 很厉害，但它也有盲区。

比喻：PRAGMA 只能看到**“一个人的日记”**。
局限：如果洗钱团伙是**“一群人互相配合”（比如 A 转给 B，B 转给 C，C 再转给 A），PRAGMA 因为只能看单个人的记录，看不到他们之间的“团伙网络”，所以在这种反洗钱（AML）**任务上，它反而不如专门针对网络关系设计的旧系统。这是它目前唯一的短板。

总结

PRAGMA 就像是给银行装上了一个**“通用金融大脑”**。
它不再需要人工去定义成千上万条复杂的规则，而是通过阅读海量的真实交易故事，自己学会了如何理解人类的经济行为。

以前：银行家说“如果转账超过 1 万且是深夜，就报警”。
现在：PRAGMA 说“根据这个人过去 3 年的 5000 条记录，结合他现在的浏览习惯和账户状态，这笔交易有 99% 的概率是欺诈，建议拦截”。

这不仅让银行更安全、更智能，也让金融服务能更精准地服务于每个人。

Each language version is independently generated for its own context, not a direct translation.

PRAGMA：面向多源银行事件序列的金融基础模型技术总结

1. 研究背景与问题定义 (Problem)

现代金融系统（如 Revolut 等银行和金融科技平台）产生了海量的交易和事件级数据，这些数据编码了丰富的经济信号。然而，现有的建模方法在处理多源银行用户历史时面临以下核心挑战：

数据异构性与复杂性：用户历史包含来自不同来源（卡片交易、转账、应用内导航、通讯、交易等）的事件流，每个事件都是变长的记录，包含混合的类别、数值和自由文本字段。
现有方法的局限性：
- 文本序列化：将结构化记录直接序列化为文本输入标准 Transformer 会导致序列长度急剧膨胀（字段名和分隔符占用大量 token），且数值被拆分为数字片段，丢失了量级和顺序信息，这对金融推理至关重要。
- 专用模型：现有的表格 Transformer（如 TabTransformer）仅处理固定模式行；序列推荐模型（如 SASRec）仅处理类物品交互；现有的金融基础模型（如 FinBERT）多关注文本或通用时间序列，缺乏对多源事件和静态用户画像（Profile State）的联合建模。
- 隐私与合规：实际部署受严格隐私法规限制，限制了特征的使用和报告方式。
目标：构建一个通用的基础模型，能够直接从原始多源银行事件序列中学习可迁移的表示，覆盖信用评分、欺诈检测、生命周期价值（LTV）预测等多种下游任务，减少对人工特征工程的依赖。

2. 方法论 (Methodology)

PRAGMA 是一个基于 Encoder-only Transformer 架构的基础模型家族，旨在为多源银行用户历史提供通用表示层。

2.1 数据构建与预处理

数据集：基于 2600 万条用户记录（覆盖 111 个国家），包含 240 亿个事件和 2070 亿个 token。数据完全匿名化。
时间范围：选取 2023 年至 2025 年的 25 个月数据，以平衡历史覆盖度、数据时效性和分布一致性。
输入结构：每个样本包含两部分：
1. 事件历史 (Event History)：按时间排序的事件流（交易、应用事件、通讯等）。
2. 静态画像状态 (Profile State)：评估点时的上下文属性（如账户余额分位、计划类型、服务区域）以及“终身事件”（如首次充值时间，用于计算时间跨度）。

2.2 关键 - 值 - 时间 Tokenization (Key-Value-Time Tokenisation)

为了解决异构数据问题，PRAGMA 采用了一种解耦的嵌入空间方案，将每个数据点分解为三个组件：

语义类型 (Key)：字段名（如 Type, Amount），作为单个 Token 编码，词汇表约 60 个。
值 (Value)：根据数据类型采用不同编码策略：
- 数值：映射到基于训练数据学习的百分比分桶（Percentile Buckets），每个分桶一个 Token。
- 类别：低基数字段（如 MCC 码）映射为单个 Token。
- 文本：高基数字段使用 BPE 子词分词器。
时间坐标 (Time)：
- 相对时间：计算距离上一个事件的时间（秒），应用软对数变换（ $8 \cdot \ln(1+t/8)$ ）以压缩长尾分布同时保留近期事件的精度。
- 周期特征：将时间戳分解为小时、星期、日期等循环特征，使用周期性函数嵌入。

2.3 模型架构

PRAGMA 采用双分支编码器 + 历史编码器的设计：

Profile State Encoder (画像编码器)：处理静态属性和终身事件的时间距离。使用 RoPE (Rotary Positional Embedding) 编码时间信息。
Event Encoder (事件编码器)：独立处理每个事件序列。同样使用 RoPE 编码事件间的时间，并融合日历特征（小时、星期等）。
History Encoder (历史编码器)：将画像编码器的输出（[USR] token）和所有事件编码器的输出（[EVT] tokens）拼接，进行全局上下文建模。

规模：提供三种变体，参数量分别为 10M (S), 100M (M), 1B (L)。

2.4 训练策略

预训练目标：掩码语言建模 (Masked Language Modeling, MLM)。随机掩码输入 Token，包括：
- 单 Token 掩码 (15%)
- 整事件掩码 (10%)
- 语义类型（Key）掩码 (10%)，即掩码某个字段的所有值，让模型根据 Key 预测值。
- 引入少量 [UNK] 替换，作为输入 Dropout 增强鲁棒性。
工程优化：
- 序列打包 (Sequence Packing)：将变长事件打包到扁平缓冲区，使用 varlen 注意力核，消除 Padding 开销，提升 2-5 倍吞吐量。
- 动态批处理：按事件数量分片，确保 Batch 内序列长度均匀。
- 截断策略：事件级截断（最多 24 tokens）和画像级截断（最多 200 tokens），长历史用户保留最近事件。

2.5 下游适应 (Downstream Adaptation)

Embedding Probe：冻结主干，在提取的 [USR] 或 [EVT] 嵌入上训练轻量级线性模型。
LoRA Fine-tuning：使用低秩适应 (Low-Rank Adaptation) 微调，仅更新 2-4% 的参数（注意力投影和 MLP 层），实现快速任务特化且避免灾难性遗忘。

3. 主要贡献 (Key Contributions)

首个大规模银行事件基础模型：提出了 PRAGMA，这是目前已知最大的面向消费者银行事件序列的 Encoder 主干模型（最大 1B 参数）。
创新的 Tokenization 与架构：设计了 Key-Value-Time 分词方案，结合双分支（画像 + 事件）编码器，有效处理了金融数据的异构性、变长性和时间敏感性。
高效的预训练与微调范式：验证了基于 MLM 的预训练配合 LoRA 微调，在多个任务上优于从头训练（From Scratch）的专用模型，且大幅降低了计算成本。
广泛的下游任务验证：在 6 类截然不同的任务（信用评分、欺诈检测、LTV、通讯互动、产品推荐、循环交易检测）上进行了评估，证明了模型的通用性。

4. 实验结果 (Results)

实验结果显示 PRAGMA 在几乎所有下游任务上均显著优于内部的任务专用基线模型（Task-specific baselines）：

性能提升：
- 信用评分 (Credit Scoring)：PR-AUC 提升 130.2%，ROC-AUC 提升 12.4%。
- 通讯互动 (Communication Engagement)：PR-AUC 提升 79.4%，ROC-AUC 提升 20.4%。
- 外部欺诈 (External Fraud)：召回率 (Recall) 提升 64.7%，精确率 (Precision) 提升 16.7%。
- 产品推荐 (Product Rec.)：mAP 提升 40.5%。
模型规模效应：
- 从 10M 扩展到 1B 参数，在复杂任务（如信用评分）上带来显著收益（PR-AUC 额外提升 35.2%）。
- 对于 LTV 和循环交易等任务，小模型（10M）已具备竞争力，提供了效率与性能的平衡点。
预训练价值：
- LoRA 微调版本在几乎所有任务上均优于从头训练的模型。例如在通讯互动任务中，LoRA 微调比从头训练 PR-AUC 高出 18.6%。
消融实验：
- 画像状态 (Profile State)：对于依赖静态特征的任务（如信用评分），移除画像编码器导致 PR-AUC 下降 31.8%，证明了双分支设计的重要性。
- 文本编码器：引入预训练文本编码器（Nemotron）在文本密集型任务（信用评分）上进一步提升性能，但在文本稀疏任务上收益有限且增加延迟。
局限性：
- 反洗钱 (AML)：在 AML 任务上表现不如基线（F0.5 下降 47.1%）。原因是 AML 高度依赖跨记录的关联网络特征，而 PRAGMA 目前仅处理孤立的事件历史，缺乏跨记录关系建模能力。

5. 意义与影响 (Significance)

通用表示层：PRAGMA 证明了多源银行事件序列可以像文本和图像一样，通过基础模型学习到可迁移的通用表示，打破了传统金融建模中高度依赖人工特征工程的局面。
工程效率：通过单一基础模型替代多个专用模型，显著降低了维护成本和计算资源消耗。LoRA 微调使得模型能够快速适应新任务。
业务价值：在高风险、低频率任务（如欺诈检测、信用评分）中表现尤为出色，能够捕捉传统模型难以发现的微弱信号。
未来方向：论文指出了当前模型在处理强关系型任务（如 AML）上的不足，未来的工作将致力于将此类基础模型扩展到跨记录交互建模。

总结：PRAGMA 是金融领域基础模型的重要进展，它通过专门设计的架构和训练策略，成功将 Transformer 的能力从文本和图像领域迁移到了复杂、异构的银行交易数据中，为下一代智能金融应用提供了强大的底层技术支撑。

PRAGMA: Revolut Foundation Model