OpenSanctions Pairs: Large-Scale Entity Matching with LLMs

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“如何在大海捞针般的数据中，准确认出同一个人”**的故事。

想象一下，你是一家全球银行的“守门人”。你的工作是检查每一个来开户的人，确保他们不是被国际制裁的“坏人”（比如恐怖分子或腐败官员）。问题在于，这些“坏人”的名字在世界各地的名单上长得都不一样：有的用中文，有的用俄文，有的名字被拼错了，有的用了假名，有的甚至只是把名字里的字母顺序换了一下。

过去，银行靠**“老式规则”**（就像一本死板的字典）来比对名字。但这本字典太笨了，经常把两个同名但不同的人当成同一个人（误报），或者漏掉了一些狡猾的坏人。

这篇论文就是为了解决这个问题，他们做了一件很酷的事：

1. 打造了一个“超级训练场” (OpenSanctions Pairs)

作者们和一家叫 OpenSanctions 的机构合作，收集了来自全球 31 个国家、293 个不同来源的75 万多个“名字对”。

比喻：这就像给 AI 准备了一本超级厚的“找不同”练习册。这本练习册里不仅有中文、英文、俄文，还有各种拼写错误和别名。
关键点：这些练习册的答案不是机器算出来的，而是由人类专家一个个仔细核对后标出来的。这代表了现实世界中最真实的判断标准。

2. 请来了“超级大脑” (LLMs) 来考试

他们让两种“大脑”来做这道题：

老式规则大脑：就是银行现在还在用的那种基于简单规则（比如名字相似度、生日是否一样）的系统。
现代 AI 大脑 (LLM)：就是像 GPT-4o、DeepSeek 这样的大型语言模型。它们像人一样能“理解”上下文，而不仅仅是数数字母。

3. 考试结果：AI 完胜，但快到顶了

老式规则：得分大约是 91 分。它太谨慎了，为了不漏掉坏人，经常把无辜的人也抓进来（误报率高），就像保安看到两个穿红衣服的人就以为他们是同伙。
AI 大脑：得分高达 98-99 分！特别是 GPT-4o 和 DeepSeek 这些模型，它们能看懂“虽然名字写法不同，但身份证号和父亲名字对不上，所以这不是同一个人”这种复杂的逻辑。
比喻：老式规则像个只会看身高和体重就判断是不是双胞胎的保安；而 AI 大脑像个经验丰富的侦探，能看穿伪装，甚至能理解“名字被翻译成了另一种语言”这种复杂情况。

4. 发现了一个有趣的“副作用”

研究人员发现，AI 虽然很强，但它也有自己的“小毛病”：

老式规则：容易**“过度敏感”**，把不是同一个人的当成同一个人（误报）。
AI 大脑：容易**“过度敏感于细节”**。比如，如果一个人的生日写的是"1990-01-01"，另一个写的是"1990-01-02"（可能是录入错误），AI 可能会因为这一天的差别就判定他们不是同一个人。
比喻：老式规则是“宁可错杀一千，不可放过一个”；AI 则是“细节控”，有时候因为一点点笔误就太较真了。

5. 未来的方向：别只盯着“比对”了

这是论文最重要的结论。

现状：现在的 AI 在“比对两个名字是否一样”这件事上，已经做得太好、太接近人类专家的水平了。这就好比你在玩一个游戏，你已经把这一关的分数刷到了 99 分，再练也很难提高到 100 分。
建议：既然“比对”这一步已经很难再提升了，未来的努力应该放在**“怎么更高效地筛选”**上。
- 比喻：以前我们花 90% 的精力在教保安怎么认脸（比对）；现在保安认脸已经非常准了，我们应该把精力花在**“怎么快速把无关的人挡在门外”（Blocking/聚类），以及“怎么让系统知道哪些情况它不确定，需要人来最后拍板”**（不确定性处理）。

总结

这篇论文告诉我们：在识别制裁名单这种复杂任务上，AI 已经学会了像人类专家一样思考，甚至做得更好。 我们不需要再死磕“怎么让 AI 认得更准”，而应该把目光放长远，去设计更聪明的系统流程，让 AI 和人类专家配合得更好，既不漏掉坏人，也不冤枉好人。

一句话总结：AI 已经学会了“认人”的本事，现在的挑战是如何让它更聪明地“排兵布阵”，而不是继续死磕“认人”这个动作本身。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题定义 (Problem)

核心问题：
实体匹配（Entity Matching, EM），也称为实体解析或记录链接，旨在判断两条记录是否指向现实世界中的同一个实体。现有的基准测试（如电商产品、书目数据）通常基于少量来源、结构化良好且单语言的数据，无法反映真实世界合规场景（如国际制裁筛查）中的复杂性。

具体挑战：

数据异构性： 需要处理来自数十个国家、数百个不同来源的异构数据，字段定义和 schema 不一致。
多语言与跨脚本： 实体名称涉及多种语言（如英语、中文、西里尔字母等）及不同的转写标准（Transliteration）。
数据质量： 存在大量缺失值、噪声、别名（Aliases）以及集合值字段（如多个地址或国籍）。
合规成本： 在制裁筛查中，漏报（False Negative）可能导致巨额罚款，而误报（False Positive）虽增加人工审核成本但可接受。因此，传统规则系统倾向于高召回率，导致大量误报。
缺乏基准： 此前没有公开的、基于真实制裁数据的大规模成对实体匹配基准。

任务定义：
给定两个实体记录 $e, e'$ ，预测它们是否代表同一个现实世界实体（ $M(e, e') \in \{0, 1\}$ ）。

2. 数据集构建 (Dataset: OpenSanctions Pairs)

为了填补上述空白，作者与 OpenSanctions 合作发布了首个大规模制裁数据实体匹配基准。

规模： 包含 755,540 个标注的实体对，涵盖超过 100 万 个唯一实体。
来源： 聚合了来自 31 个国家 的 293 个 异构数据集。
实体类型： 包括个人（Person）、公司（Company）和组织（Organization）。
属性特征： 每个实体最多包含 132 个属性字段（姓名、别名、出生日期、国籍、地址、ID 等），平均每个实体有 1.32 个来源和 1.11 个别名。
标注过程：
1. 阻塞（Blocking）： 使用倒排索引基于共享属性（如姓名片段、ID）生成候选对，减少 $O(n^2)$ 的搜索空间。
2. 人工审核： 分析师通过文本界面进行成对比对，结合外部研究解决模糊案例。
3. 标签性质： 标签反映的是专家在证据不完整情况下的判断（优先保证精度），而非绝对的“地面真值”（Ground Truth）。
分布： 正样本（匹配）占 76.9%，负样本（不匹配）占 23.1%。

3. 方法论与实验设置 (Methodology)

研究对比了三种主要方法类别：

3.1 基线模型 (Baselines)

规则基线 (Rule-Based)： 使用 OpenSanctions 生产环境中的 nomenklatura RegressionV1 算法。
- 计算 18 个特征（名称相似度、日期比较、ID 重叠、人口统计一致性等）。
- 使用预训练的逻辑回归模型输出匹配概率。
- 阈值设定为 0.15，以最大化召回率。
开源大语言模型 (Open-Source LLMs)：
- Llama-3.1-8B-Instruct
- DeepSeek-R1-Distill-Qwen-14B (基于 Qwen2.5-14B 蒸馏)
- 部署方式：本地部署，使用 Tensor Parallelism，通过 Outlines 库进行结构化输出约束。
闭源/专有大语言模型 (Proprietary LLMs)：
- 包括 GPT-3.5 Turbo, GPT-4o, GPT-5 Nano, GPT-5.2 Pro, Claude 3 Haiku, Claude 3.7 Sonnet, Claude Opus 4.5 等。
- 通过 API 访问，设置 Temperature=0 以确保确定性。

3.2 提示工程与优化 (Prompting & Optimization)

核心策略（冲突检测）： 将实体解析重新定义为“冲突检测”而非“相似度匹配”。
- 原则： 除非发现明确的矛盾证据（如不同的 ID、冲突的日期），否则默认判定为同一实体（Positive）。
- 提示语： 强调姓名变体（转写、昵称）是常见的，缺失字段不是差异的证据。
优化方法： 使用 DSPy MIPROv2 进行提示优化（Bayesian Optimization），在 200 对开发集上寻找最佳指令变体和演示子集。
Few-Shot 设置： 测试了 0-shot, 2-shot, 4-shot, 8-shot 配置。

4. 关键结果 (Key Results)

4.1 性能表现

LLM 显著优于规则基线：
- 规则基线 (RegressionV1) F1 分数：91.33%。
- 最佳闭源模型 (GPT-4o) F1 分数：98.95%。
- 最佳开源模型 (DeepSeek-R1-Distill-Qwen-14B) F1 分数：98.23%。
- Llama-3.1-8B (优化后) F1 分数：95.94%。
接近人类一致性： LLM 的性能已接近人类分析师在该数据集上的一致性水平，表明成对匹配任务在该场景下已接近性能天花板。

4.2 提示优化与 Few-Shot 的影响

提示优化有效但提升有限： DSPy MIPROv2 优化带来了 1-2 个百分点的 F1 提升（例如 Llama-3.1-8B 从 94.05% 提升至 95.94%），表明模型内部已具备决策逻辑，优化主要减少了指令歧义。
Few-Shot 并未带来额外收益： 在提示优化的基础上增加 Few-Shot 示例（2-shot, 4-shot, 8-shot）没有进一步提升性能，甚至在某些情况下导致性能下降。这表明上下文示例引入的归纳偏置可能与优化后的指令策略产生冲突。

4.3 错误分析 (Failure Modes)

规则基线： 高召回率，但高误报率 (False Positives)。主要因为名称相似但 ID 不同（如两个同名不同身份证号的人）被错误匹配。
LLM： 主要错误模式为漏报 (False Negatives)。
- 跨脚本转写问题： 不同语言/脚本（如阿拉伯语、西里尔语转拉丁语）的名称变体导致模型未能识别匹配。
- 过度敏感： 对微小的日期或 ID 不一致（如输入噪声导致的"off-by-one"错误）过于敏感，从而错误地判定为不匹配。
互补性： 规则系统倾向于“过度匹配”，LLM 倾向于“匹配不足”。

4.4 模型演进趋势

从 2023 年初到 2025 年底，LLM 的 F1 分数从 92-94% 稳步上升至 98-99%，与静态规则基线的差距从约 2 分扩大到 7 分以上。

5. 主要贡献 (Contributions)

发布首个大规模制裁数据基准 (OpenSanctions Pairs)：
- 规模比现有基准大一个数量级（75 万 + 对），且高度异构（293 个来源，31 国，多语言/多脚本）。
- 填补了制裁领域公开成对实体匹配基准的空白。
确立 LLM 在实体匹配中的新基准：
- 证明了现成的 LLM 能够可靠地复现专家决策，性能远超传统规则系统。
- 展示了开源模型（如 DeepSeek-R1-Distill-Qwen-14B）在本地部署下可达到与顶级闭源模型相当的性能。
重新定义研究重点：
- 指出成对匹配（Pairwise Matching）已不再是主要瓶颈。
- 呼吁未来研究转向实体解析管道的其他组件，如阻塞 (Blocking)、聚类 (Clustering)、溯源建模和不确定性感知审查。

6. 意义与启示 (Significance)

合规自动化： 该研究证明了在复杂的国际制裁筛查中，利用 LLM 可以大幅减少人工审核工作量，同时保持极高的准确率。
工作流转变： 建议从“优化成对匹配模型”转向构建“不确定性感知”的流水线。例如，利用规则系统进行高召回的初筛，再利用 LLM 进行重排序和去重，结合人工处理高不确定性案例。
数据质量洞察： LLM 对微小不一致的敏感性表明，它们也可以作为数据质量问题的检测器，帮助发现输入数据中的噪声。
局限性： 当前 LLM 的推理延迟可能不适合实时交易级筛查（需亚秒级响应），但在批量去重（Batch Deduplication）场景中完全可行。此外，标注数据基于专家判断而非绝对真理，模型与标签的分歧可能反映了标注本身的不确定性。

总结： 这篇论文标志着实体匹配领域的一个重要转折点，证明了 LLM 在处理现实世界复杂、多语言、高噪声的合规数据时，已经超越了传统的规则系统，达到了接近人类专家的水平，未来的突破点将在于系统架构的优化而非单纯的匹配算法微调。