OpenSanctions Pairs: Large-Scale Entity Matching with LLMs

该论文发布了名为 OpenSanctions Pairs 的大规模实体匹配基准数据集,并通过实验证明开源与闭源大语言模型在零样本和少样本设置下均显著优于传统规则基线,从而推动实体解析研究从配对匹配转向阻塞、聚类及不确定性审查等后续流程优化。

Chandler Smith, Magnus Sesodia, Friedrich Lindenberg, Christian Schroeder de Witt

发布于 Fri, 13 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“如何在大海捞针般的数据中,准确认出同一个人”**的故事。

想象一下,你是一家全球银行的“守门人”。你的工作是检查每一个来开户的人,确保他们不是被国际制裁的“坏人”(比如恐怖分子或腐败官员)。问题在于,这些“坏人”的名字在世界各地的名单上长得都不一样:有的用中文,有的用俄文,有的名字被拼错了,有的用了假名,有的甚至只是把名字里的字母顺序换了一下。

过去,银行靠**“老式规则”**(就像一本死板的字典)来比对名字。但这本字典太笨了,经常把两个同名但不同的人当成同一个人(误报),或者漏掉了一些狡猾的坏人。

这篇论文就是为了解决这个问题,他们做了一件很酷的事:

1. 打造了一个“超级训练场” (OpenSanctions Pairs)

作者们和一家叫 OpenSanctions 的机构合作,收集了来自全球 31 个国家、293 个不同来源的75 万多个“名字对”。

  • 比喻:这就像给 AI 准备了一本超级厚的“找不同”练习册。这本练习册里不仅有中文、英文、俄文,还有各种拼写错误和别名。
  • 关键点:这些练习册的答案不是机器算出来的,而是由人类专家一个个仔细核对后标出来的。这代表了现实世界中最真实的判断标准。

2. 请来了“超级大脑” (LLMs) 来考试

他们让两种“大脑”来做这道题:

  • 老式规则大脑:就是银行现在还在用的那种基于简单规则(比如名字相似度、生日是否一样)的系统。
  • 现代 AI 大脑 (LLM):就是像 GPT-4o、DeepSeek 这样的大型语言模型。它们像人一样能“理解”上下文,而不仅仅是数数字母。

3. 考试结果:AI 完胜,但快到顶了

  • 老式规则:得分大约是 91 分。它太谨慎了,为了不漏掉坏人,经常把无辜的人也抓进来(误报率高),就像保安看到两个穿红衣服的人就以为他们是同伙。
  • AI 大脑:得分高达 98-99 分!特别是 GPT-4o 和 DeepSeek 这些模型,它们能看懂“虽然名字写法不同,但身份证号和父亲名字对不上,所以这不是同一个人”这种复杂的逻辑。
  • 比喻:老式规则像个只会看身高和体重就判断是不是双胞胎的保安;而 AI 大脑像个经验丰富的侦探,能看穿伪装,甚至能理解“名字被翻译成了另一种语言”这种复杂情况。

4. 发现了一个有趣的“副作用”

研究人员发现,AI 虽然很强,但它也有自己的“小毛病”:

  • 老式规则:容易**“过度敏感”**,把不是同一个人的当成同一个人(误报)。
  • AI 大脑:容易**“过度敏感于细节”**。比如,如果一个人的生日写的是"1990-01-01",另一个写的是"1990-01-02"(可能是录入错误),AI 可能会因为这一天的差别就判定他们不是同一个人。
  • 比喻:老式规则是“宁可错杀一千,不可放过一个”;AI 则是“细节控”,有时候因为一点点笔误就太较真了。

5. 未来的方向:别只盯着“比对”了

这是论文最重要的结论。

  • 现状:现在的 AI 在“比对两个名字是否一样”这件事上,已经做得太好、太接近人类专家的水平了。这就好比你在玩一个游戏,你已经把这一关的分数刷到了 99 分,再练也很难提高到 100 分。
  • 建议:既然“比对”这一步已经很难再提升了,未来的努力应该放在**“怎么更高效地筛选”**上。
    • 比喻:以前我们花 90% 的精力在教保安怎么认脸(比对);现在保安认脸已经非常准了,我们应该把精力花在**“怎么快速把无关的人挡在门外”(Blocking/聚类),以及“怎么让系统知道哪些情况它不确定,需要人来最后拍板”**(不确定性处理)。

总结

这篇论文告诉我们:在识别制裁名单这种复杂任务上,AI 已经学会了像人类专家一样思考,甚至做得更好。 我们不需要再死磕“怎么让 AI 认得更准”,而应该把目光放长远,去设计更聪明的系统流程,让 AI 和人类专家配合得更好,既不漏掉坏人,也不冤枉好人。

一句话总结:AI 已经学会了“认人”的本事,现在的挑战是如何让它更聪明地“排兵布阵”,而不是继续死磕“认人”这个动作本身。