OpenSanctions Pairs: Large-Scale Entity Matching with LLMs

O artigo apresenta o OpenSanctions Pairs, um grande conjunto de dados para correspondência de entidades derivado de sanções internacionais, demonstrando que modelos de linguagem (LLMs) superam significativamente os sistemas baseados em regras existentes, atingindo um desempenho próximo ao limite prático e sugerindo uma mudança de foco para componentes de pipeline como bloqueio e agrupamento.

Chandler Smith, Magnus Sesodia, Friedrich Lindenberg, Christian Schroeder de Witt

Publicado Fri, 13 Ma
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um detetive particular trabalhando para o governo. Sua missão é encontrar "duplas" em uma pilha gigante de documentos: descobrir se duas pessoas ou empresas diferentes, listadas em papéis distintos, são, na verdade, a mesma entidade no mundo real.

O problema é que essa pilha de documentos vem de 31 países diferentes, está escrita em 293 idiomas e formatos diferentes, e muitas vezes está cheia de erros de digitação, nomes falsos e informações faltando. É como tentar encontrar um par de meias iguais em uma lavanderias onde alguém misturou todas as roupas do mundo, mas as etiquetas estão rasgadas e escritas em línguas que você não fala.

Aqui está o que os autores deste artigo descobriram, explicado de forma simples:

1. O Novo "Campo de Treinamento" (OpenSanctions Pairs)

Antes, os cientistas de dados treinavam seus robôs usando listas de compras de supermercado ou livros de biblioteca (coisas organizadas e limpas). Isso não ajudava muito no mundo real, onde os dados são bagunçados.

Neste trabalho, eles criaram o "OpenSanctions Pairs". Pense nisso como um gigantesco simulador de realidade baseado em dados reais de sanções internacionais. Eles pegaram mais de 750.000 pares de registros (como "Será que o Sr. João da lista A é o mesmo João da lista B?") e deixaram especialistas humanos decidirem. É o maior e mais difícil teste desse tipo já feito publicamente.

2. O Velho Guardião vs. O Novo Super-Inteligente

Eles colocaram dois tipos de "detectives" para competir:

  • O Detective Velho (Regras Fixas): É como um robô antigo que segue um manual rígido. Se os nomes forem iguais e a data de nascimento bater, ele diz "É o mesmo!". Se houver qualquer pequena diferença, ele fica confuso.

    • Resultado: Ele é muito cauteloso. Ele acha que quase tudo é a mesma pessoa (para não deixar ninguém escapar), mas comete muitos erros, achando que pessoas diferentes são a mesma coisa. Sua pontuação foi de 91,3%.
  • O Detective Novo (IA Generativa / LLMs): São os modelos de Inteligência Artificial mais modernos (como o GPT-4o e outros). Eles não leem apenas regras; eles "entendem" o contexto. Eles sabem que "Vladimir Putin" e "V. Putin" são a mesma pessoa, mesmo que um esteja em russo e outro em inglês, e que um erro de digitação na data não significa que seja outra pessoa.

    • Resultado: Eles foram incríveis, atingindo até 98,9% de precisão. Eles agem quase tão bem quanto os especialistas humanos.

3. A Grande Descoberta: O "Teto" foi Alcançado

Aqui está a parte mais importante da história.

Imagine que você está subindo uma montanha. O "Detective Velho" estava no pé da montanha. Os novos robôs de IA subiram até o topo e bateram no teto da caverna.

Os autores descobriram que melhorar ainda mais a capacidade de comparar dois nomes um por um não vai ajudar muito mais. A IA já é tão boa nisso que o próximo passo não é fazer o robô de comparação ser mais inteligente, mas sim mudar a estratégia da equipe inteira.

4. O Que Fazer Agora? (A Metáfora da Triagem)

Se a IA já é excelente em comparar dois nomes, onde está o problema? O problema é que temos milhões de nomes para comparar. Comparar tudo com tudo levaria uma eternidade.

A solução sugerida é mudar o foco:

  • Antes: Tentar fazer o robô de comparação perfeito.
  • Agora: Focar na triagem (bloqueio). Imagine que, em vez de comparar cada pessoa com todas as outras, você usa a IA para criar "grupos" ou "bairros" onde as pessoas provavelmente moram. Só então você compara quem está no mesmo bairro.
  • Outro ponto: Focar em lidar com a incerteza. Às vezes, a IA não tem certeza. Em vez de forçar uma resposta, o sistema deve sinalizar: "Ei, isso é complicado, um humano precisa olhar isso".

Resumo da Ópera

Este artigo nos diz que a tecnologia de Inteligência Artificial já evoluiu o suficiente para resolver o problema de "comparar dois nomes" em dados bagunçados de sanções internacionais. Ela superou os métodos antigos e chegou perto da perfeição humana.

A lição para o futuro não é "criar uma IA ainda mais inteligente para comparar nomes", mas sim "reorganizar como usamos essa IA para lidar com milhões de dados, filtrar o que é importante e saber quando pedir ajuda a um humano". É como dizer: "Parabéns, você aprendeu a ler perfeitamente. Agora, vamos aprender a organizar a biblioteca inteira."