OpenSanctions Pairs: Large-Scale Entity Matching with LLMs

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van het paper "OpenSanctions Pairs" in gewoon Nederlands, met behulp van alledaagse vergelijkingen om het begrijpelijk te maken.

🕵️‍♂️ Het Grote Probleem: De "Naam-Verwarring"

Stel je voor dat je een enorme bibliotheek beheert, maar dan niet met boeken, maar met mensen en bedrijven die wereldwijd op een "zwarte lijst" staan (sanctielijsten). Deze lijsten komen uit honderden verschillende landen, in verschillende talen en met verschillende schrijfwijzen.

Het probleem is als volgt:

Iemand heet Ahmed in Egypte.
Dezelfde persoon heet Ahmad in Syrië.
In een ander land staat hij vermeld als A. Hamed.
Soms missen er gegevens, soms zijn er typfouten, en soms hebben twee totaal verschillende mensen precies dezelfde naam.

De taak van een computer is nu om te zeggen: "Zijn dit dezelfde persoon of twee verschillende mensen?" Als de computer een fout maakt, kan dat twee dingen betekenen:

Te streng: Een onschuldige burger wordt ten onrechte opgepakt (een "valse melding").
Te slap: Een gevaarlijke crimineel ontsnapt aan de radar (een "gemiste melding"). In de wereld van sancties is het tweede veel gevaarlijker.

🤖 De Oude Manier vs. De Nieuwe Manier

De auteurs van dit paper hebben gekeken hoe we dit probleem oplossen.

1. De Oude Manier (De Strikte Regels)
Stel je voor dat je een oude, strenge bibliothecaris hebt die alleen werkt met een lijstje met regels: "Als de naam gelijk is en het geboortejaar binnen 2 jaar ligt, dan is het dezelfde persoon."

Hoe het werkt: Deze computer (de "Rule-Based Baseline") is heel snel, maar hij is niet slim. Hij ziet alleen wat er letterlijk op het papier staat.
Het resultaat: Hij is erg voorzichtig. Hij denkt dat bijna iedereen dezelfde persoon is als de naam een beetje lijkt. Hij maakt veel fouten door te veel mensen met elkaar te verwarren (hoge "valse positieven"). In de test scoorde hij een 91,3% op zijn "slimheidsmeter" (F1-score).

2. De Nieuwe Manier (De AI-Expert)
Nu hebben de auteurs moderne "Grote Taalmodellen" (LLMs) ingezet. Denk hierbij aan slimme AI's zoals GPT-4 of DeepSeek.

Hoe het werkt: In plaats van alleen te kijken naar regels, leest deze AI de hele context. Hij denkt: "Oké, de namen lijken op elkaar, maar de vader van de eerste heet 'Muhammad' en de vader van de tweede heet 'Haji Muhammad'. En hun ID-nummers zijn totaal anders. Hoewel de namen lijken, zijn dit twee verschillende mensen."
Het resultaat: Deze AI's zijn ongelooflijk goed in het zien van nuance. Ze halen scores tot 98,9%. Dat is bijna net zo goed als een menselijke expert die urenlang onderzoek doet.

🔍 De Grote Ontdekking: "We zijn er bijna"

De meest interessante conclusie van het paper is een beetje verrassend: Het is eigenlijk niet meer nodig om de AI's nog slimmer te maken voor deze specifieke taak.

De AI's zijn nu al zo goed in het vergelijken van twee namen, dat ze de grens hebben bereikt van wat er redelijkerwijs mogelijk is. Het is alsof je een racefiets hebt die al 99% van de topsnelheid haalt; meer kracht in de benen (of meer rekenkracht) helpt niet meer veel.

Wat betekent dit voor de toekomst?
De auteurs zeggen: "Stop met het perfectioneren van het vergelijken van twee namen. Dat is opgelost."
In plaats daarvan moeten we ons richten op de omgeving waarin die namen worden vergeleken:

De Blokkering (Blocking): Hoe vinden we in een berg van 1 miljoen namen de paar duizend die we überhaupt moeten vergelijken? (Zoals het zoeken naar een naald in een hooiberg, maar dan slim).
De Groepering (Clustering): Als we weten dat A=B en B=C, hoe weten we dan zeker dat A=C?
De Menselijke Controle: Waar moet een mens nog even naar kijken omdat de AI twijfelt?

🧩 De Foutjes die de AI nog maakt

Zelfs de slimste AI maakt fouten, maar op een andere manier dan de oude computer:

Taalverwarring: Als een naam in het Arabisch wordt geschreven en dan in het Latijnse alfabet wordt omgezet, kan de AI soms denken dat het twee verschillende mensen zijn.
Kleine details: Soms ziet de AI een klein verschil (bijvoorbeeld een geboortedatum die één dag verschilt door een typfout) en denkt hij direct: "Nee, dit is een andere persoon!" terwijl het eigenlijk dezelfde persoon is.

🏁 Conclusie in het Kort

Dit paper is als een grote update voor de wereld van veiligheidscontrole:

We hebben een enorme, nieuwe testset gemaakt met echte sanctiedata (OpenSanctions Pairs).
Moderne AI's (LLMs) zijn veel beter dan de oude regelsystemen. Ze kunnen bijna net zo goed werken als menselijke experts.
Omdat de AI's nu al zo goed zijn in het vergelijken van twee namen, moeten we onze energie niet meer steken in het maken van "slimmere" vergelijkings-apps, maar in het beter organiseren van de hele processtroom (zoals het zoeken en groeperen van data).

Kortom: De AI is nu de perfecte "tweede man" die alle saaie vergelijkingen doet, zodat de menselijke experts zich kunnen focussen op de moeilijke, twijfelachtige gevallen.

OpenSanctions Pairs: Large-Scale Entity Matching with LLMs

🕵️‍♂️ Het Grote Probleem: De "Naam-Verwarring"

🤖 De Oude Manier vs. De Nieuwe Manier

🔍 De Grote Ontdekking: "We zijn er bijna"

🧩 De Foutjes die de AI nog maakt

🏁 Conclusie in het Kort

Titel: OpenSanctions Pairs: Groot-schalig Entiteit Matching met LLM's

1. Het Probleem

2. Methodologie en Dataset

3. Belangrijkste Resultaten

4. Bijdragen

5. Significantie en Conclusie

OpenSanctions Pairs: Large-Scale Entity Matching with LLMs

🕵️‍♂️ Het Grote Probleem: De "Naam-Verwarring"

🤖 De Oude Manier vs. De Nieuwe Manier

🔍 De Grote Ontdekking: "We zijn er bijna"

🧩 De Foutjes die de AI nog maakt

🏁 Conclusie in het Kort

Titel: OpenSanctions Pairs: Groot-schalig Entiteit Matching met LLM's

1. Het Probleem

2. Methodologie en Dataset

3. Belangrijkste Resultaten

4. Bijdragen

5. Significantie en Conclusie

Meer zoals dit

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance