OpenSanctions Pairs: Large-Scale Entity Matching with LLMs

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein riesiger Bibliothekar, aber nicht für Bücher, sondern für Personen und Firmen aus der ganzen Welt. Deine Aufgabe ist es, herauszufinden: „Ist das hier wirklich dieselbe Person wie dort?"

Das klingt einfach, ist aber ein Albtraum. Warum? Weil ein und dieselbe Person auf einer Liste in Russland „Iwan Iwanow" heißt, auf einer Liste in China „Wang Wei" (in chinesischen Schriftzeichen) und auf einer US-Liste vielleicht nur „I. Iwanow" mit einem falschen Geburtsjahr. Dazu kommen noch Tausende von Listen, die sich überlappen, Lücken haben und voller Tippfehler stecken.

Genau dieses Problem haben die Autoren des Papers „OpenSanctions Pairs" angepackt. Hier ist die Geschichte ihrer Forschung, einfach erklärt:

1. Das Problem: Der riesige Nadelhaufen

Bisher gab es für Computer-Programme, die solche Namen vergleichen (man nennt das „Entity Matching"), nur sehr einfache Testaufgaben. Das war so, als würde man einem Schüler einen Mathe-Test mit nur zwei Zahlen geben, um ihn auf eine Prüfung vorzubereiten, bei der er Tausende von komplizierten Formeln lösen muss.

Die Forscher haben sich daher eine riesige, echte Datenbank aus Sanktionslisten (Listen von Personen, die wegen Terrorismus oder Korruption gesperrt sind) geschnappt.

Die Menge: Über 750.000 Paare von Namen, die von echten Experten geprüft wurden.
Die Vielfalt: Daten aus 31 Ländern, in 293 verschiedenen Formaten, mit Namen in lateinischen, kyrillischen und chinesischen Buchstaben.
Der Clou: Die Daten sind „schmutzig". Namen sind falsch geschrieben, Daten fehlen, und manchmal sind zwei völlig verschiedene Leute fast gleichnamig.

2. Der Wettkampf: Der alte Roboter vs. Der moderne KI-Assistent

Die Forscher haben zwei Arten von Computern gegeneinander antreten lassen, um zu sehen, wer die besseren Entscheidungen trifft:

Der alte Roboter (Regel-basiert): Das ist wie ein strenger Lehrer, der nur nach festen Regeln urteilt. Wenn der Name zu 90 % übereinstimmt, sagt er: „Ja, das ist dieselbe Person!" Das Problem: Er ist zu vorsichtig und verwechselt oft zwei verschiedene Leute, die zufällig gleich heißen (wie zwei Leute namens „Khalid Mehmood" aus Pakistan, die völlig unterschiedliche Väter und Ausweisnummern haben, aber der Roboter dachte, sie seien identisch).
Der moderne KI-Assistent (LLMs): Das sind die großen Sprachmodelle (wie GPT-4o oder DeepSeek). Man kann sie sich wie einen super-intelligenten Detektiv vorstellen, der nicht nur auf Buchstaben schaut, sondern den Kontext versteht. Er weiß: „Oh, der Name ist gleich, aber die Ausweisnummer ist anders? Das sind zwei verschiedene Leute!"

3. Das Ergebnis: Der Detektiv gewinnt haushoch

Das Ergebnis war überraschend klar:

Der alte Roboter hatte eine Trefferquote von etwa 91 %.
Die modernen KI-Modelle kamen auf 98 % bis 99 %.

Das ist fast so gut wie die menschlichen Experten selbst! Die KI kann also die mühsame Arbeit des Vergleichens fast perfekt erledigen.

4. Die überraschende Lektion: Weniger ist mehr

Die Forscher haben auch getestet, ob sie der KI noch mehr Beispiele geben müssen (damit sie lernt, wie ein Schüler mit einem Lehrbuch).

Überraschung: Es hat geholfen, die KI nur klarer zu instruieren („Achte auf Widersprüche, nicht auf Ähnlichkeiten!"), aber extra viele Beispiele einzufügen, hat oft sogar das Gegenteil bewirkt. Es war, als würde man einem erfahrenen Detektiv eine 100-seitige Anleitung geben, während er eigentlich nur einen klaren Hinweis braucht.

5. Was bedeutet das für die Zukunft?

Die wichtigste Erkenntnis ist diese: Das reine Vergleichen von zwei Namen ist jetzt gelöst. Die KI ist so gut geworden, dass wir hier nicht mehr viel verbessern können.

Statt also weiter an der „Nadel im Heuhaufen"-Suche zu feilen, sollten wir uns auf das größere Bild konzentrieren:

Wie finden wir die Nadel im Heuhaufen, ohne den ganzen Haufen durchsuchen zu müssen? (Das nennt man „Blocking").
Wie gruppieren wir Tausende von Namen zu einer einzigen Person? (Das nennt man „Clustering").
Wo ist die KI unsicher, und wann brauchen wir einen Menschen, um nachzusehen?

Zusammenfassung in einer Metapher

Stell dir vor, du suchst nach einem bestimmten Auto in einer riesigen Garage voller Autos.

Früher (Regel-basiert): Du hast einen Scanner, der nur auf die Farbe schaut. Er denkt, alle roten Autos sind dasselbe. Das ist schnell, aber falsch.
Heute (KI): Du hast einen KI-Experten, der sich das Auto genau ansieht, die Fahrgestellnummer prüft und weiß, dass zwei rote Autos völlig unterschiedlich sind. Er ist fast perfekt.
Die Zukunft: Da der Experte die Autos so gut identifizieren kann, müssen wir uns jetzt fragen: Wie bringen wir ihm bei, schneller durch die Garage zu laufen, ohne jedes Auto einzeln anzuschauen, und wie organisieren wir die Autos am Ende in die richtigen Hallen?

Fazit: Die KI hat den Job des „Namen-Vergleichers" gemeistert. Jetzt müssen wir ihr helfen, den Rest des Prozesses zu meistern, damit Sanktionen schneller und sicherer durchgesetzt werden können, ohne unschuldige Leute zu blockieren.

OpenSanctions Pairs: Large-Scale Entity Matching with LLMs

1. Das Problem: Der riesige Nadelhaufen

2. Der Wettkampf: Der alte Roboter vs. Der moderne KI-Assistent

3. Das Ergebnis: Der Detektiv gewinnt haushoch

4. Die überraschende Lektion: Weniger ist mehr

5. Was bedeutet das für die Zukunft?

Zusammenfassung in einer Metapher

1. Problemstellung

2. Methodik und Datensatz

OpenSanctions Pairs (Der Datensatz)

Experimentelles Setup

3. Key Contributions (Hauptbeiträge)

4. Ergebnisse

Leistung (F1-Score)

Prompt-Optimierung und Few-Shot

Fehleranalyse (Failure Modes)

Skalierung und Zeitverlauf

5. Bedeutung und Fazit

OpenSanctions Pairs: Large-Scale Entity Matching with LLMs

1. Das Problem: Der riesige Nadelhaufen

2. Der Wettkampf: Der alte Roboter vs. Der moderne KI-Assistent

3. Das Ergebnis: Der Detektiv gewinnt haushoch

4. Die überraschende Lektion: Weniger ist mehr

5. Was bedeutet das für die Zukunft?

Zusammenfassung in einer Metapher

1. Problemstellung

2. Methodik und Datensatz

OpenSanctions Pairs (Der Datensatz)

Experimentelles Setup

3. Key Contributions (Hauptbeiträge)

4. Ergebnisse

Leistung (F1-Score)

Prompt-Optimierung und Few-Shot

Fehleranalyse (Failure Modes)

Skalierung und Zeitverlauf

5. Bedeutung und Fazit

Mehr davon

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance