Do LLMs Judge Distantly Supervised Named Entity Labels Well? Constructing the JudgeWEL Dataset

Each language version is independently generated for its own context, not a direct translation.

Hoe slimme computers helpen om een taal te "leren" die ze niet kennen: Het verhaal van JudgeWEL

Stel je voor dat je een enorme bibliotheek wilt bouwen voor een taal die weinig mensen spreken: Luxemburgs. In de wereld van computers (kunstmatige intelligentie) is dit een enorm probleem. Voor talen zoals Engels of Frans zijn er al duizenden boeken met kant-en-klare antwoorden (geannoteerde data) om de computer te leren wat een naam, een stad of een datum is. Maar voor Luxemburgs? Daar is de bibliotheek bijna leeg.

De auteurs van dit papier, Alistair, Laura en Tharindu, wilden deze lege bibliotheek vullen zonder dat ze jarenlang met de hand elke zin moesten nakijken. Dat zou te duur en te langzaam zijn. Hun oplossing? Een slimme combinatie van Wikipedia, Wikidata en AI-rechters.

Hier is hoe ze het deden, vertaald in alledaagse taal:

1. De Grondstof: Wikipedia als een schatkaart

Ze begonnen met de Luxemburgse Wikipedia. Wikipedia is als een enorme, chaotische bouwplaats waar iedereen zinnen schrijft. Maar er zit een schat in: hyperlinks.

Als je in een artikel over "De Jhempi Kniddel" (een persoon) leest, staat die naam vaak als link naar een apart Wikipedia-artikel.
Die link is als een stempel dat zegt: "Dit is een persoon!"

De auteurs gebruikten een robot om alle artikelen te lezen, de zinnen te splitsen en te kijken welke woorden gelinkt waren. Vervolgens keken ze in Wikidata (een enorme database van feiten) om te zien of die link ook daadwerkelijk een persoon, een organisatie, een locatie of een datum was.

Analogie: Het is alsof je een berg losse puzzelstukjes (Wikipedia-artikelen) neemt en met een magneet (Wikidata) alleen de stukjes eruit haalt die een "persoon" of "stad" voorstellen.

2. Het Probleem: De "Vuilnisbak" van de AI

Maar er was een probleem. Niet elke link op Wikipedia is perfect. Soms is een link verkeerd, soms ontbreekt er een label, en soms is het gewoon ruis.
Als je deze ruwe data direct aan een computer geeft om te leren, leert de computer verkeerde dingen. Het is alsof je een kind leert lezen met een boek vol typfouten.

Hier komt het nieuwe idee van de auteurs: De AI als Rechter (Judge).
In plaats van mensen te laten nakijken (wat te duur is), vroegen ze verschillende Grote Taalmodellen (LLMs) om te oordelen: "Is deze zin goed gelabeld of moet deze weg?"

Ze lieten verschillende "rechters" (zoals GPT-5, Llama, en Mistral) een lijst van zinnen beoordelen.

De taak van de rechter: "Kijk naar deze zin. Zijn de labels (zoals 'Persoon' of 'Datum') correct? Zo ja, houd de zin. Zo nee, gooi hem weg."
Ze testten welke "rechter" het beste oordeelde door ze te vergelijken met een paar echte mensen.

3. De Uitslag: Wie is de beste Rechter?

Het resultaat was verrassend:

De duurste, gespecialiseerde AI's (zoals GPT-5) waren bijna net zo goed als de mensen. Ze konden de fouten in de Luxemburgse zinnen zien en filteren.
Sommige goedkopere of open-source AI's deden het ook goed, maar waren soms wat te streng of te laks.
Het belangrijkste: Door deze AI-rechters te gebruiken, konden ze een dataset maken die vijf keer zo groot is als wat er eerder bestond voor Luxemburgs.

4. Het Eindresultaat: JudgeWEL

Het resultaat heet JudgeWEL. Het is een enorme verzameling van bijna 29.000 zinnen in het Luxemburgs, waarin de namen van mensen, organisaties en locaties correct zijn gemarkeerd.

Ze hebben dit getest op andere computers (modellen) en die konden hiermee heel goed Luxemburgse namen herkennen.
Zelfs als ze dit trainden op de nieuwe dataset en testten op een oude, mens-gemaakte dataset, werkten ze perfect.

Waarom is dit belangrijk?

Stel je voor dat je een auto wilt bouwen, maar je hebt geen gereedschap. Voor talen als Luxemburgs was het gereedschap (data) er niet.
Deze paper toont aan dat je geen duizenden mensen nodig hebt om data te maken. Je kunt een slimme combinatie gebruiken:

Gebruik bestaande kennis (Wikipedia) als ruwe grondstof.
Gebruik slimme AI's als kwaliteitscontroleurs om de vuile stukjes weg te halen.
Je krijgt zo een schone, grote dataset die iedereen kan gebruiken om de taal digitaal te laten "leven".

Kortom: Ze hebben een slimme manier gevonden om een taal die in de digitale schaduw stond, te laten schitteren, zonder dat ze jarenlang handmatig hoefden te werken. Ze lieten de AI's het zware oordeel vellen, zodat de menselijke taal kan groeien.

Do LLMs Judge Distantly Supervised Named Entity Labels Well? Constructing the JudgeWEL Dataset

1. De Grondstof: Wikipedia als een schatkaart

2. Het Probleem: De "Vuilnisbak" van de AI

3. De Uitslag: Wie is de beste Rechter?

4. Het Eindresultaat: JudgeWEL

Waarom is dit belangrijk?

1. Het Probleem

2. Methodologie: De JudgeWEL-pijplijn

A. Basisdata en Entiteitskoppeling

B. Annotatieverbetering

C. LLM-as-a-Judge (Kerninnovatie)

D. Het Eindresultaat

3. Belangrijkste Resultaten

A. Prestaties van LLMs als "Rechter"

B. Prestaties van NER-modellen op judgeWEL

4. Bijdragen en Significantie

Conclusie

Do LLMs Judge Distantly Supervised Named Entity Labels Well? Constructing the JudgeWEL Dataset

1. De Grondstof: Wikipedia als een schatkaart

2. Het Probleem: De "Vuilnisbak" van de AI

3. De Uitslag: Wie is de beste Rechter?

4. Het Eindresultaat: JudgeWEL

Waarom is dit belangrijk?

1. Het Probleem

2. Methodologie: De JudgeWEL-pijplijn

A. Basisdata en Entiteitskoppeling

B. Annotatieverbetering

C. LLM-as-a-Judge (Kerninnovatie)

D. Het Eindresultaat

3. Belangrijkste Resultaten

A. Prestaties van LLMs als "Rechter"

B. Prestaties van NER-modellen op judgeWEL

4. Bijdragen en Significantie

Conclusie

Meer zoals dit

Diffusion Language Models Know the Answer Before Decoding

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá