Do LLMs Judge Distantly Supervised Named Entity Labels Well? Constructing the JudgeWEL Dataset

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Luxemburgisch ist ein "verwaistes Kind" im Internet

Stell dir vor, die Welt der künstlichen Intelligenz (KI) ist eine riesige Bibliothek. In dieser Bibliothek gibt es für Sprachen wie Englisch oder Deutsch ganze Hallen voller Bücher, die den Computern beibringen, wie man Sätze versteht, Namen erkennt und Zusammenhänge findet.

Aber für Luxemburgisch? Da steht nur ein kleines, staubiges Regal mit ein paar verstaubten Büchern. Das ist das Problem: Um eine KI zu trainieren, braucht man riesige Mengen an Texten, in denen Menschen bereits markiert haben: "Das ist ein Name", "Das ist ein Ort", "Das ist eine Organisation". Das nennt man Named Entity Recognition (NER).

Für Luxemburgisch gab es bisher nur sehr wenige solcher "markierten Bücher". Ohne diese Daten ist die KI wie ein Schüler, der in eine Prüfung geschickt wird, ohne jemals gelernt zu haben.

Die Lösung: Ein cleverer Trick mit Wikipedia und KI-Richtern

Die Forscher aus Luxemburg und Großbritannien haben sich etwas Cleveres ausgedacht, um dieses Problem zu lösen. Sie wollten keine Tausende von Menschen bezahlen, um Sätze manuell zu markieren (das wäre zu teuer und zu langsam). Stattdessen haben sie einen drei-stufigen Plan entwickelt, den man sich wie eine hochmoderne Fabrik vorstellen kann:

1. Die Rohstoff-Fabrik (Wikipedia & Wikidata)

Stell dir vor, sie nehmen die luxemburgische Wikipedia. In Wikipedia sind viele Wörter mit Links versehen, die auf andere Artikel zeigen (z. B. "Jean-Claude Juncker" verlinkt auf den Artikel über ihn).

Der Trick: Die Forscher haben einen Roboter geschickt, der diese Links liest. Wenn ein Wort verlinkt ist, schaut der Roboter in die Datenbank Wikidata (eine riesige Wissensdatenbank).
Die Logik: Wenn Wikidata sagt "Jean-Claude Juncker ist ein Mensch", dann markiert der Roboter das Wort im Satz automatisch als "Person". Wenn es "Luxemburg" ist und Wikidata sagt "Das ist ein Land", wird es als "Ort" markiert.
Das Ergebnis: Sie haben so schnell Tausende von Sätzen mit Markierungen gesammelt. Aber... das ist wie eine Fabrik, die nur grob schätzt. Manchmal ist der Link falsch, manchmal ist die Markierung ungenau. Die Qualität ist noch nicht perfekt.

2. Der Qualitäts-Check (Die KI als Richter)

Hier kommt der eigentliche Clou der Studie ins Spiel. Da die automatische Markierung nicht immer perfekt ist, brauchen sie jemanden, der die Arbeit prüft. Aber sie wollen keine Menschen dafür bezahlen (zu teuer).

Die Idee: Sie haben verschiedene große Sprach-KIs (LLMs) wie GPT-5, Llama oder Mistral als "Richter" eingesetzt.
Die Aufgabe: Die KI bekommt einen Satz mit den automatisch gemachten Markierungen und muss entscheiden: "Ist das korrekt? Ja, behalten wir den Satz. Nein, wir werfen ihn weg."
Der Test: Die Forscher haben getestet, welche KI am besten urteilt. Sie haben eine kleine Gruppe echter Menschen als "Schiedsrichter" hinzugezogen, um zu sehen, welche KI am nächsten an die menschliche Urteilskraft herankommt.
Das Ergebnis: Die teuersten und stärksten KIs (wie GPT-5) waren fast so gut wie die Menschen! Sie konnten sehr gut erkennen, wann eine Markierung falsch war.

3. Das fertige Produkt (JudgeWEL)

Am Ende haben sie alle Sätze, die von den besten KI-Richtern als "gut" befunden wurden, gesammelt.

Das Ergebnis ist ein neuer Datensatz namens JudgeWEL.
Er ist fünfmal größer als alles, was es vorher für Luxemburgisch gab.
Er ist viel vielfältiger und enthält mehr verschiedene Arten von Namen (Personen, Orte, Daten, Organisationen).

Was haben sie herausgefunden?

KIs können Richter sein: Es funktioniert tatsächlich! Große Sprachmodelle können sehr gut beurteilen, ob eine automatische Markierung in einem Text Sinn ergibt, selbst wenn sie die Sprache (Luxemburgisch) nicht perfekt beherrschen. Das spart enorm viel Zeit und Geld.
Nicht alles ist perfekt: Die KIs sind gut im Erkennen von Daten (z. B. "Heute ist der 1. Mai") und Personen, aber bei sehr speziellen oder seltsamen Kategorien hatten sie manchmal Schwierigkeiten.
Der beste Lehrer: Wenn man eine KI mit diesem neuen, riesigen Datensatz (JudgeWEL) trainiert, wird sie viel besser darin, luxemburgische Texte zu verstehen, als wenn man sie nur mit den alten, kleinen Daten trainiert.

Die große Metapher: Der Bau eines Hauses

Stell dir vor, du willst ein Haus bauen (eine KI für Luxemburgisch), aber du hast keine Steine (Daten).

Der alte Weg: Du wartest, bis jemand Tausende von Steinen von Hand schneidet und sortiert. Das dauert Jahre.
Der neue Weg (diese Studie):
1. Du nimmst einen Bagger (Wikipedia), der einfach Steine aus dem Boden gräbt. Die sind aber oft schmutzig und ungleichmäßig.
2. Du stellst einen sehr klugen Aufseher (die KI als Richter) auf. Er schaut sich jeden Stein an und sagt: "Ja, dieser Stein ist gut, wir bauen ihn ein" oder "Nein, der ist kaputt, weg damit".
3. Am Ende hast du einen riesigen, sauberen Haufen Steine, mit dem du ein stabiles Haus bauen kannst.

Fazit

Diese Studie zeigt, dass wir für Sprachen, die in der digitalen Welt unterrepräsentiert sind (wie Luxemburgisch), nicht mehr warten müssen, bis Menschen alles von Hand machen. Wir können Wikipedia als Rohstoffquelle nutzen und starke KIs als Qualitätskontrolleure einsetzen. Das macht die Welt der KI gerechter und sorgt dafür, dass auch "kleine" Sprachen endlich eine Stimme bekommen.

Do LLMs Judge Distantly Supervised Named Entity Labels Well? Constructing the JudgeWEL Dataset

Das Problem: Luxemburgisch ist ein "verwaistes Kind" im Internet

Die Lösung: Ein cleverer Trick mit Wikipedia und KI-Richtern

1. Die Rohstoff-Fabrik (Wikipedia & Wikidata)

2. Der Qualitäts-Check (Die KI als Richter)

3. Das fertige Produkt (JudgeWEL)

Was haben sie herausgefunden?

Die große Metapher: Der Bau eines Hauses

Fazit

1. Problemstellung

2. Methodik: Die JudgeWEL-Pipeline

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Do LLMs Judge Distantly Supervised Named Entity Labels Well? Constructing the JudgeWEL Dataset

Das Problem: Luxemburgisch ist ein "verwaistes Kind" im Internet

Die Lösung: Ein cleverer Trick mit Wikipedia und KI-Richtern

1. Die Rohstoff-Fabrik (Wikipedia & Wikidata)

2. Der Qualitäts-Check (Die KI als Richter)

3. Das fertige Produkt (JudgeWEL)

Was haben sie herausgefunden?

Die große Metapher: Der Bau eines Hauses

Fazit

1. Problemstellung

2. Methodik: Die JudgeWEL-Pipeline

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Diffusion Language Models Know the Answer Before Decoding

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá